美國留學選擇什么專業(yè)好?留學美國熱門專業(yè)推薦
2019-06-26
更新時間:2024-06-01 10:58作者:頭條共創(chuàng)
普林斯頓大學最系統(tǒng)的強化學習講義現(xiàn)已上線!
系統(tǒng)總結了強化學習領域幾乎所有的概念和方法,包括多臂老虎機問題。
每章都包含pytorch實現(xiàn)的公式和源代碼的完整解決方案。
詳細目錄
1。多臂老虎機:強化學習側重于智能體與環(huán)境交互過程中的學習。在正式學習強化學習之前,需要了解多臂老虎機問題,通??梢詫⑵湟暈閺娀瘜W習問題的簡化版本。與強化學習不同,多臂老虎機沒有狀態(tài)信息,只有動作和獎勵,可以被認為是“與環(huán)境交互中學習”的最簡單形式。多臂老虎機中的探索和利用問題一直是一個經典問題,理解它將有助于你以后了解強化學習是什么。
2。動態(tài)規(guī)劃:基于動態(tài)規(guī)劃的強化學習算法主要有兩種類型。一種是策略迭代,另一種是值迭代。其中,策略迭代有兩部分: 策略評估(Policy Evaluation)和策略改進(Policy Improvement)。具體來說,策略迭代中的策略評估使用貝爾曼期望方程來獲得策略的狀態(tài)值函數。這是一個動態(tài)規(guī)劃過程。值迭代直接利用貝爾曼最優(yōu)方程進行動態(tài)規(guī)劃,得到最終的最優(yōu)狀態(tài)值。
3。馬爾可夫決策過程(MDP):馬爾可夫獎勵過程(Markov Reward Process)是強化學習的基礎。要成功學習強化學習,您必須首先清楚地了解馬爾可夫決策過程的基礎知識。我們通常在強化學習中談論的環(huán)境一般是馬爾可夫決策過程。與多臂老虎機不同,馬爾可夫決策過程包括狀態(tài)信息和狀態(tài)之間的轉換機制。如果你想用強化學習來解決一個實際問題,你必須采取的第一步就是將實際問題抽象為一個馬爾可夫決策過程,即明確定義馬爾可夫決策過程的各個組成部分。在本節(jié)中,我們將逐步介紹馬爾可夫過程,從馬爾可夫過程開始,最后介紹馬爾可夫決策過程。
4。 時差學習:兩種經典的強化學習算法:Sarsa和Q-learning都是基于時差的強化學習算法。與之前學習的基于動態(tài)規(guī)劃的算法不同,基于時間差的算法不需要提前知道環(huán)境的狀態(tài)轉移函數或獎勵函數,而是使用通過與環(huán)境交互而采樣的數據,因為它可以直接使用,它應該適用于一些簡單的實際場景中的人。同時,本課程還介紹了一套:線上線下策略學習理念。一般來說,離線策略學習可以更好地利用歷史數據,從而導致樣本復雜度較低(算法必須在環(huán)境中采樣才能達到收斂結果的樣本數量),并且一般離線策略學習算法更為常見。
5:在強化學習中,模型通常是指對環(huán)境的狀態(tài)轉換和獎勵函數進行建模。根據環(huán)境中是否存在模型,強化學習技術可以分為兩種類型:基于模型的強化學習和無模型強化學習。無模型強化學習直接根據通過與環(huán)境交互采樣的數據改進策略并估計價值。 Sarsa算法和Q-learning算法是兩種無模型強化學習方法,后續(xù)課程介紹的大部分方法也都是無模型強化學習方法。基于模型的強化學習允許模型預先已知或基于通過與環(huán)境交互采樣的數據來學習,并且該模型可用于改進策略和估計價值。策略迭代和值迭代是基于模型的強化學習技術,其中環(huán)境模型是預先已知的。本課程介紹的Dyna-Q算法也是一種非?;A的基于模型的強化學習方法,其環(huán)境模型是通過估計得到的。
6。 DQN(Deep Q-Network):在類似CartPole的環(huán)境中獲取動作價值函數Q(s,a),不能使用公共表記錄,因為狀態(tài)的每個維度都是連續(xù)的。解決方案這就是利用FunctionAccumulation的思路。由于神經網絡強大的表示能力,我們可以用它們來表示Q函數。如果動作是無限的,神經網絡的輸入是狀態(tài)s和動作a,輸出是一個標量,表示在狀態(tài)s下執(zhí)行動作a可以獲得的值。
7。政策梯度:
核心思想:策略梯度算法的核心思想是通過梯度上升逐步優(yōu)化策略,以最大化累積獎勵。在算法中,策略通常表示為參數化概率分布,智能體根據該分布選擇動作。策略的參數化表示決定了行為策略的具體形式。智能體的目標是找到最優(yōu)的策略參數集,使其在根據策略與環(huán)境交互時獲得最大的累積獎勵。主要組成部分:策略梯度算法的主要組成部分包括狀態(tài)值函數、策略和策略梯度。策略是從狀態(tài)到行動的概率分布,指導代理在環(huán)境中做出決策。策略梯度是策略相對于狀態(tài)值函數的梯度,用于指導策略梯度算法的梯度上升。
8。
基本的
Actors(策略網絡):Actors將當前狀態(tài)作為輸入并輸出動作的概率分布。然后,參與者根據這個概率分布選擇并執(zhí)行一個動作。攻擊者的目標是最大化預期累積獎勵。 Critic(價值網絡):Critic將當前狀態(tài)(或狀態(tài)-動作對)作為輸入,并輸出表示當前狀態(tài)(或狀態(tài)-動作對)的值的標量值。該值通常是對未來累積補償的估計。批評家的目標是準確評估價值函數。
在學習這些知識點時,最好先掌握線性代數、概率統(tǒng)計、優(yōu)化技術等基礎數學和機器學習概念。同時,學生將通過實踐和閱讀加深對古典文學的理解和掌握。
見下圖了解如何獲取全套名校講義。
版權聲明:本文由今日頭條轉載,如有侵犯您的版權,請聯(lián)系本站編輯刪除。