红菊直播官方版-红菊直播免费版app下载-红菊直播永久免费版下载

網站首頁
手機版

普林斯頓大學如何,普林斯頓學院設置

更新時間:2024-06-01 10:58作者:頭條共創(chuàng)

普林斯頓大學最系統(tǒng)的強化學習講義現(xiàn)已上線!

系統(tǒng)總結了強化學習領域幾乎所有的概念和方法,包括多臂老虎機問題。

每章都包含pytorch實現(xiàn)的公式和源代碼的完整解決方案。

b6767608934e44a89ab72fe831cbba39~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1717815506&x-signature=SjiB%2B2kbWFuJzzeElZ%2B%2FGr%2FMyEs%3D 詳細目錄

2d228018bd594d44bd5b7fda40a2eb84~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1717815506&x-signature=zbQz%2B6WiQAt927OmcEahpRptDxM%3D1。多臂老虎機:強化學習側重于智能體與環(huán)境交互過程中的學習。在正式學習強化學習之前,需要了解多臂老虎機問題,通??梢詫⑵湟暈閺娀瘜W習問題的簡化版本。與強化學習不同,多臂老虎機沒有狀態(tài)信息,只有動作和獎勵,可以被認為是“與環(huán)境交互中學習”的最簡單形式。多臂老虎機中的探索和利用問題一直是一個經典問題,理解它將有助于你以后了解強化學習是什么。

0ef1dff714de424ca2ccdbd0db8ca4ac~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1717815506&x-signature=rIfTZj8KKesMe9PrXn3GGvCF5vQ%3D2。動態(tài)規(guī)劃:基于動態(tài)規(guī)劃的強化學習算法主要有兩種類型。一種是策略迭代,另一種是值迭代。其中,策略迭代有兩部分: 策略評估(Policy Evaluation)和策略改進(Policy Improvement)。具體來說,策略迭代中的策略評估使用貝爾曼期望方程來獲得策略的狀態(tài)值函數。這是一個動態(tài)規(guī)劃過程。值迭代直接利用貝爾曼最優(yōu)方程進行動態(tài)規(guī)劃,得到最終的最優(yōu)狀態(tài)值。

938053ad10034d0cb64d8051307073b2~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1717815506&x-signature=bSvTolECOj%2BCBOBgpT6wpfFjbwQ%3D3。馬爾可夫決策過程(MDP):馬爾可夫獎勵過程(Markov Reward Process)是強化學習的基礎。要成功學習強化學習,您必須首先清楚地了解馬爾可夫決策過程的基礎知識。我們通常在強化學習中談論的環(huán)境一般是馬爾可夫決策過程。與多臂老虎機不同,馬爾可夫決策過程包括狀態(tài)信息和狀態(tài)之間的轉換機制。如果你想用強化學習來解決一個實際問題,你必須采取的第一步就是將實際問題抽象為一個馬爾可夫決策過程,即明確定義馬爾可夫決策過程的各個組成部分。在本節(jié)中,我們將逐步介紹馬爾可夫過程,從馬爾可夫過程開始,最后介紹馬爾可夫決策過程。

3a78e3da03564cf3ba74f33475516b8e~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1717815506&x-signature=d%2FaY8dvLwWV%2FQ9gGksmhZe7kPs4%3D4。 時差學習:兩種經典的強化學習算法:Sarsa和Q-learning都是基于時差的強化學習算法。與之前學習的基于動態(tài)規(guī)劃的算法不同,基于時間差的算法不需要提前知道環(huán)境的狀態(tài)轉移函數或獎勵函數,而是使用通過與環(huán)境交互而采樣的數據,因為它可以直接使用,它應該適用于一些簡單的實際場景中的人。同時,本課程還介紹了一套:線上線下策略學習理念。一般來說,離線策略學習可以更好地利用歷史數據,從而導致樣本復雜度較低(算法必須在環(huán)境中采樣才能達到收斂結果的樣本數量),并且一般離線策略學習算法更為常見。

7b52b11c0242486b81c033880eef1abb~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1717815506&x-signature=hiZHJMsDczsM%2BJXaJILSJZYyYGw%3D5:在強化學習中,模型通常是指對環(huán)境的狀態(tài)轉換和獎勵函數進行建模。根據環(huán)境中是否存在模型,強化學習技術可以分為兩種類型:基于模型的強化學習和無模型強化學習。無模型強化學習直接根據通過與環(huán)境交互采樣的數據改進策略并估計價值。 Sarsa算法和Q-learning算法是兩種無模型強化學習方法,后續(xù)課程介紹的大部分方法也都是無模型強化學習方法。基于模型的強化學習允許模型預先已知或基于通過與環(huán)境交互采樣的數據來學習,并且該模型可用于改進策略和估計價值。策略迭代和值迭代是基于模型的強化學習技術,其中環(huán)境模型是預先已知的。本課程介紹的Dyna-Q算法也是一種非?;A的基于模型的強化學習方法,其環(huán)境模型是通過估計得到的。

2a5db5b007bf447fa252764eb2389cc0~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1717815506&x-signature=g1kaiTVXjJtHEj1LQGMnnkP60Vw%3D6。 DQN(Deep Q-Network):在類似CartPole的環(huán)境中獲取動作價值函數Q(s,a),不能使用公共表記錄,因為狀態(tài)的每個維度都是連續(xù)的。解決方案這就是利用FunctionAccumulation的思路。由于神經網絡強大的表示能力,我們可以用它們來表示Q函數。如果動作是無限的,神經網絡的輸入是狀態(tài)s和動作a,輸出是一個標量,表示在狀態(tài)s下執(zhí)行動作a可以獲得的值。

d760416107cd4ca58a47e0008646d099~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1717815506&x-signature=YrXkjgU4YL%2FC7Zx2pNdZUGlSlGg%3D7。政策梯度:

核心思想:策略梯度算法的核心思想是通過梯度上升逐步優(yōu)化策略,以最大化累積獎勵。在算法中,策略通常表示為參數化概率分布,智能體根據該分布選擇動作。策略的參數化表示決定了行為策略的具體形式。智能體的目標是找到最優(yōu)的策略參數集,使其在根據策略與環(huán)境交互時獲得最大的累積獎勵。主要組成部分:策略梯度算法的主要組成部分包括狀態(tài)值函數、策略和策略梯度。策略是從狀態(tài)到行動的概率分布,指導代理在環(huán)境中做出決策。策略梯度是策略相對于狀態(tài)值函數的梯度,用于指導策略梯度算法的梯度上升。

5efcd000a1254d2497c650bba86f1c42~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1717815506&x-signature=AVCXx4IL8sCUGezjuggl%2BhP7d24%3D8。

基本的

Actors(策略網絡):Actors將當前狀態(tài)作為輸入并輸出動作的概率分布。然后,參與者根據這個概率分布選擇并執(zhí)行一個動作。攻擊者的目標是最大化預期累積獎勵。 Critic(價值網絡):Critic將當前狀態(tài)(或狀態(tài)-動作對)作為輸入,并輸出表示當前狀態(tài)(或狀態(tài)-動作對)的值的標量值。該值通常是對未來累積補償的估計。批評家的目標是準確評估價值函數。

2973e588cccd47968a9fc24696ec0102~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1717815506&x-signature=NnF%2FNeWZUvaA13KUy%2F7I6P9cz7I%3D 在學習這些知識點時,最好先掌握線性代數、概率統(tǒng)計、優(yōu)化技術等基礎數學和機器學習概念。同時,學生將通過實踐和閱讀加深對古典文學的理解和掌握。

fe047692aa104426af118fa6c71178c5~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1717815506&x-signature=cX8Blc8ygs9yAYu1CserGUyPpiY%3D 見下圖了解如何獲取全套名校講義。

46ed31ff75c2439eb85945d3a9869bd7~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1717815506&x-signature=uOsHP0X%2FahD0eS9p3WjHohNA6HQ%3D

版權聲明:本文由今日頭條轉載,如有侵犯您的版權,請聯(lián)系本站編輯刪除。

為您推薦

加載中...