Proximal Policy Optimization מה זה

34:23
 
שתפו
 

Manage episode 320536433 series 2995782
על ידי Tamir Nave & Uri Goren, Tamir Nave, and Uri Goren התגלה על ידי Player FM והקהילה שלנו - זכויות היוצרים שמורות למפרסם, לא ל-Player FM, והשמע מוזרם ישירות מהשרתים שלכם. הירשמו כדי לעקוב אחר עדכונים ב-Player FM, או הדביקו את כתובת העדכונים באפליקציות פודקאסט אחרות.

כבר התרגלנו בעולם המשין לרנינג, ששום מודל לא שורד יותר משנה-שנתיים בתור ה

SOTA

עד שמגיעה גישה חדשה שטורפת את הקלפים.

לכן מעניין דווקא לדבר על

PPO

שנשאר הגישה הדומיננטי ב

Reinforcement learning

כבר חמש שנים, ולא נראה שהוא הולך לשום מקום.

נלמד על הבעיתיות של למידה רק עם גרדיאנט, ונדבר על מה זה "גרדיאנט טבעי"

18 פרקים