שרון קנטור ומומחים לומדים ומלמדים דברים חדשים
Proximal Policy Optimization מה זה
MP3•בית הפרקים
Manage episode 320536433 series 2995782
על ידי Tamir Nave & Uri Goren, Tamir Nave, and Uri Goren התגלה על ידי Player FM והקהילה שלנו - זכויות היוצרים שמורות למפרסם, לא ל-Player FM, והשמע מוזרם ישירות מהשרתים שלכם. הירשמו כדי לעקוב אחר עדכונים ב-Player FM, או הדביקו את כתובת העדכונים באפליקציות פודקאסט אחרות.
כבר התרגלנו בעולם המשין לרנינג, ששום מודל לא שורד יותר משנה-שנתיים בתור ה
SOTA
עד שמגיעה גישה חדשה שטורפת את הקלפים.
לכן מעניין דווקא לדבר על
PPO
שנשאר הגישה הדומיננטי ב
Reinforcement learning
כבר חמש שנים, ולא נראה שהוא הולך לשום מקום.
נלמד על הבעיתיות של למידה רק עם גרדיאנט, ונדבר על מה זה "גרדיאנט טבעי"
18 פרקים