התחל במצב לא מקוון עם האפליקציה Player FM !
על התאוריה של Replay Buffer עם שירלי די קסטרו שעשוע
Manage episode 360909718 series 2995782
פרק נוסף בתחום הלמידה החיזוקית, הפעם צוללים לפרטים הטכניים עם התאוריה מאחורי
Replay Buffer
סוכן, יכול ללמוד רק מהפעולות שלו - מה שנקרא
On Policy
או למידה גם מפעולות של סוכנים אחרים, מה שנקרא
Off Policy
בגישת הריפליי באפר, שומרים "הקלטה" של פעולות עבר ותוצאות עבר - ודוגמים מתוכן לצרכי הלמידה.
שירלי תספר לנו על המחקר שלה לגבי השפעת גודל הבאפר, והשיפור בתוצאות של אימוני מודלי
RL
83 פרקים
Manage episode 360909718 series 2995782
פרק נוסף בתחום הלמידה החיזוקית, הפעם צוללים לפרטים הטכניים עם התאוריה מאחורי
Replay Buffer
סוכן, יכול ללמוד רק מהפעולות שלו - מה שנקרא
On Policy
או למידה גם מפעולות של סוכנים אחרים, מה שנקרא
Off Policy
בגישת הריפליי באפר, שומרים "הקלטה" של פעולות עבר ותוצאות עבר - ודוגמים מתוכן לצרכי הלמידה.
שירלי תספר לנו על המחקר שלה לגבי השפעת גודל הבאפר, והשיפור בתוצאות של אימוני מודלי
RL
83 פרקים
כל הפרקים
×ברוכים הבאים אל Player FM!
Player FM סורק את האינטרנט עבור פודקאסטים באיכות גבוהה בשבילכם כדי שתהנו מהם כרגע. זה יישום הפודקאסט הטוב ביותר והוא עובד על אנדרואיד, iPhone ואינטרנט. הירשמו לסנכרון מנויים במכשירים שונים.