אורי גורן ותמיר נווה מדברים על Machine Learning ואתגרים בתעשייה עם מומחים מהתחום.
…
continue reading
1
להגדיר מחדש את החיפוש: חידושים ב - RAG עם ניר דיאנט
33:11
33:11
נגן מאוחר יותר
נגן מאוחר יותר
רשימות
לייק
אהבתי
33:11
בפרק הבא, נארח את ניר דיאנט, יועץ בתחום הבינה המלאכותית הגנרטיבית (GenAI) שיספר לנו על המסע המקצועי שלו והתפתחויות חדשניות בתחום. ניר מצטרף אלינו בעקבות תרומתו המשמעותית לשיטות RAG (Retrieval-Augmented Generation) כולל פיתוחים כמו GenAI Agents ו-Controlable RAG, שזכו להכרה רחבה ואף פורסמו על ידי מנכ״ל LangChain, האריסון צ׳ייס, כתכנים הפופולריים ביו…
…
continue reading
1
מדע הנתונים – איך הוא השתנה לאורך השנים עם דניאל אהרונוביץ'
39:59
39:59
נגן מאוחר יותר
נגן מאוחר יותר
רשימות
לייק
אהבתי
39:59
בפרק הזה דניאל ארונוביץ', מדען נתונים ותיק, מספר על המסע האישי שלו בתעשיית הטכנולוגיה לאורך 15 שנים. ניגע בהבדלים הבולטים בין העבר להווה, בכלים שהשתמשו בעבר לעומת הכלים שמשתמשים בהם היום שמחברים את המדע ישר לפרודקשן. דניאל מתאר את השינויים במיומנויות הנדרשות ממדעני נתונים, מיכולת ניתוח בלבד להכרח להבין תהליכי פיתוח וניהול גרסאות. נשוחח על האתגרים ה…
…
continue reading
החודש גוגל פרסמו את NotebookLM, שירות AI שמייצר שיחת עומק מוקלטת בין שני דוברים לא אמיתיים.כדי לבדוק את העניין, העלנו תמלול של "רק לא RAG" פרק הטיפים של אורי גורן מארגמקס על נסיונו עם ארכיטקטורת הRAG.והתוצאה, הפילה אותנו מהרגליים. נשמח לשמוע מה דעתכם? האם אפשר למכור את המיקרופון והציוד הקלטה ביד2?על ידי Tamir Nave & Uri Goren
…
continue reading
1
Data Science בעולם הביטוח עם דוד שוקרון
28:54
28:54
נגן מאוחר יותר
נגן מאוחר יותר
רשימות
לייק
אהבתי
28:54
בפרק הזה, דוד שוקרון, Head of DS & AI בביטוח ישיר, מספק הצצה לעולם מדעי הנתונים בתעשיית הביטוח. נשמע ממנו על ההבדלים בין אקטואריה ל-Data Science, ועל איך משלבים DS במערכות ותיקות של חברות ביטוח דוד יסביר על יישומי DS בתעשייה עתירת נתונים כמו ביטוח, בשימוש בכלים ומודלים שונים, כולל השאלה אם יש צורך בכלים ייחודיים או שניתן להסתפק במוצרי מדף קיימים. ב…
…
continue reading
1
LLM לייעוץ השקעות עם אלעד נחמיאס
28:50
28:50
נגן מאוחר יותר
נגן מאוחר יותר
רשימות
לייק
אהבתי
28:50
בפרק זה, אנחנו נשוחח עם אלעד נחמיאס CTO של Bridgewise, על השימוש במודלי שפה גדולים (LLMs) בתחום ההשקעות. אלעד יסביר לנו איך משלבים טכנולוגיות מתקדמות כדי לשפר תהליכי הייעוץ והאנליזה, תוך התמודדות עם אתגרים כמו דיוק הנתונים, הטיות פוטנציאליות ושמירה על פרטיות המידע. נשמע על האתגרים הטכניים והאתיים של יישום LLMs, איך Bridgewise מוודאת שהפתרונות שלה נ…
…
continue reading
1
Adaptive-RAG עם לירון יצחקי אלרהנד
30:35
30:35
נגן מאוחר יותר
נגן מאוחר יותר
רשימות
לייק
אהבתי
30:35
בפרק הזה, נצלול יחד עם לירון יצחקי אלרהנד ל Interleaving Retrieval with Chain of Thought (IRCoT) שיטה לשיפור מערכות שאלה ותשובה על ידי הרחבה איטרטיבית של תהליך חשיבה ואחזור מידע רלוונטי. נדבר על טכניקות שונות של אחזור אדפטיבי, נשווה את יעילותן על סמך מורכבות השאלה, ונדגיש את החשיבות של בחירת הגישה הנכונה לתרחישים שונים המלצות של לירון למי שמועניין …
…
continue reading
1
Task Aware Embedding עם ענבל חורב
18:30
18:30
נגן מאוחר יותר
נגן מאוחר יותר
רשימות
לייק
אהבתי
18:30
לא רק היופי הוא בעיניי המתבונן, מסתבר שגם הדימיון הסמנטי בפרק הזה ענבל תספר לנו איך התגלגלה מטוקיו ל בגונג senior staff researcher כשחושבים על אמבדינגז, הרבה פעמים חושבים על חיפוש וקטורי ו RAG נדבר על החשיבות של אמבדינג טוב דווקא בשלב הכרת הדאטא ובחירת דוגמאות מעניינות לאימון. נסקור את ההיסטוריה של אמבדינג, ללא הקשר, עם הקשר, ועד Task aware embeddi…
…
continue reading
1
מלימודים הומניסטים למדעי הנתונים - פרק בשיתוף עם YData
28:54
28:54
נגן מאוחר יותר
נגן מאוחר יותר
רשימות
לייק
אהבתי
28:54
בפרק זה ריאיינו את אורי גוטליב ונטע בר על המעבר שלהם לעולם ה data science במסגרת ההכשרה שלהם ב YData.על הפער העצום בין התאוריה לעבודה מעשית ועל הפרויקט שעשו שהביא אותם לעבודה הנוכחית שלהם. קישורים: אורי גוטליב נטע בר wids il facebook Wids-linkdin קהילת באותעל ידי Tamir Nave & Uri Goren
…
continue reading
1
בינה מלאכותית וצ'יפים - עם ד"ר אמיתי ערמון
37:06
37:06
נגן מאוחר יותר
נגן מאוחר יותר
רשימות
לייק
אהבתי
37:06
אינטל העולמית נמצאת השבוע בכותרות בעקבות ההצהרה על הצמצומים, וזו הזדמנות מעולה להזכיר על הפעילות המדהימה של קבוצת הדאטא סיינס של אינטל ישראל. החודש פורסם כי הקבוצה AI Solutions Group זכתה בפרס הארגון המצטיין העולמי של אינטל. בפרק זה ד"ר אמיתי ערמון יספר לנו על התפקיד שלו בתור ה Chief Data Scientist של הקבוצה, מה היא עושה? מה האתגרים היחודיים שלהם? …
…
continue reading
1
על מודלים פתוחים, רשיונות ורגולציה עם עופר חרמוני
30:17
30:17
נגן מאוחר יותר
נגן מאוחר יותר
רשימות
לייק
אהבתי
30:17
קוד פתוח זה נושא מורכב, יש כמה סוגים של רשיונות כמו GPL, Apache, MIT וכו׳.העניינים מסתבכים עוד יותר כשמדברים על מודלים פתוחים, האם קוד המודל פתוח? אולי רק המאמר? אולי רק המשקולות פתוחות? ומה לגבי הדאטא?בפרק זה עופר חרמוני, יועץ בתחום הAI וחבר בLinux foundationיספר על הקריטריונים של הארגון למודלים פתוחים, ונמנה מספר מודלים כאלו. עולם הAI מתקדם בקצב …
…
continue reading
גיא אדלר מחברת אקסיליון יחלוק איתנו מנסיונו בפיתוח ושימוש במערכות סימולציה לעולם התחבורה.אקסיליון מפתחת מוצר לעיריות לצורך אופטימיזציה של רמזורים ותנועה, כדי שכולנו נבלה כמה שפחות זמן בפקקים. נדבר על האתגרים בתחזית של אירועים נדירים כגון מזג אוויר, הופעות, ושיבושי תנועה.ועל החשיבות של עבודה משותפת עם מומחי תוכן ואינטגרציה עם מערכות אמיתיות של עיריו…
…
continue reading
1
ניסויים מדעיים באמצעות סימולציות - עם רותם רוזנבלום
33:50
33:50
נגן מאוחר יותר
נגן מאוחר יותר
רשימות
לייק
אהבתי
33:50
פרק פיצוץ על איך סימולציות יכולות לעזור לנו לחזות תגובה של חומרי נפץ במתחים שונים.בפרק זה רותם תספר לנו על המחקר האקדמי שלה בשיתוף עם רפאל, ועל איך סימולציות עזרו לחסוך המון כסף וזמן על ניסוי שטח.נדבר על ההבדלים בין סימולציות סדרתיות, ובין סימולציות אגרגטיביות.ומדוע סימולציות הם הכלי הנכון לבדוק את המודל שלנו בכל מיני מקרי קצה נדירים, או שטרם קרו. …
…
continue reading
1
על ההיסטוריה של סימולציות עם יניב טננבאום קטן
30:36
30:36
נגן מאוחר יותר
נגן מאוחר יותר
רשימות
לייק
אהבתי
30:36
סימולציות היו פעם כלי הניבוי המרכזי, והיום הוחלפו על ידי מודלי למידת מכונה.האם מדובר בכלי מיושן ולא רלוונטי, או באומנות עתיקה שנשכחה.בפרק זה נדבר על המוטיבציות לסימולציות אל מול הרצת ניסויים על דאטא אמיתי, ונדבר על החוזקות והחולשות מול מודלי למידת מכונה. קורס חינמי של אוניברסיטת חיפה על סימולציותעל ידי Tamir Nave & Uri Goren
…
continue reading
1
המלצות, סימולציות, שינוי העדפות ודילמות טווח ארוך - טווח קצר - עם פרופ׳ עומר בן פורת
40:11
40:11
נגן מאוחר יותר
נגן מאוחר יותר
רשימות
לייק
אהבתי
40:11
מערכות המלצה נתפסות לרוב כבעיית רגרסיה או קלאסיפיקציה, בפרק זה פרופסור עומר בן פורת מהטכניון ואורי ינהלו דיון טכני על האתגרים במידול סטטי כזה.נדבר על יצירת העדפות, ועל האחריות המשפטית של מערכת ההמלצה.מערכת המלצה אמורה למדל אנשים, ואנשים הם לא יצור רציונאלי או עקבי - כיצד מערכת ההמלצה אמורה להתמודד עם זה? ונדבר על החשיבות של סימולציה למדידה ואימון מ…
…
continue reading
1
Consistency Large Language Models עם מייק ארליכסון
29:12
29:12
נגן מאוחר יותר
נגן מאוחר יותר
רשימות
לייק
אהבתי
29:12
למודלי שפה (גדולים) יש שלושה תת-מודלים: הטוקנייזר, הטרנספורמר, ואלגוריתם הפענוח. אלגוריתם הפיענוח בדרך כלל אינו נלמד, אלא הוא איזה שהיא יוריסטיקה סדרתית של חיפוש בעץ על סמך ההסתברויות של הטרנספורמר.אבל מי מבטיח שהיוריסטיקה הזו היא הדבר האידיאלי לעשות בהנתן הפלט של הטרנספורמר.Consistency LLMs מנסים לקשור את שתי הקצוות, ולהתאים את ההטרנספורמר לאלגורי…
…
continue reading
1
Predictive mean matching and imputation - השלמת ערכים חסרים איטרטיבית
8:28
8:28
נגן מאוחר יותר
נגן מאוחר יותר
רשימות
לייק
אהבתי
8:28
ערכים חסרים הם נחלתו של כל מי שעוסק בעיבוד מידע טבלאי, הפעם נתמקד בהשלמת ערכים רציפים עם Predictive mean matching.אחת השיטות הנפוצות MICE, לא היתה זמינה עד לאחרונה למשתמש פייתון - וכעת נמצאת במודול הexperimental של scikit learn. נעשה סקירה קצרה על מתי כדאי להשלים ערכים חסרים ומתי לא, ונדבר על השיטות הנפוצות להשלמה.…
…
continue reading
הרבה מאיתנו שמעו בכותרות על KAN פה, KAN שם - ולא היה ברור מה המהומה. Kolmogorov Arnold network זו ארכיטקטורה שמאיימת לשנות את איך שאנחנו חושבים על רשתות נוירונים, החל במבנה של נוירון ועד יכולת ההסבר.בנוסף, לרשתות כאן יש פי עשר פחות פרמטרים והן דלילות יותר - נשמע מדהים.אבל, הפוטנציאל הוא גדול אבל המציאות היא בפרטים הקטנים - אותם נכסה בפרק הזה…
…
continue reading
מי לא שמע על RAG, נראה שכולם מדברים, מממשים ומאפטמים ראגים לכל שימוש.בפרק זה אורי שוטח את משנתו על ראגים, וטוען שהם בשימוש יתר בתעשייה (יש יגידו הייפ), ואלו הן הסיבות1. אתם אחראיים (משפטית) על הפלט שלהם - אם אין בן אדם בלופ - יש בעיה2. שאילתות סמנטיות לא מתאימות להמון מקרים, חיפוש וקטורי הוא לא התשובה לretrieval3. זה נראה כאילו חיפוש וקטורי נועד לח…
…
continue reading
מירב גרימברג עוסקת למחייתה בפיתוח מנוע החיפוש הוקטורי של רדיס, הגיעה לספר לנו תובנות מבפנים.לאחרונה רואים שיותר ויותר דאטאבייסים ״מסורתיים״ מוסיפים פונקציונאליות של חיפוש וקטורי, רדיס הוא אחד מהם. רדיס, הוא היום שירות ברירת המחדל לחיפוש key-value מהיר בזמן אמת. וגם מנוע חיפוש וקטורי המממש את אלגוריתם הhnsw לחיפוש וקטורי מקורב. מירב תספר לנו על האיל…
…
continue reading
עכשיו כשהעולם רועש סביב מודלי שפה גדולים וחזקים שאינם טרנספורמרים (מאמבה, rwkv) - הגיע הזמן להיזכר מה הוא הטרנספורמר ומה היו המוטיבציות ליצירתו. פרק זה הינו שידור חוזר של פרק מ2020, האזנה מרתקת לאזניים של 2024.על ידי Tamir Nave & Uri Goren
…
continue reading
1
כישורים רכים למדעני נתונים - עם בוריס גורליק
24:30
24:30
נגן מאוחר יותר
נגן מאוחר יותר
רשימות
לייק
אהבתי
24:30
בוריס גורליק, יועץ דאטא מנוסה עם רקע ניכר בדאטא טבלאי, ויזואליזציה וסדרות זמן - ידבר איתנו על דווקא על נושא אחר: Soft skills.מדעני נתונים, הם לא רק אנשים טכניים שיודעים להריץ פייתון ולאפטם מודלים - הכוונה ב״כישורים רכים״ זה לכל יכולת התקשורת בארגון ובצוות, ובעבודה במשותף כחלק מאתגר גדול יותר. נדבר על אתגרים נפוצים בחיי הDS ועל איך נכון לבנות מצגת ב…
…
continue reading
1
על למידה מונחית עצמית עם מייק ארליכסון Self Supervised
50:40
50:40
נגן מאוחר יותר
נגן מאוחר יותר
רשימות
לייק
אהבתי
50:40
בפרק זה אירחנו את מיכאל ארליכסון לדבר על self supervised learning. דיברנו על בעיית דלילות הסיגנל, ועלות התיוג. למידה self supervised מתמקדת בלמידת היצוג הוקטורי על ידי משימות שלא דורשות תיוג. לדוגמא, אם לקחנו תמונה ו הרעשנו אותה (או סיבוב, שיקוף, זום) נצפה שוקטור היצוג יהיה דומה. דיברנו על טכניקות שונות ללמידת יצוגים, כגון רשתות סיאמיות, למידה ניגו…
…
continue reading
1
על פרטיות דיפרנציאלית עם משה שנפלד
33:20
33:20
נגן מאוחר יותר
נגן מאוחר יותר
רשימות
לייק
אהבתי
33:20
יש הרבה עיסוק בסכנות הכרוכות בהדלפה של פרטים מזהים בדאטאסטים או בתוך משקולות של מודלים מאומנים. בפרק זה משה שנפלד, חוקר בתחום, יספר לנו כמה זה מורכב להפוך דאטאסט אנונימי ונדבר על כמה פדיחות שקרו בתחום. נדבר על האתגרים של אימון מודלים בצורה פרטית, והאם מדובר בסוג חדש של רגולרזיציה. נכסה אלגוריתמים כמו k-annonimity ונדבר על Differential privacy שהיא …
…
continue reading
1
איך ללמד מודל שפה לדבר כמו ערס עם חן מרגלית מ LSports
27:53
27:53
נגן מאוחר יותר
נגן מאוחר יותר
רשימות
לייק
אהבתי
27:53
בפרק זה חן מרגלית סיפר על פיתוח SEC by LSportsהבוט שמתמצת ועונה על שאלות על משחקי ספורט. הבעיה העיקרית היא שרוב מודלי השפה אומנו על ויקיפדיה, כתבות ואתרי שאלות ותשובות - ולא שפה השגורה במגרשי הכדורגל. חן יספר על התהליך של יצירת הדאטא, פיינטון וכמובן שרשרת המודלים ליצירת התחזיות שקדמה למענה של הצ׳טבוט.…
…
continue reading
1
AlgoGen - שילוב של אלגוריתמים ומודלי שפה גנרטיביים, עם אמיר שחר
28:11
28:11
נגן מאוחר יותר
נגן מאוחר יותר
רשימות
לייק
אהבתי
28:11
בפרק זה אמיר שחר יספר על שיטה חדשנית שפרסם לשילוב מודלי שפה יחד עם אלגוריתמים. לפני 20 שנים, כנראה שאם הייתם אומרים AI הייתם מתכוונים לאלגוריתמי חיפוש בעצים. אלגוריתמי חיפוש כמו A Star מנצחים מסטרים בשח מט, ואפילו עוזרים לנו להתמצא בעיר עם Waze. למעשה, אם מסתכלים עמוק בתוך LLM מגלים גם בו שימושים באלגוריתמי חיפוש. אמיר יספר מנסיונו איך אפשר לשפר אל…
…
continue reading
1
מערכות המלצה כמשק כלכלי - עם ד״ר עומר בן פורת
24:08
24:08
נגן מאוחר יותר
נגן מאוחר יותר
רשימות
לייק
אהבתי
24:08
נהוג להסתכל על מערכת המלצה כאל בעיית אופטימיזציה, איזה סרטון לנגן כך שיהיו הכי הרבה צפיות בהתחשב בהיסטוריית הלקוח.אבל אם לוקחים צעד אחורה, מגלים שאנחנו בשוק מסחר תלת צדדי. לסרטונים יש יוצרים, ולפלטפורמה יש בעלי מניות, וכמובן - אנחנו הצופים. כמובן שאם הפלטפורמה לא תהיה רווחית, תהיה בעיה בטווח המיידי - אבל גם אם יוצרי התוכן לא יזכו לחשיפה הם ינטשו את…
…
continue reading
רשתות נוירונים על שלל סוגיהן זוכות להרבה אטנשן - אבל בפועל, הרבה פרויקטים לא זקוקים לרשתות נוירונים.מודליים עציים הם בדרך כלל הפתרון הפשוט והיעיל לדאטא טבלאי.בפרק קצרצר זה, נסקור את עצי החלטה, תהליך אימונם ובעיית הOverfit.נדבר על שתי ההרחבות הנפוצות:Random Forest & Gradient Boosted Trees והיתרונות שיש בשימוש במודלים ותיקים בסביבת פרודקשן…
…
continue reading
1
אימות פורמלי של רשתות נוירונים עם איתי בוחניק וד״ר גיא אמיר
31:06
31:06
נגן מאוחר יותר
נגן מאוחר יותר
רשימות
לייק
אהבתי
31:06
נדירים המקרים בהם שני תחומים כ״כ רחוקים במדעי המחשב נפגשים, ועוד זוכים להגיע לפרודקשן. אימות פורמלי הוא תחום העוסק בוידוא מתמטי שתוכנית אמורה לרוץ בלי תקלות, והוכחה שהתוכנית מקיימת תכונות מסוימות. בדרך כלל רואים אימות פורמלי בתחומים כמו קומפילציה או לוגיקה, ולכן היה מרתק לשמוע איך שיטות תאורטיות כאלו מצאו את עצמן בישום אצל חברת אלביט המפתחת רשתות נ…
…
continue reading
1
Mamba סיכום מנהלים ותחזיות לעתיד,עם מייק ארליכסון
45:12
45:12
נגן מאוחר יותר
נגן מאוחר יותר
רשימות
לייק
אהבתי
45:12
עולם מודלי השפה מושתת על ארכיטקטורת הטרנספורמר שמכילה בעיה מובנית בתוכה - סיבוכיות ריבועית בקלט, ולאחרונה אלטרנטיבות מעניינות לטרנספורמר הגיחו לחיינו. פרק זה הינו פרק שני בסדרה, והוא סיכום מנהלים על עקרון הדואליות, מוטיבציה ותחזיות להמשך. מייק ואני נדבר על איך דואליות משפיעה על אימון יעיל והוזלה של עלויות, על ארכיטקטורות חומרה והתאמתן לטרנספורמרים.…
…
continue reading
1
Mamba סקירה טכנית עם מייק ארליכסון
49:30
49:30
נגן מאוחר יותר
נגן מאוחר יותר
רשימות
לייק
אהבתי
49:30
יש הרבה התרחשויות סביב ארכיטקטורות חדשות (שאינן טרנספורמר) שיכולות להיות המנוע מאחורי הLLM הבא. פרק זה הינו פרק ראשון מתוך שניים, על Mamba ו State Space Models שנראים אלטרנטיבה מבטיחה. נצלול טכנית למוטיבציה ולאלגוריתמים המתמטיים, ואיך פולינומי לג׳נדר קשורים לעניין. הפרק טיפה טכני מהרגיל, בפרק הבא נעלה רמה ונסקור את ההשלכות ותחזיות לדעתנו.…
…
continue reading
1
עולם ללא עוגיות - פרק הפוך עם דין פלבן
33:54
33:54
נגן מאוחר יותר
נגן מאוחר יותר
רשימות
לייק
אהבתי
33:54
פרק משותף עם דין פלבן מ The MLOps Podcastעל הנושא שמעסיק את עולם הפרסום היום. ברוח חקיקה אירופאית ואמריקאית, נהיה קשה יותר ויותר מבחינה חוקית לעקוב אחרי התנהגות משתמשים עם קוקיז (עוגיות).לשמירה על הפרטיות יש גם צד שנוגע לנו, אנשי הדאטא בכל הקשור למדידת איכות אלגוריתמים ולמידה. בפרק זה דין ייארח את אורי ונדון על מה אפשר לעשות.…
…
continue reading
1
למידה מולטי מודאלית עם ד״ר חן חג׳ג׳
27:55
27:55
נגן מאוחר יותר
נגן מאוחר יותר
רשימות
לייק
אהבתי
27:55
מודלים מולטי-מודאלים הגיעו לקידמת הבמה לאחרונה עם מודלים כמו chatGPT, Whisper, Midjourney.נדבר על האתגרים בשילוש מודלים חזותיים, טקסטואלים וגרפיים - כאשר המימדים שונים, המימדים שונים, ואיך מרוויחים מהשילוב הזה.נדבר על cross modal learning - איך אפשר ללמד מודל אחד על סמך מודאליות של מודל אחר.על ידי Tamir Nave & Uri Goren
…
continue reading
1
ניהול פרויקטי דאטא סיינס עם חן קרני
22:39
22:39
נגן מאוחר יותר
נגן מאוחר יותר
רשימות
לייק
אהבתי
22:39
ניהול אנשים זה אתגר, ניהול מחקר עם תוצר לא-וודאי - זה אתגר, וניהול ממשקים עם פרודקט,תוכנה והנהלה בכירה זה בכלל מורכב. בפרק זה אירחנו את חן קרני, מנהלת מנוסה בתחום הדאטא לדבר על איך עושים את זה נכון, וללמד מה עבד עבורה.איך לפרק פרויקטים גדולים למשימות קטנות (בשיטת הסלאמי) שאפשר לתקשר, איך למדוד ולהגדיר יעדים (שגם אפשר לעמוד בהם), ומה הם השלבים בפרוי…
…
continue reading
1
טרנספורמרים בעיבוד תמונה Visual Transformers
29:50
29:50
נגן מאוחר יותר
נגן מאוחר יותר
רשימות
לייק
אהבתי
29:50
טרנספורמרים הם ללא ספק המודל המועדף בעיבוד שפה - אבל האם גם בתמונות?אז... מסתבר שהתמונה לא כל כך ברורה בעיבוד תמונה.בפרק זה נדבר על היתרונות הגדולים של טרנספורמרים בתמונות - ועל הסיטואציות שבהן CNN מנצחות אותם. קישורים Attention is All You Need An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale End-to-End Object Detection wi…
…
continue reading
1
על אינטלגנציה מלאכותית בעולם המשפט - עם עומר חיון
36:22
36:22
נגן מאוחר יותר
נגן מאוחר יותר
רשימות
לייק
אהבתי
36:22
לפני כשש שנים עומר חיון ואורי גורן התחילו הרפתקאה בעולם הLegal tech והקימו את BestPractix בסט פרקטיקס התמקדה בשלב הטיוטות של החוזים, והיוותה כלי עזר לעורכי דין לזהות ״אנומליות״ בחוזים (שבדרך כלל די סטנדרטים), והצעה של אלטרנטיבות מקובלות יותר.בשנת 2020 בסט פרקטיקס נמכרה לLitera Systems האמריקאית, ועומר הועבר להמשך הפיתוח. הרבה השתנה בעולם הAI מאז, ו…
…
continue reading
1
AI Junk - איך עושים למידת מכונה עם קרטון ביצים
25:35
25:35
נגן מאוחר יותר
נגן מאוחר יותר
רשימות
לייק
אהבתי
25:35
דיברנו הפעם על פרויקט ai-junk המאפשר לכל אחד ליצור רובוטים מגרוטאות וליצור ולאמן מודלי reinforcement learning שישלטו ברובוטים. ובכך ליצור עולם משחק מרובה רובוטים על הריצפה בסלון.דיברנו על מה זה RL, על הקשיים להפוך RL שעובד טוב בוירטואלי לעולם הפיסי, על כמה נחמד ללמוד על התחום דרך רובוטים :)הפרק הוקלט לפני המלחמה ששיבשה לנו הכל וארועים שתוכננו בוטלו…
…
continue reading
1
מה עושים כשיש מעט נתונים - עם נתנאל דוידוביץ
27:24
27:24
נגן מאוחר יותר
נגן מאוחר יותר
רשימות
לייק
אהבתי
27:24
נתנאל, דאטא סיינטינסט ותיק שמוביל היום את המחקר בדאבל וריפיי ידבר איתנו על בעיה כואבת אך נפוצה. גייסנו תקציבים, כוח אדם, ועם הרבה רצון ומוטיבציה ניגשנו לפרויקט חדש - פתחנו את מכסה המנוע, וגילינו לצערינו שאין מספיק נתונים- מה הלאה ? נדבר על שלוש טקטיקות שאפשר לנקוט, בין אם זה תיוג עצמאי ורכישת דאטא, שימוש במודלים כגון Label spreading, transfer learn…
…
continue reading
יצא לנו הרבה לדבר על מודלי שפה גדולים לאחרונה, ועל השימושים שלהם. למעט שימוש בצ׳אטבוט או כעזר לכתיבה, לרוב אנחנו רוצים לקבל את הפלט של המודל בפורמט כלשהו כמו Json / Data Class נדבר על שלושת השלבים ביצירת הפלט, הטוקנייזר, הטרנספורמר, והמפענח. ונסביר איך אפשר להתערב במפענח כדי לאלץ את המודל כדי לקבל תשובות במבנה מסוים, להכריח את מודל לענות ״כן״ או ״ל…
…
continue reading
1
על מודלי שפה גדולים בפרודקשן עם איתי ציטבר
36:39
36:39
נגן מאוחר יותר
נגן מאוחר יותר
רשימות
לייק
אהבתי
36:39
בפרק זה אירחנו את איתי ציטבר רש"צ מהיירו - לדבר על מודלי שפה בפרודקשן. המודלי צ'אט כ"כ חזקים - האם בכלל נשאר מה לעשות חוץ מאשר לחבר את הAPI לאתר ?מצד שני, זה נראה כאילו כולם משתמשים בLLM, גם כאשר קיימים מודלים פשוטים יותר.נדבר על מה קורה כשהמלצת המודל מתנגשת עם נהלים רפואיים, מה קורה שהמודל נותן הנחיות שגויות למטופל, ואין אפשר לצמצם את התופעה עם Re…
…
continue reading
1
איך נולדים נתונים מתויגים עם דניאל מנוחין
23:47
23:47
נגן מאוחר יותר
נגן מאוחר יותר
רשימות
לייק
אהבתי
23:47
בפרק זה אירחנו את דניאל מנוחין, מנהלת קהילת data-ops המובילה את התיוג וטקסונומיה ב ebayבסופו של דבר, מודלים טובים ככל שיהיו - חסומים על ידי איכות הדאטא עליהם הם אומנו.דניאל תספר על החוויות שלה בebay, על נקודות כשל קלאסיות בתהליך התיוג ועל איך בונים פרוטוקול אנוטציה אחיד.נדון בהבדל בין מתייגים in-house שהם ממש חלק מהארגון, לעומת מתייגים חיצוניים (כד…
…
continue reading
זה מרגיש כאילו עולם הלמידה מחולק ל2 מחנות, הסטטיסטיקאים ואנשי מדעי המחשב.ולאחרונה יצא מודל AGLM שהוא רעידת אדמה בעולם האקטואריה (ביטוח, פיננסים), וכנראה שרובנו לא שמענו עליו.בפרק זה נסקור מה אלו מודלי GLM, ספוילר - אחד מהם - הרגרסיה הלוגיסטית, אתם מכירים היטב.נדבר על השימושים שלהם, היתרונות שלהם בתחום הפיננסים בעקבות יכולת ההסבר שלהם, ונדבר גם על ה…
…
continue reading
1
עם שוקי ויואל על מאחורי הקלעים של One Shot Learning
34:34
34:34
נגן מאוחר יותר
נגן מאוחר יותר
רשימות
לייק
אהבתי
34:34
מי לא מכיר את שוקי ויואל - הגאונים מאחורי ערוץ היוטיוב האדיר שמביא את תרבות הלייב קודינג בעולמות למידת המכונה לארץ הקודש.וואן שוט לרנינג התחיל לפני כשנתיים כרעיון, ומאז הפך לקאלט של ממש.אבל מאחורי כל סרטון של חצי שעה, מסתתרת עבודה רבה, מחקר, באגים, והמון נסיונות שהלכו לפח.בפרק זה אורי ראיין את שוקי ויואל על מאחורי הקלעים של ההפקה, ושואל שאלות קשות.…
…
continue reading
בפרק זה אירחנו את מורן קורן, חוקר ומרצה לתורת המשחקים מאוניברסיטת בן גוריון. דיברנו בעבר שימוש בערכי שייפלי לפרשנות מודלים, ערכי שייפלי הם נושא מחקר פעיל בתורת המשחקים והחלטנו להעמיק ולשפוך אור על תורת המשחקים ואיך הרעיונות משלימים את הנחקר בלמידת מכונה. דיברנו על המונחים, מהו שיווי משקל ? איך מגדירים משחקים לפי ידיעה שלמה או גורל, על אסטרטגיה אופט…
…
continue reading
1
על מערכות חיפוש - סיכום ביקור בכנס הייסטאק 2023 עם אמיר לבנטל
20:39
20:39
נגן מאוחר יותר
נגן מאוחר יותר
רשימות
לייק
אהבתי
20:39
אמיר ואורי נסעו במסגרת עבודתם בארגמקס לכנס הייסטאק HayStack2023 המתמקד בחיפוש, ואימלקו לכם את הפרק לעשרים דקות צפופות על החידושים בתחום החיפוש בעידן ה Language models דיברנו על ארכיטקטורות חיפוש ובנוסף כוסו האלגוריתמים הבאים Splade Hyde Search augmentation with LLMעל ידי Tamir Nave & Uri Goren
…
continue reading
1
מעבר לדאטא אנליסט לדאטא סיינס - בחסות YDATA
46:17
46:17
נגן מאוחר יותר
נגן מאוחר יותר
רשימות
לייק
אהבתי
46:17
בפרק זה אירחנו את רותם דמבו ועומר דודי, שסיפרו לנו על המעבר שעשו בשנה האחרונה, מתפקיד של אנליסט לתפקיד של מדען נתונים. דיברנו על הפערים "התרבותיים" בין המקצועות, אילו יתרונות יש לאנליסט שמחפש להכנס לתחום מדעי הנתונים, אילו השלמות כדאי לעשות ואיזה טיפים יש להם לתת למי שנכנס לתחום. הם יספרו על ההחלטה לעשות את המעבר, על הלימודים בתוכנית Y-DATA, על איך…
…
continue reading
1
על למידה חיזוקית באימון מודלי שפה RLHF עם מייק
55:17
55:17
נגן מאוחר יותר
נגן מאוחר יותר
רשימות
לייק
אהבתי
55:17
קשה לעבור ברחוב היום בלי לשמוע מישהו מספר לחברו על צ'אט ג'י פי טי או LLM אחד החידושים באימון שלו, למעשה ב InstructGPT היו השימוש בלמידה חיזוקית על בסיס דאטא מתויג אנושי בתהליך הדגימה נספר על אלגוריתם ה RLHF ושילובו בתוך מודלי השפה LLMעל ידי Tamir Nave & Uri Goren
…
continue reading
בפרק זה נדבר עם אוהד מדילטייל, העוסק בניתוח סיבתיות. אנחנו כולנו למדנו בטירונות דאטא סיינס ש Correlation does not imply causation אבל מה כן ? האם חייבים לבצע ניסויים מדוקדקים? והאם זה רלוונטי רק לעולם הרפואה או לכולנו ? קישורים: DoWhy tutorials אלגוריתמים - EconML docs Guide - Athey, Stuart, Vogelstein 2021 מאמר של אוהד https://arxiv.org/abs/2207.0…
…
continue reading
וקטורים, וקטורים בכל מקום ! דיברנו על מילים שהופכות לוקטורים, מסמכים שהופכים לוקטורים, תמונות שהופכות לוקטורים. אבל ברוב המקרים, נדרש חיפוש של וקטורים דומים למשימות של קלאסיפיקציה, דירוג ואפילו זיהוי אנומליות. חיפוש וקטורי בקנה מידה גדול זו בעיה הנדסית לא פשוטה, עם אילוצי זמן ריצה וזכרון. בפרק קצרצר זה, נסקור שלושה אלגוריתמים לחיפוש מקורב ונדבר על …
…
continue reading
1
על התאוריה של Replay Buffer עם שירלי די קסטרו שעשוע
20:55
20:55
נגן מאוחר יותר
נגן מאוחר יותר
רשימות
לייק
אהבתי
20:55
פרק נוסף בתחום הלמידה החיזוקית, הפעם צוללים לפרטים הטכניים עם התאוריה מאחורי Replay Buffer סוכן, יכול ללמוד רק מהפעולות שלו - מה שנקרא On Policy או למידה גם מפעולות של סוכנים אחרים, מה שנקרא Off Policy בגישת הריפליי באפר, שומרים "הקלטה" של פעולות עבר ותוצאות עבר - ודוגמים מתוכן לצרכי הלמידה. שירלי תספר לנו על המחקר שלה לגבי השפעת גודל הבאפר, והשיפו…
…
continue reading
פרק זה הוא חסות מיוחד בשיתוף אנבידיה, שמוקדש לג'וניורים. אנבידיה הפיקה את כנס ה GTC עם דגש מיוחד השנה של גנרטיב - להרשמה לחצו פה בפרק ראיינו חמישה דאטא סיינטיסטים טריים: צחי מורד, טלחיים דמארי, נתי מגור, דין עזרא ואבי חביב.על ידי Tamir Nave & Uri Goren
…
continue reading