409 ML Real World Usage with Noam from Pecan

 
שתפו
 

Manage episode 291348345 series 42006
על ידי Ran Tavory && Ori Lahav, Ran Tavory, and Ori Lahav התגלה על ידי Player FM והקהילה שלנו - זכויות היוצרים שמורות למפרסם, לא ל-Player FM, והשמע מוזרם ישירות מהשרתים שלכם. הירשמו כדי לעקוב אחר עדכונים ב-Player FM, או הדביקו את כתובת העדכונים באפליקציות פודקאסט אחרות.
בפרק מספר 409 אנחנו מתכבדים לארח את נועם מחברת פקאן - שלום נועם, ברוך הבא!
(נועם) שלום, תודה רבה
(רן) ברוך הבא לצפון הקר, אחרי שעשית את דרכך אלינו - למי שלא יודע, אנחנו בדרך כלל מקליטים מהבית של אורי בכרכור, בלילה, בשעה 2100+ בערב, זאת השעה שלנו להקליט פודקאסטים . . .
(אורי) בדרך כלל האורחים שלנו מגיעים טרוטי-עיניים מנסיעה מהמרכז . . .
(נועם) אבל אני חייב להגיד שמציאים פה קפה מצויין, אז ממליץ בחום לבוא.
(רן) תודה . . . אז לכל מי שמאזין - בואו לאורי, לקפה [קופון לא יצורף בסוף הפרק].
(אורי) ואם אתם יכולים להביא פקאן בדרך, אז גם טוב.
(רן) כן, הבאנו פקאנים . . . אז פקאן זו חברה שעוסקת, כמובן, בגידול פקאנים . . .
(אורי) והתחלנו לפצח פה [מוזמנים לדמיין אפקטים של פיצוח]

(רן) אז בוא, נועם - ספר לנו - עליך, על הרקע האישי שלך, ועל פקאן, על מה שאתם עושים.
משם כבר נצלול אל הנושא המרכזי של הפרק, שעוסק - נעשה לכם פה ספויילר - בתחום של Machine Learning והעולם האמיתי.
אז קודם עליך נועם - מאיפה באת?
  • (נועם) אז התחלתי . . . הכל התחיל שם, איפשהו בתקופה של הצבא, כמה מפתיע - 8200, הייתי במה שנקרא “אתגרים”
    • לפי מקורות זרים - ורק מקורות זרים - זה בעצם עולם הסייבר [לכאורה].
    • ככה התחיל עולם הסייבר של 8200 - הייתה תקופה מדהימה, קבוצה קטנה כזאת, הרגיש ממש כזו סטארטאפ בתוך היחידה, היינו הולכים על אזרחי . . .
    • ושם הכל התחיל מבחינתי, ממש שם התחילה הקריירה - הייתי ראש צוות פיתוח.
  • ובעצם, משם התגלגלתי, אחרי שהשתחררתי, לתוך עולם הדאטה -
    • במשך 7 שנים ייעצתי להמון חברות פה בארץ - אם זה חברות ענק כמו בנקים וגם לסטארטאפים, על איך לבנות Infrastructure, בעצם לייעל שאילתות.
    • ונכנסתי ככה עמוק לתוך עולם הדאטה, וזה היה מרתק - באמת עולם שהוא, כמו שאתם יודעים, מאוד מגוון ועם המון Use Cases, ונדבר על זה כמובן בהמשך כי זה כמובן רלוונטי.
  • בעצם משם - ותיכף אני מגיע לפקאן - בעצם עשיתי תואר שני ודוקטורט בתחום של מדעי המוח ומה שנקרא Computational Neuroscience - שזה בעצם מודלים, שמסבירים איך המוח ואיך רשתות ומשפחות של נוירונים מייצרים פעילות.
(רן) זאת אומרת - התחלת מרקע סופר-טכני, Security ו-Databases וכאלה - והלכת לאקדמיה, והיום אתה, ככה, איפשהו באמצע, אני מנחש - גם מבין את הצד העסקי, כי עבדת עם הרבה לקוחות כאלה, מבין מה הם רוצים ומה האילוצים שלהם, וגם אתה מביא את הרקע התיאורטי והאקדמאי בסיפור הזה.
(אורי) אגב, איפה לומדים או איפה עושים כאלה תארים - בארץ?
  • (נועם) בטח - בארץ, באוניברסיטת תל אביב
  • התואר הזה היה באוניברסיטת תל אביב, יש שם חבר’ה מאוד חזקים בתחום של Computational Neuroscience, יש את בית ספר סגול, שממש מוביל את זה.
  • וזה באמת על התפר - ואני נורא אוהב את זה, רן - זה על התפר הזה, וזה גם מה שכל כך דיבר אלי
    • זה התפר שבין, מצד אחד, עולם המחשבים - יש פה איזשהו חיבור בין מחשבים לבין עניין באמת תיאורטי, מחקרי, מוח, באיזשהו מקום
    • כשכמובן שהחיבור ביניהם נופל לתוך Machine Learning, וככה באמת דברים התגלגלו להם.

(רן) אז היום אתה בפקאן - ספר לנו קצת על מה שאתה עושה שם ומה עושה החברה
  • (נועם) אז אולי אני אספר איך הפקאן נולד לו . . .
  • באמת, בעצם זה התחיל, אם טיפה נחזור לתואר השני - על היום הראשון של התואר השני אני פוגש איש יקר שקוראים לו זוהר - ואנחנו מתחברים, ניהיים חברים מאוד טובים
    • למעשה, את כל הדוקטורט עשינו ביחד, את כל המאמרים שפרסמנו - פרסמנו ביחד
    • ובעצם עם זוהר, שהיה לנו את החיבור הזה, סיימנו את כל מה שהיינו צריכים ל-PhD ואמרנו “אוקיי - מה עכשיו? מה הצעד הבא?”
    • ואני זוכר הליכה, ככה, שאנחנו עושים באוניברסיטה, וזוהר אומר שתמיד היה לו חלום לעשות AI - ואז אמרנו שחלומות חייבים להגשים.
    • אנחנו שוכרים חדר קטן מול האוניברסיטה - ומתחילים לעשות מחקר.
    • וככה מתגלגלים בעצם לתוך פקאן.
  • מה זה פקאן? מה זה כל הסיפור?
    • הרעיון - זה מה שאנחנו מבינים בתחילת הדרך - זה שלייצר מודלים של Machine Learning, מודלים פרדקטיביים (Predictive), זה מאתגר, זה לא דבר פשוט.
    • וזה דורש, כמובן, Data Science ו-Data Scientists שמכירים מאוד טוב את המקצוע, ורק הם יכולים באמת לייצר את אותם מודלים נחשקים, שיעזרו אחר כך כדי בעצם לקחת את העסק שלנו, ולהביא את אותם ניבויים - כדי שנוכל לייעל את העסק, ולהביא באמת למקום שהוא טוב יותר.
(אורי) אבל אנחנו מדברים לא רק על Data Scientist שמכיר את עולם ה-Data Science, ומביא ניסיון משם, אלא גם צריכים להכיר את ה-Domain, את עולם הבעיה.
  • (נועם) מדהים, בדיוק - זאת נקודה כל כך משמעותית, וזה מה שהביא אותנו לפקאן
  • בעצם, מה אנחנו עושים בפקאן? פקאן מיועדת לא ל-Data Scientists, זאת נקודה נורא חשובה - היא מיועדת ל Data Analysts
    • היא דווקא מאפשרת בדיוק לאותם אנשים, שמגיעים בדיוק מתוך . . . כמו שאמרת - אתה צריך להכיר את עולם התוכן, זה לא מספיק שאתה יודע Data Science
    • אתה צריך להכיר את עולם התוכן שבו אתה פועל - ובאמת פקאן בדיוק מיועדת לאנליסטים, שמכירים מאוד טוב את עולם התוכן, אבל לא מכירים מספיק טוב סטטיסטיקה, לא יודעים . . .
    • בעצם, אין להם את הכלים כדי לייצר מודלים פרדיטיביים (Predictive) - והיופי של פקאן זה שאין צורך לדעת בעצם Data Science, על מנת לייצר מודלים.
    • זו בעצם פלטרפורמה ראשונה שבאמת מאפשרת לאנליסטים - ולא ל-Data Scientists - לייצר מודלים פרדיקטיביים של Machine Learning, וזה מה שכל כך מיוחד בפלטפורמה.

(רן) בוא ניקח כמה דוגמאות, זאת אומרת - אנחנו יודעים, בעולם, שמודלים של Machine Learning יודעים לנהוג במכוניות - ככה-ככה, לא תמיד זה עובד - יודעים לראות תמונות ולהבין, לפעמים לצייר ציורים, יודעים לפרש Natural Language , יודעים הרבה מאוד דברים - אבל אלו עולמות שונים לגמרי, כל עולם ומלואו שונה לחלוטין מהשני.
יש בתחומים העסקיים דברים כמו מידול של התנהגות לקוחות, גם בנושא של קמפיינים יש לא מעט . . . מכל הדברים הגדולים האלה, מה פקאן יודעים לעשות?
  • (נועם) אז זו נקודה מצויינת, ואגב - כשיצאנו לעולם, ראינו שבאמת כל אחד, כשמדברים על AI וזה כל כך פופלארי וזו כזו Buzzword - לכל אחד יש משהו אחר בראש, ובאמת יש כל כך הרבה סוגי מודלים.
  • אז בפקאן, אנחנו קודם כל מתמקדים, מבחינת הנתונים, ה-Data, במה שנקרא Tabular Data - דאטה שיושב בעצם בתוך מאגרי הנתונים.
    • לא מדובר בתמונות אלא באמת במידע טבלאי, שאיתו בעצם אנחנו מייצרים ניבויים
    • עכשיו, מהו בעצם עולם התוכן שאנחנו לרוב מתעסקים בו בפקאן? אז עולם התוכן שמתעסקים בו בפקאן זה . . .
    • קודם כל, יש מגוון רחב של שאלות שאפשר לענות עליהן, זו פלטפורמה גנרית
    • אבל אם נראה איפה האיזורים שאנחנו מתמקדים בהם, אז מצד אחד אנחנו מדברים על העולמות של עבודה מול לקוחות, Customers
      • לזהות, בעצם, מראש את אותם לקוחות שינטשו - מה שנקרא Churn Prediction
      • או לדוגמא לזהות מראש מי הם אותם לקוחות שיהיו לנו הכי טובים, כי אנחנו רוצים מראש כמובן לדעת את זה - אנחנו מדברים על ניבוי של מה שנקרה High Value Customers
      • ו-Lifetime Value -כל אותם מודלים שמתעסקים בלקוחות.
      • אבל זו משפחה אחת, יש עוד משפחות שאפשר לעשות בפקאן, לדוגמא, סתם כדוגמא - אנחנו מדברים על עולם של Inventory Control, ניהול מלאי.
      • כמובן שבשביל לדעת על המלאי, איך צריך לנהל אותו, צריך מה שנקרא Demand Forecasting, להבין איך המכירות שלנו יהיו.
      • מה שיפה בפקאן זה שיש פה אוסף של שאלות שאפשר לשאול, מהמון סוגים, ומה שבנינו בעצם בפלטרפורמה זה משהו . . . אנחנו קוראים לזה Templates או Use Cases, שמנווטים את ה-User, בעצם לאפשר ולענות של השאלות האלה בצורה מאוד מאוד פשוטה.
(רן) אפשר לעשות את זה בצורה כל כך גנרית? זאת אומרת - נגיד, מודל של Customer Live Value Prediction עבור לקוחות - אני מניח שהוא מאוד שונה בין חברת מוניות לבין חנות או מסעדה או כל ביזנס אחר.
אפשר באמת לבנות מודל שהוא כזה גנרי, ולמכור את זה ללקוחות כל כך שונים?
  • (נועם) שאלה מדהימה - וזה באמת . . . אגב, בתחילת הדרך, נורא היינו עסוקים בשאלה הזאת.
  • אחד הדברים שהבנו זה קודם כל שזה לא מודל אחד, שאנחנו באים איתו מראש - כל היופי של הפלטפורמה זה שהפלטפורמה מתחברת [ברברס?] לנתונים, לומדת את הנתונים - ובעצם מאמנת את המודל בהתאם לנתונים שיש לך.
  • בעצם, זה לא משנה . . . כמובן שאנחנו מתחילים תמיד עם, אתם יודעים - Go-to-Market שהוא כן עם סגמנטים מסויימים, בעיקר בצד של ה-Marketing
    • חשוב שיהיה לנו את אותו מסר, ושהמסר יהיה מאוד ברור - אבל בסוף זה לא משנה
    • סתם לדוגמא - אנחנו עובדים עם חברות Retail מאוד גדולות, CPG . . . זה לא משנה
    • או, לדוגמא, חברות בכלל מאיזורים של Gaming - ועדיין זה אותם מודלים.
    • הכוונה היא לא שזה אותו מודל שנוצר, אלה שזה מודל שמתאמן על הדאטה - ובגלל זה הוא גנרי ויודע להתאים את עצמו.

(רן) יש לכם איזשהו Tool-set טיפוסי, שאיתו אתם עובדים בשביל המודלים האלה? לצורך העניין, רשת ניורונים או רגרסיות מסוגים שונים או מסווגים מסוגים אחרים?
  • (נועם) נורא חשוב כמובן, וזה גם קשור לשאלה הקודמת שלך - כדי שנוכל להתאים את עצמנו, אנחנו עובדים עם הרבה משפחות.
  • זה לא שאנחנו עובדים עם סוג מודל אחד, אנחנו עובדים עם הרבה משפחות - אבל אני אגיד שהאתגר הכי גדול זה דווקא לא המידול עצמו, המידול הוא החלק, אני אגיד כמעט “הקל”, בסיפור.
  • החלק הכי קשה זה כל ה Pre-processing של הדאטה - ושם באמת, אם אנחנו מסתכלים על סוגי הלקוחות והסוגי נתונים . .
    • תיכף כמובן נכנס לזה, אני משער, קצת יותר לעומק - כי זה באמת אחד המקומות הכי קשים, וזה באמת איך לוקחים דאטה, שהוא כל כך מגוון . . .
    • דיברנו על דאטה טבלאי, וכמו שאתם יודעים - אצל כל הלקוחות, בעצם, המבנה הוא שונה, הטבלאות שונות
    • ומה שאנחנו יודעים, וזה חלק שעבדנו עליו מאוד קשה, זה לדעת לפרמל (Formalize) את זה בצורה כזו שלא משנה איזה סוג דאטה יש - אתה תוכל בעצם לחבר [דאטה], ברגע שהוא טבלאי (Tabular), אתה תוכל להכניס אותו פנימה, ובעצם לייצר את המודלים.

(אורי) אז היה פה, לפני כמה פרקים, אסף קליין מ-Outbrain, שדיבר על AutoML
[והוא אומר] בעצם, “קח דאטה, מסווג או מתוייג ברמה מסויימת, ועכשיו תן למערכת לרוץ עליו”; המערכת תמצא את המודל המתימטי הנכון לדבר הזה, את ה-hyperparameter הנכונים, את ה. . . . אולי אפילו תנקה את הדאטה - ותקבל מודל.
אז כעיקרון, אתה לא צריך עבודה, או הרבה עבודה, של Data Scientist - שזה כמובן נכון בתיאוריה . . . אבל אתה לא צריך הרבה עבודת Data Science כדי לבנות מודל, כי המכונות פשוט עושות הרבה ניסיונות ומוצאות משהו טוב . . .
  • (נועם) אז קודם כל - זה היה פרק מרתק, וזה לגמרי נכון - אבל יש “אבל” ענק פה, וסופר-משמעותי
  • אצל אסף, כבר הדאטה, בעצם, הגיע למבנה - ותיכף אני אדבר על זה, כי זה נורא משמעותי - מבנה שמכונות יכולות להבין אותו.
  • התחלת . . . סתם, אני אתן דוגמא ואחרי זה נפרט ויהיה נחמד להיכנס קצת לעומק על ההבדלים ועל מה זה אומר - אבל כדי שמודלים . . .
  • תיקח מידע מתוייג - אבל מאיפה יש ללקוחות שלנו, שהם אנליסטים, מיידע מתוייג? אין להם, הם אפילו לא יודעים מה זה אומר . . .
    • בעצם, צריך להבין את השפה של האנליסט - אותם אנליסטים, שעובדים, לדוגמא, עם כלי BI, ושמביאים ל-Business היום תובנות - לא יודעים את עולם ה-AI, הם לא יודעים בכלל מה זה “מידע מתוייג”.
    • צריך להתחיל איתם בכלל במושגים שלהם - בטבלאות, ואני אתן תיכף דוגמאות
    • אפשר לדבר על טבלה של טרנזקציות - שזה משהו שהם מבינים, טבלה של לקוחות - אז זה הם מבינים.
    • אבל “מידע מתוייג”? - וזה רק דוגמא אחת.
  • אם נלך רגע לעוד דוגמאות, ואני חושב שהן אפילו יותר מורכבות - זה איך בעצם מייצרים פיצ’רים?
    • כל העולם של Feature Engineering זה לא משהו שמכונה יכולה לייצר, כי בסוף צריך להבין את הדאטה.
    • זה בדיוק האלמנט שנקרא “To make sense of Data”.
  • אותם אנליסטים לא יודעים בכלל מה זה אומר Feature Engineering, הם לא מבינים . . .
  • וזה כמובן, וזה נורא חשוב - יש גם אנליסטים שכן יודעים, אבל אם נסתכל על ה-Bulk הגדול, שבדרך כלל מתעסקים ועובדים בעולמות של BI - הם לרוב לא יודעים לעומק את העולם הזה, וזה מה שמייחד את ה-Data Scientist
    • איך לייצר את אותם פיצ’רים, שמייצרים . . . לוקחים את הדאטה הגולמי, ומייצרים ממנו מידע שאפשר להכניס לתוך מודלים.
    • ומה שמאוד מיוחד בפקאן זה שאנחנו עושים את באופן אוטומטי.

(רן) באופן אוטומטי מסתכלים על דאטה, שלא ראית לפני כן, של חברה שאתה לא מכיר, שאתה לא מבין מה ה-Business שלה - ואתה עושה מזה משהו הגיוני? . . . טוב, אז אולי ניכנס פנימה ונבין איך זה עובד.
  • (נועם) מהמם.
  • אז (א) - חשוב [להבין]: אין פה קסם - זה הכל Engineering שמחבר את הדברים
  • אבל כן אני אתחיל ואגיד, וזה באמת המקום שבו . . . אתם זוכרים את אותו חדר קטן שדיברנו עליו, מול האוניברסיטה? שם כל הרעיונות נוצרו, מבחינת הבסיס, באמת.
  • כי מה קרה? קיבלנו דאטה של לקוחות, ובתוך התהליך קיבלנו עוד דאטה ועוד “דאטאות” שונים, ובאמת בכל פעם היינו מייצרים מודלים
    • וראינו את אותם מקומות והבנו שבעצם כן - יש פה קו מנחה אחד שעובר בתוך כל המקומות האלה.
    • וזה אותו מקום, שהבנו שכן אפשר לייצר את אותו Framework, שהוא מאוד משמעותי - ובעצם הוא מדבר לכל אחד שמבין דאטה, ודרכו אנחנו מגיעים למודל.
  • עכשיו - למה אני מתכוון? כי זה נשמע עדיין מאוד אמורפי, אז קצת ניכנס לתכל’ס - בסוף, אם חושבים על זה, בעצם כדי להגיע למודלים פרידקטיביים (Predictive), יש את אותן קומפוננטות (Components) נורא חשובות שצריך להכיר אותן - אנחנו קוראים להן The Four W’s,
  • וזה לא מכונית שנוסעת, זה לא אוטו שיודע לנסוע, אלא זה
    • א. Who - עבור מי עושים את הפרדיקציה?
    • ב. When - מתי עושים את הפרדיקטציה? - וזה נורא חשוב, תיכף אתם תבינו איך זה בונה את כל העולם תוכן
    • ג. ברגע שאנחנו יודעים עבור מי עושים את הפרדיקציה ומתי, נשאר לנו What - מה אנחנו רוצים בעצם?
      • וזה אותו מקום אגב . . . מה שאנחנו רוצים לחזות, אותו מקום של מידע מטוייב.
      • אז אנחנו לא מבקשים מה-user שלנו, בעצם, להביא מידע מתוייג - אנחנו נתייג אותו בשבילו.
      • איך נעשה את זה? אנחנו מבינים את עולם התוכן, אנחנו מבינים שמדובר ב-Life-Time Value או ב-Churn, אנחנו רק צריכים עכשיו לדעת מה-user מהי, לדוגמא, טבלת ה-Transactions שלו, או מה היא הטבלה שאליה אנחנו רוצים לסכום.
      • אז בעצם, ברגע שאנחנו נותנים את אותה מסגרת של Who, When, What - וכמובן ה-W האחרון, שזה מה שדיברנו עליו לפני כן -
    • ד. זה With - בעזרת איזו אינפורמציה אנחנו רוצים שהמערכת תייצר את הניבוי?
  • עכשיו, פה מגיע אותו חלק כל כך משמעותי, של “איך אנחנו יודעים To make sense of data?”
    • קיבלנו טבלה - עכשיו, קחו טבלת . . . אפשר לדבר סתם לדוגמא על טבלה שאנחנו מקבלים - שיחות טלפון
      • רשומות, כשכל רשומה היא שיחת טלפון ל-Support, ורוצים להבין את המשמעות
    • היופי זה שאנחנו מבקשים מה-user, בעצם, להביא לנו עמודות של זמן, של תאריך - מהו אותו תאריך שבו האירוע קורה
    • ומשם אנחנו כבר מזהים את כל העמודות השונות, מה המשמעות שלהן, איזה סוג זה - ומייצרים את אותם פיצ’רים.
  • אני אתן כמה דוגמאות קטנות כדי שתבינו:
    • קחו, לדוגמא, אם אנחנו מדברים על אורך של שיחה, אז מה שמעניין זה, פר user מסויים, לא רק לראות שיחה מסויימת אלא מה קורה על פני הזמן
    • בעצם, אנחנו בפקאן מסתכלים על אוסף של אותן רשומות, ומייצרים להן נגזרת - לא רק לוקחים נקודה מסויימת, אלא ממש מסתכלים על הנגזרת על פני הזמן, ורואים איך יש שינוי.
    • אז אם לבנאדם בתהחלה הייתה שיחה קצרה, ואחר כך יותר ארוכה ויותר ארוכה ויותר ארוכה - מאוד יכול להיות שקורה פה משהו.
      • זה בדיוק אותו מידע שחשוב למודל, ואנחנו יודעים לייצר את אותם פיצ’רים על מנת להגיע, בעצם, למשהו ש Make sense of data.

(אורי) אז אם אני מנסה להבין - ה - Secret sauce הוא ב . . . אוקיי, יש לך מידע טבלאי, אני שואל אותך ארבע שאלות - אותן ארבע W’s שלך - וזה מספיק לי בשביל לקחת את המידע הטבלאי שלך - וכמובן הוא חייב לכסות את התשובות של השאלות - בשביל לייצר מזה מידע שאני יכול להכניס ל-AutoML כזה או אחר, ולקבל מודל פרדיקציה?
  • (נועם) לחלוטין - אתה בעצם . . . רק חשוב להגיד: פקאן זה End-to-End Solution
    • אתה רק צריך לחבר את אותן טבלאות, כמו שבדיוק הסברת, והסברת מהמם, עם אותן Four W’s
    • ובעצם מה שאתה מקבל - לוחץ על כפתור, מה שנקרא Train the model בתוך פקאן - ומאותו רגע, בעצם, אתה מקבל מודל מוכן.
    • כמובן שיש את כל ה-Processing של ה-Data, ואם תרצו אפשר להכנס באמת למה שקורה שם - אבל בעצם מעבדים את כל הנתונים, מבינים.
    • עושים, כמובן, מה שנקרא Feature engineering או Feature selection, מידול
    • ומגיעים בעצם למודל מוכן - ועכשיו אתה בתוך פקאן, עם מודל מוכן
    • ומה שנורא יפה בפתרון, וזה אחד הדברים שנורא ריגשו אותי בפקאן, זה שכשסגרנו את ה-Loop - ואתה יכול ללחוץ על כפתור שאומר “עכשיו תתחיל להשתמש במודל הזה”.
      • אתה לא צריך לעבור למערכת אחרת, אתה בתוך פקאן
      • אתה במה שנקרא “use my model”, ועכשיו אתה יכול להגיד “אני רוצה להשתמש בו” - ולא צריך לעשות שום פעולה במקום אחר.
      • בעצם, אתה רק אומר איזה תזמון אתה רוצה, ועכשיו אנחנו מושכים רק Data חדש, מייצרים את הניבויים - ושולחים אותם חזרה אליך כ-User.

(אורי) בעצם, התחלנו את השיחה מ-Machine Learning בעולם האמיתי. . . .
(רן) . . . אז בוא אני אתן לך שאלה של Machine Learning בעולם האמיתי . . .
  • (נועם) יש!
(רן) . . . כמעט כל מי שעושה איזושהי תיאוריה ב-Data Science או Machine Learning, מסתכל על Data-set מדהים, והוא מריץ כמה שורות ב-Pandas וב-scikit-learn ועוד איזה TensorFlow, והכל עובד נהדר
  • הסיווגים יוצאים בתשעים-ומשהו אחוזי דיוק, והרגרסיות יוצאות יפות והכל סבבה.
ואז, כשאתה לוקח את אותו הדבר ואתה רוצה להפעיל את זה על ה-Business שלך - נקרא לזה העולם האמיתי - פתאום כלום לא עובד . . . שום דבר לא מדויק, כל הרגרסיות עקומות, הפיצ’רים לא בכיוון . . . זאת אומרת, כשהמדע פוגש את השטח, את מגלה שיש שריפה בצמיגים.
אז אני מניח שאתם, בגלל שאתם רואים הרבה מאוד לקוחות, בטח רואים את זה חדשות לבקרים - וחשבתי שאולי תוכל לחלוק איתנו כמה מהלמידות שלכם בתחום הזה, של איך לוקחים את התיאוריה והופכים אותה למשהו שהוא פרקטי וגם Actionable-י.
  • (נועם) לגמרי . . .
  • אולי נתחיל . . . זה עולם באמת עצום, וזה מרתק, כי זה באמת אותם מקומות, ואני זוכר את עצמי בדוקטורט, מתעסק עם עולם של מידול, ומידול של מוח
    • אם אנחנו מדברים לדוגמא על EEG, ואיך מייצרים משם פרדיקציות . . .
    • ובאמת, יחסית - עולם ורוד . . . זה באמת עולם שבו לדאטה יש מבנה שהוא הרבה יותר ברור
    • אין כאלה פערים גדולים, ובטח כשאנחנו מדברים על אותם Data-sets שאתה באמת מוריד כדוגמא ורוצה לראות והופ! הכל נפלא.
  • אז בואו באמת ניקח כמה דוגמאות, אם מתאים לכם, ונתחיל להסתכל על כמה דברים, ודברים שאנחנו ראינו אותם כמובן - והתמודדויות שצריך לדעת להתמודד איתן.
  • אולי נתחיל, ויש פה כמה איזורים - נתחיל . . . דיברנו קודם על LTV, נכון?
  • (רן) Lifetime Value . . .
  • (נועם) סליחה, Life-Time Value, נכון - לחזות כמה אותו לקוח יהיה שווה - כמובן שאנחנו מדברים על חיזוי, אז יהיה שווה בעתיד.
  • בעולם , אם ניקח, אתם יודעים . . . כמובן, בדרך כלל בדוגמאות האלה, אם אנחנו עושים מתוך רגרסיה איזושהי לדוגמא, כמעט תמיד ההתפלגות היא התפלגות כזאת גאוסיאנית - פעמון יפה
    • והמודלים - הם אוהבים פעמונים, טוב להם לשמוע את הצליל הזה, תמיד נעים להם מאוד . .
    • אבל במציאות . . .
  • (אורי) כמו פרות בשוויצריה . . .
  • (נועם) בדיוק . . . אבל . . .
  • (רן)בדיוק חשבתי על הגיבן מנוטרדאם, אבל בסדר, פעמון זה פעמון . . .
  • (נועם) אז אני אגיד - הגיבן מנוטרדאם זה באמת יותר איך שהדאטה נראה, והוא לא נראה כל כך ישר ויפה . . .
  • (אורי) יש לו גיבנת . . .
  • (נועם) יש לו גיבנת, ויש לו אחר כך גם זנב . . . לא חושב שהיה לו זנב, אבל במציאות יש זנב ארוך, שם בתוך ההתפלגות.
    • ובאמת זה מה שרואים - בדרך כלל, כמו שאתם יודעים, במציאות, בהרבה מאוד מקרים דווקא יש מעט לקוחות שמביאים בעצם את רוב ההכנסות
    • הם אותו הזנב - וההתפלגות נראית קטסטרופה, ועכשיו לך תתמודד עם הדבר הזה.
  • מודלים נראים קטסטרופה במצב הזה, וההתמודדות שם היא מאוד קשה, היא לא . . .
  • זו דוגמא קטנה להתמודדות ראשונה

(רן) זאת אומרת - אנחנו מדברים על מצב שבו ה-Target שלך, מטרת היעד - אולי בספרות היא נראית כמו איזשהו פעמון גאוסיאני מאוד יפה, אבל במציאות זה נראה ברדק שלם, ואז המודל לא יכול . . . הוא כנראה לא יעבוד טוב במצב כזה.
  • (נועם) נכון מאוד
  • בעצם, הרבה פעמים הסיבה היא שבהרבה מאוד מהמודלים יש הנחה, בתוכם - הנחה, שמניחה שבאמת ה-Target, יש בו התפלגות גאוסינית
    • ומה לעשות שהנחות נועדו כדי שהן לא תתקיימנה, כמובן [Normal’s overrated].
(רן) טוב, אתה יודע - המרצה לסטטיסטיקה יגיד “במספרים מספיק גדולים, זה תקף”, אבל זה המספרים שיש לי, אין לי מספרים מספיק גדולים . . .
  • [והם גם כמעט אף פעם לא בלתי תלויים, או שווי התפלגות . . .]
  • (נועם) אגב, גם ב”מספיק גדולים” פה - זאת בעיה, כי זאת המציאות פה
  • ואנחנו מתעסקים עם מספרים מאוד גדולים - וזאת עדיין ההתפלגות, כי זאת פשוט המציאות
  • אתם יודעים מה? אני מגיע מעולם של פסיכולוגיה, ובאמת בפסיכולוגיה, אנחנו כבני אדם - הרבה מאוד מההתפלגויות הן באמת גאוסיאניות, אבל דווקא בעסקים זה נראה מאוד מאוד שונה.
  • ובאמת בדאטה עסקי, אנחנו לא רואים את אותה התפלגות גאוסיאנית
  • אני משער שיש פה . . . לא יודע אם אתם מרגישים את המתח של “רגע, מה עושים, איך מתמודדים עם זה?” . . .
(רן) לא - אני רק שואל את עצמי מה ההתפלגות, נו? . . .
  • (נועם) אז אולי אני אתן לכם רק . .. כמובן, יש פה כמה טיפים, אבל איך בכלל ניגשים לשאלה כזאת?
    • אני חושב עכשיו על האנשים ששומעים [ומנסים לתמלל!] אותנו, ואומרים “רגע, יופי! הוא - יש לו מלא דאטה של לקוחות, קל לו, אבל אני בבית, איך אני יכול לעשות? מה אני יכול לעשות?”
  • את תדעו לכם - זוכרים שהתחלנו בעצם, ככה בגאראז’ שלנו - תמיד מתחילים מדאטה, שבעצם הוא סימולציה, מייצרים סימולציות, זה מאוד חשוב
  • כי בעצם, דרך סימולציה, אפשר גם לייצר את החוק, והדרך הכי טובה להתחיל מחקר בעולמות של Machine Learning זה קודם כל לייצר קוד שמסמלץ (Simulates) את הנתונים, ומשם בעצם לומדים איך הכי נכון לייצר את אותם מודלים.
  • תמיד עבדנו, בעצם יצרנו סימולציה של מידע שיש לו זנב מאוד ארוך, עם חוק מאוד מסויים
    • כמובן בצורה של Rule-based, פשוט בשביל הסימולציה - אין צורך . . .
      • פה זה לא מקום שצריך הרבה יצירתיות - דווקא מעט יצירתיות היא מאוד טובה פה - משהו פשוט.
    • ורוצים לראות שהמודלים, גם עם “ההתפלגות הבעייתית”, יודעים לעלות על החוק, כאשר זו סמולציה פשוטה.
    • קודם כל צריך לפצח את זה - אם לא תפצחו את זה, לא תצליחו לפצח גם מידע שהוא הרבה יותר מורכב בחוקיות שלו.

(אורי) אז אתה אומר “אני מסתכל על מידע אמיתי; אני מזהה את החוק או את הבעיה; ומסמלץ את המידע הזה לצורך משחק עם המודל” - כשבעצם, כשאתה מייצר מידע סינטטי, אתה מסמלץ מידע שהוא סינטטי, אבל מכיל את הבעיה . . . מכיל בעיה אחת, וכנראה שבדאטה האמיתי מסתתרות עוד כמה בעיות.
זא אומרת - אני קודם כל מייצר לי את המודל שמצליח לעלות על הבעיה שבעצם סימלצתי; אני אראה שהמודל עובד על זה, ואז אני אעבור לבעיה הבאה.
  • (נועם) בדיוק - אי אפשר להתחיל מלפתור את כל הבעיות, זה פשוט בלתי אפשרי, זה לא . . . זה מאוד מאוד קשה.
  • ובאמת, הדרך שלנו לפעול זה כל פעם לקחת בעיה, לראות איך הדרך הנכונה להתמודד איתה, ודרך אותן סימולציות באמת להבין איך נכון להתמודד עם זה, אני מתחיל את המחקר שם.
    • כמו שאמרת - אתה משחק, אתה גם חוקר, מבין איך נכון בעצם לפעול - ועכשיו לוקח את זה לעולם האמיתי.

(רן) לצורך העניין, בדוגמא שלנו, אתה אומר “סבבה, המודל עובד על התפלגות גאוסיאנית - אבל מה לעשות, ההתפלגות היא, Whatever - אקספוננציאלית או Weibull או משהו אחר כזה, לא כל כך יפה - אז בואו נסמלץ (Simulate) התפלגות אקספוננציאלית, ננסה להתאים את המודל עליה, ואחרי שעברתי את זה אני אעבור לדאטה האמיתי, ושם אני אעשה את התיקונים הנדרשים”. אבל . . .
(אורי) או שאני אקח את הבעיה הבאה בדאטה האמיתי - ואני אסמלץ גם אותה ו . . .
(רן) כן, אבל זה נשמע כאילו “שלב מיותר” - למה לעבור דרך סימולציה, אם כבר יש לי את הדאטה? זו שאלה אחת.
ושאלה שנייה - אולי אתה פותר בעיה קלה מדי? זאת אומרת, אז עשיתי סימולציה, אבל הסימולציה פשוט לא מספיק נאמנה לדאטה האמיתי או, לא יודע, אולי יש לי איזשהו Bias בדאטה, אולי יש לי הרבה אנומליות - כאלה שמה לעשות? אני לא מסמלץ אותן, וכשאני מגיע לדאטה אז שוב אני בפני שוקת שבורה, וכל העבודה שעשיתי לפני - אי אפשר להשתמש בה.
  • (נועם) שתי נקודות מאוד מאוד טובות וחשובות . . .
  • אני אתחיל, רגע, מהראשונה - על הנקודה שאמרת שאולי יש פה מצב שבוא אתה פותר בעיה אחת, שהיא יחסית “פשוטה”
    • נכון - אבל אנחנו לוקחים את זה . . . “אבל בעצם יש לך את הדאטה, למה אתה צריך את ה[בעיה ה]פשוטה?”
  • כשאתה מתמודד עם כל הבעיות “במכה”, אין לך מושג האם התקדמת . . . אתה כל פעם נתקע, וזו הבעיה הכי גדולה, אגב, ב-Data scientists שמתמודדים עם דאטה כזה - הם לא יודעים האם הם מתקדמים.
    • אתה כל פעם עשית משהו, אבל “רגע, זה לא עבד לך”,
    • אז אתה מנסה משהו אחר, ו”רגע, זה לא עבד”.
    • אבל זה לא עבד בגלל עשרים מחסומים בדרך - ואם אתה לוקח כל מחסום ומחסום בנפרד . . .
    • ותראו - אני אומר לכם את זה אחרי שעברנו את המחסומים, ואחרי שאנחנו באמת כבר מייצרים מודלים ללקוחות על דאטה אמיתי ורואים ביצועים מאוד טובים - זה בדיוק דרך אותה שיטה של בכל פעם לקחת את המחסום לבד הצידה, עם דאטה הרבה יותר פשוט
      • כי אם לא תעשו את זה עם מידע יותר פשוט, לא תדעו מה הדרך להתמודד
    • ומשם לעבור למחסום הבא.
  • שוב, אני מקווה שהצלחתי להעביר - זה לא שזה נעשה בצורה אטומטית
  • אותם . . . הדרך של “כל פעם לעבור את המחסום”, זה אצלנו, כמובן, יש צוות של Data scientists, חבר’ה מאוד חזקים, שמסמלצים את הבעיה.
  • הבעיות, בסופו של דבר, חוזרות על עצמן - אלו לא בעיות שלכל לקוח זו בעיה שונה, דברים חוזרים על עצמם.
  • אבל הדרך להתמודד היא באמת לקחת מחסום כזה ולהבין איך מתמודדים איתו.

(אורי) אז אפשר גם לסמלץ ואפשר גם לנקות, לא? כאילו - אתה יכול לנקות בעיות מהדאטה . . .
  • (נועם) לגמרי . . .
  • מה שדיברתי בסימלוץ זה תמיד כשאי אפשר לנקות, אבל לגמרי - אנחנו מנקים, וזה מאוד חשוב.
  • וזה לגמרי, קודם כל . . . זה תהליך שלם, בתוך ה-Pipeline שלנו, זה כמובן לעשות Cleansing לדאטה, Wrangling של הדאטה . . .
  • וזה תיכף, אפשר קצת לדבר גם . . . אתם יודעים, מדברים על “דאטה מלוכלך” - מה זה “דאטה מלוכלך” בכלל?
    • אני מקווה שנספיק, כי אני לא יודע כמה זמן יש ויש המון נושאים וזה מרתק . . .
    • אומרים “דאטה מלוכלך”, אבל כל אחד מתכוון לדברים שונים . . .
  • אבל כמובן - אם אנחנו מדברים על Missing Values שזה מאוד חשוב, אם אנחנו מדברים על טעויות בתוך הדאטה . . .
  • אלמנט מאוד מאוד חשוב זה גם Data Type - מה ה-Type שלי? הם אני תאריך או לא תאריך? ואיך אני מייצר את התאריך? ואיזה תאריכים . . .
    • ורגע, אולי יש לי פתאום תאריך עתידי בדאטה, בטעות, שאתם יודעים - תמיד נכנסים תאריכים לא נכונים כאלה פה ושם
  • אלו בדיוק אותם מקרים שמאוד משמעותי לנקות אותם, לפני שיוצאים לדרך, לגמרי.

(אורי) אז הזכרת Data scientists שיושבים על הדאטה ועובדים עליו . . . כמה מה-Workload של מלקחת לקוח ועד שאתה יודע לתת לו מודל פרדיקציה (Prediction Model) . . . זה קשה להגיד את זה אבל . . .
(רן) אתה מתכוון לשאול כמה מזה אוטומטי וכמה מזה . . .
(אורי) . . . כמה מזה אוטומטי וכמה זה עבודה . . .?
  • (נועם) יש לי תשובה מאוד פשוטה לזה, מאוד פשוטה . . .
  • אני אגיד לכם למה - וזה אגב, בחווייה האישית, תחשבו בתור, אתם יודעים - מישהו שזה “הבייבי שלו”, ויוצא לדרך - אתה לא יודע לאן אתה הולך
    • ואני יכול להגיד לכם - רגע שבשבילי היה ללא ספק משמעותי מאוד בדרך זה כשעבדנו עם לקוח מאוד גדול, חברת Retail אמריקאית ענקית, אני כמובן לא יכול להגיד את השם . .
    • עבדנו איתם והם אמרו “אנחנו רוצים, כמובן, פיילוט - רוצים לראות מה אתם יכולים לעשות”
    • ובעצם לקחנו ככה, ביקשנו מהם את הדאטה והכנסנו אותו לתוך המערכת, ביחד איתם הכנסנו את זה לתוך המערכת - ותוך שבועיים, בעצם, הגענו למודל שהם במשך שנה עבדו עליו - זה הסדרי גודל.
    • וזו הייתה הפעם הראשונה - אחרי זה הגענו לעוד לקוח, ובדיוק אותו סיפור: שנה שבה הצוות עובד - ואתם יודעים איך התהליכים, ואפשר אולי לדבר על התהליכים של מה זה לייצר מודל -
      • זה גם קשור לדאטה
      • זה גם קשור, כמובן, ללהבין ולחבר את זה לשאלה שהיא מוגדרת היטב
      • לנקות את הדאטה, להריץ מודל . . .
    • עכשיו - זה לא פעם אחת: אתה כל פעם עושה סייקלים (cycles), אתה בכל פעם רוצה לשפר ועושה סייקלים
    • וזה היופי - זה מצא.
    • בתוך פקאן, אתה מצליח, בתוך שבועיים -
        • ותיכף אני אדבר על למה זה כל כך מהיר ואיפה באמת, כמו שדיברת, איזה Workload זה לוקח -
      • אל מול שנה.
      • וזה לא לקוח אחד - אנחנו מדברים על הרבה לקוחות שזה בדיוק מה שאנחנו שומעים.
    • והיום, כששואלים אותנו מה ה-Value שלנו . . . פעם, היינו אומרים שה-Value הכי גדול של פקאן זה באמת לאפשר למישהו שלא מכיר לייצר מודלים - אבל זה הרבה יותר מזה.
    • זה לייצר, בעצם, הרבה מודלים - זה לייצר ולענות על הרבה שאלות עסקיות
    • והיום, כשאתה שואל את עצמך למה שלקוח גדול - ודיברנו על לקוחות באמת גדולים - למה שהם בכלל ידברו איתנו? מה - אין להם צוותים?
      • [אז] יש להם, אבל הבעיה זה שאותם צוותים לא יכולים לענות על הרבה שאלות עסקיות, כי זה לוקח הרבה זמן
      • בעצם, בעזרת פקאן, הם פשוט מחברים את הדאטה ומקבלים את אותו מודל פרדיקטיבי.
    • עכשיו, למה אגב שבועיים? למה לא מיידית? למה עדיין יש פה איזשהו תהליך מסויים? כי באמת, וזה אחד הדברים המשמעותיים, היופי בתוך פקאן זה . . .
    • דיברנו על ה Four W’s, ויש שם קונפיגורציות, יש שם כל מיני קונפיגורציות שאתה יכול לשחק איתן
      • אם, לדוגמא, אנחנו מדברים על Lifetime Value, אז השאלה לכמה זמן אתה חוזה קדימה, ולכמה זמן מראש אתה רוצה לחזות קדימה . . .
      • והיופי בתוך פקאן זה שאתה יכול לשנות את הקונפיגורציה - אתה עושה “Duplicate my Model”, משנה את הקונפיגורציה - והנה, יש לך מודל חדש.
      • אז בעצם מה שאנחנו עושים זה שאנחנו מייצרים כל מיני וריאציות [נושא טעון בימים אלו…] על בסיס קונפיגורציות - אבל לא של Hyper Parameters, זה מאוד חשוב - קונפיגורציות עסקיות, ובעצם מקבלים תמונה מלאה.
      • ועל זה דיברנו, על פער שבין אקדמיה לעסקי - בעסקי, זה לא שאתה בונה מודל אחד בשביל לענות על שאלה;
        • אתה רוצה לקבל את כל . . . בעצם את כל הקשת השונה, ולראות 360 מעלות כדי להבין את הלקוח.
        • ולהבין מה הם המודלים הכי טובים, שאיתם אתה יוצא לדרך.

(רן) אז אנחנו ב-Scope של “איזה דברים עובדים נהדר באקדמיה, או איזה דברים עובדים נהדר על הנייר, אבל הרבה יותר מאתגרים בעולם האמיתי” - ובוא נכסה עוד נושא אחד כזה, כי אין לנו את כל הזמן שבעולם.
אז דיברת על לקחת דאטה ולסמלץ אותו כדי לעבור, מה שנקרא פרה-פרה”, כדי לעבור את המכשול הראשון לפני שאנחנו מגיעים למכשול השני . . .
איזה עוד בעיות יש שככה נתקלים בהן בדרך כלל בעולם האמיתי, שאולי בעולם האקדמאי הן נראות כאילו הן כבר פתורות?
  • (נועם) אז אחת הנקודות - ובטח אתם תזדהו עם הבעיה הזו, לכל מי שמתעסק עם העולמות של Data Science זו אחת הנקודות הכואבות, ויש לזה גם כמה שמות, זה בא בזויות שונות - מושג של Leakage . . .
  • אחת הנקודות, כ-Data scientist, זה גם אלמנט מאוד קשה, זה באמת מצב . .
  • ובאקדמיה הרבה פחות . . . לא כל כך מתעסקים בכלל עם Leakage
  • זה כמובן תלוי איפה וזה כמובן נושא שמדובר, אבל אם לוקחים את אותם מודלים ומסתכלים, אז לרוב יש באמת . . .
  • הרי כשמסתכלים במאמרים, לרוב אלו Data sets קבועים, מאוד מסויימים - זה לא שבאמת מסתכלים על מגוון רחב
  • אבל ברגע שמגיעים למציאות, ותיכף אני אתן כמה דוגמאות, ודוגמאות באמת של איפה שהדבר הזה נופל ועד כמה הוא מורכב . .
  • אבל Leakage . . . אולי אני אסביר שנייה מה זה בכלל, ואז ניכנס קצת ל . . .
  • בעצם, דיברנו על Machine Learning, אנחנו מדברים על לחזות משהו קדימה בזמן - מה יקרה?
  • אז הדבר הכי מסוכן זה שאיכשהו אנחנו מכניסים לתוך המודל מידע, שבתוכו חבוי מידע מתוך העתיד, שלא ידענו אפילו שהוא מתוך העתיד, ואיכשהו הוא “התחבא” לו שם, בלי ששמנו לב
    • ועכשיו ברור שלמודל מאוד “קל”, כי . . זה אמור להיות יחסית קל, כי זה חבוי לו בפנים . . .
  • (רן) יש לו רמז מאוד מאוד ברור, כשאתה בונה אותו, אבל במציאות הרמז הזה כבר לא יהיה קיים, זאת אומרת - בדרך כלל אתה מאמן על מידע שהוא היסטורי, ששם יש לך אינפורמציה מלאה, ואתה “עוצם לרגע עין אחת” כדי לא להסתכל קדימה, אבל בטעות אתה קצת “פותח את האצבעות” וכן מסתכל קדימה, בלי שהתכוונת - וזה ה-Leakage הזה שעליו אתה מדבר.
  • (נועם) בדיוק - ובעצם, כמו . . .מאוד יפה, אני אוהב את הדוגמא הזו עם החצי-עין עצומה וככה, לעצום . . .
  • (רן) אל תשכח לתת זכויות יוצרים!
  • (נועם) אז הנקודה היא באמת, שכשמגיעים לדאטה - ותזכרו, אנחנו מתחברים בעצם למקורות דאטה של הלקוחות שלנו, ממש מתחברים ל-Databases שלהם, למקורות מידע, ו . . .
  • תחשבו רגע קצת על איך נראה מידע בתוך ה-Database - לרוב לוקחים דאטה וגם מעדכנים
    • מעדכנים שם רשומות, ואם אנחנו מעדכנים פתאום רשומה, ומסתכלים עליה ו . . . ממש כמו שדיברת, אנחנו הרי מסתכלים על מידע היסטורי, אז אנחנו לקוחים רשומות ישנות ומשתמשים בהן כאילו הן נוצרו עכשיו
    • אבל בעצם הרשומה השתנתה - קרו לה כל מיני דברים . . .
    • המון המון מידע בעצם התעדכן מאז - ואנחנו מניחים עכשיו, כשאנחנו ברגע הפרדיקציה, שזה המידע שיש לנו ביד
    • אבל כשנגיע באמת לרגע הפרדיקציה [במציאות] - המידע לא יראה ככה בכלל . . .
    • וזה אותו פער - זה בעצם . . . בגלל זה ה-Leakage הזה: דלף מידע . . .
(רן) בוא, רגע, נמציא דוגמא - נגיד, יש לי עמודה שקוראים לה “איכות הלקוח”
    • לפני שנתיים, כשרק קיבלנו את הלקוח, לא ידענו עליו שום דבר, אז שמנו שם, נגיד, “C”.
    • עם הזמן, הלקוח שילם תמיד בזמן, תמיד חזר והכל - וזה לאט-לאט עלה ל-”B” ועלה ל-”A”
    • עכשיו - אתה בא לעשות איזשהו Prediction ואתה רואה בתוך העמודה הזאת שאיכות הלקוח היא “A” - זאת אומרת שזה לקוח ממש-ממש טוב
    • אבל במציאות, כש”יוולד” לך לקוח חדש, או לקוח שרק קיים במערכת - הציון שלו לא באמת יהיה “A”
    • זאת אומרת - אם אתה עכשיו מנסה לעשות פרדיקציה מהמקום שבו היית שנתיים לפני כן, האיכות שלו הייתה “C”, היא לא הייתה “A” - אבל אתה לא יודע את זה כשאתה . . .
(אורי) אגב, זה קורה לפעמים כשאתה מעלה מודל חדש, ואתה מנסה לבדוק אותו ב-A/B Testing מול מודל ישן - ככל שאתה מרחיב את הניסוי של ה . . . - לא יודע אם A או B, זה לא משנה - את המשקל של המודל “החדש” שלך, “הטוב יותר” שלך - הדאטה שלו מתחיל ללמד את המודל הישן . . . בעצם, פתאום אתה רואה שה-Lift שלך, ככל שאתה מייצר . . . ה-Lift יורד.
  • (נועם) אני אגיד שזו ממש הייתה . . . צריך להגיד לצופים [הצופים בטקסט? כי היתר לרוב מאזינים . . .] - לא העברתי לך שום שטר, אבל זו לגמרי הייתה הרמה להנחתה, וזה באמת . . .
  • זה בדיוק - מה שעכשיו הסברת - זה התחלה, בעצם, של איך שאנחנו מתמודדים עם הבעיה הזו.
  • בעצם, תזכרו כמה קל לקחת מודל בתוך פקאן ולהתחיל להשתמש בו בתוך Production - זו לחיצת כפתור
    • אתה זוכרים את ה-Usage model שדיברנו עליו? - בעצם, נורא קל . . . אין צורך עכשיו לקחת את כל המודל שלנו, לקחת צוות של Data Engineers ולהעלות אותו ל-Production - אתה פשוא לוחץ על כפתור.
    • ובעצם, ממש כמו שדיברת - ברגע שאתה מעלה אותו ל-Production ,אתה ישר מזהה שיש פה בעיה, כי הרי ב-Production אתה כבר עובד עם מידע עדכני, אתה כבר עובד עם המידע החי.
      • שם, זו הרי הפעם הראשונה שאתה תפגוש את ה-Leakage
      • דיברת על ה”חצי-עין עצומה”? שם אתה תקבל אותו “בום לפרצוף” . . .
    • (רן) תביא רטייה, לא תוכל פתוח את האצבעות . . .
    • (נועם) בדיוק . . .
  • ובגלל זה, מה שיפה בפקאן זה שאנחנו מאוד בקלות מזהים את אותם Leakage-ים, רואים את זה, כי אנחנו מגיעים ל-Production נורא בקלות, נורא מהר, מזהים את אותם Leakage-ים ויכולים להתמודד איתם.
  • מבינים בדיוק מה לעשות ובעצם להתקדם קדימה.
(רן) אז אתה אומר שבעצם אין פתרון קסם למציאת Leakage - אם הוא שם אז יכול להיות שהוא שם ואתה בחיים לא תזהה אותו, אבל כשאתה פורש את המודל הזה ב-Production, ופתאום אתה רואה ירידה דראסטית בביצועים, אז החשד הראשון הוא שכנראה היה Leakage בתוך הדאטה . . .
  • (נועם) לגמרי . . .
  • יש לנו, אגב, גם עוד כמה טכניקות על לזהות Leakage עוד בבנייה -
    • בדרך כלל, לדוגמא - פיצ’רים שהם כל כך . . . אתם יודעים, אצלנו יש עניין של Feature Importance, ובעצם מזהים Feature שהוא כל כך חשוב
    • ובדרך כלל כשמדובר ב-Leakage אז הפיצ’רים האלה קופצים נורא-נורא גבוה - כמובן יש התראה על העניין הזה, שיש פה חשש ל-Leakage
    • אבל בנוסף לזה, יש פה כמה מנגנונים בדרך - וכמובן שהאחרון, וההכי בטיחותי, זה באמת המנגנון האחרון שבו אתה מוריד ל-Production, רואה מיד מה קורה, ואם יש בעיה אתה כמובן יכול לתקן.

(רן) בסדר, מעולה - אז תראה, אני חושב שיש לנו עוד נושאים לשיחה לאיזה שבועיים, אבל אמרנו שזה יהיה הנושא האחרון והזמן שלנו כבר עבר.
כמה דברים, ככה לפני שנסיים - איפה אתם נמצאים בישראל? את מי אתם מחפשים לגייס?
  • (נועם) מדהים . . .
  • אז אנחנו בישראל - האמת שהיום בתקופת הקורונה, “ישראל” זה כבר “איפה בישראל? כל אחד בביתו” . . .
  • כמובן, יש לנו גם משרדים בבורסה [רמת גן], אבל מי שרוצה, אצלנו אנחנו מאוד בתפיסה “ההיברידית”, שמי שרוצה לעבוד מהבית עובד מהבית ומי שרוצה להגיע למשרד כמובן מוזמן.
  • ובאמת אנחנו ממש עכשיו בצמיחה נורא מהירה בחברה - אבל נורא נזהרים על האנשים: אנחנו לא גדלים . . . הקצב גידול של האנשים שלנו הוא . . . אנחנו באמת רוצים את הכי טובים
    • מגייסים אצלנו כמובן משרות של Data Engineers, אז אם אנחנו מדברים על Frontend ו-Backend, ללא ספק.
    • ו-Data scientists, כמה מפתיע . . . אבל באמת, אנשים מאוד חזקים בעולמות האלה.
    • אפילו יש לנו משרת ניהול ל-Data Science
    • וכמובן עולמות גם של Product ו-Data Analysts.
  • אולי עוד משהו אחרון לסיום, אם יש לנו עוד שנייה אחרונה, אנחנו ככה בפרסומות . . .
  • (רן) Python גנרי או משהו, ככה, יותר מפוקס על Machine Learning?
  • (נועם) לא - לא, Machine Learning
    • היה לנו חשוב, הפעם . . אנחנו עושים גם Machine Learning, עושים תחרויות Machine Learning
    • הפעם היה לנו חשוב שזה יהיה Python רחב - יהיה שם באמת . . .
    • אני לא יכול לספר מה יש בתחרות עדיין, אבל זה הולך להיות אתגר סופר-מעניין
  • (רן) מתי זה קורה? אם מישהו שומע את זה בעתיד [Leakage . . .], מה התאריכים?
  • (נועם) אז אנחנו מדברים על אמצע מאי - פשוט תיכנסו, אתם תראו שם את כל הפרטים.
    • מאמצע מאי התחרות יוצאת לדרך - ובעצם אתם מוזמנים . . .
  • (אורי) זה מידע מהעתיד . . .
  • (רן) כן, לגמרי . . .
  • (אורי) אולי יש לנו Leakage? . . .
  • (רן) ולא עצמנו עין
  • [תמיד יש את Childhood's End]

(רן) טוב, נועם - תודה רבה, שיהיה לכם בהצלחה בפקאן, נשמע כמו מקום עם מוצר בהחלט מאתגר ומעניין
(נועם) תודה רבה לכם, תודה שהזמנתם אותי לכאן, ממש שמחתי
(אורי, רן) תודה ולהתראות


הקובץ נמצא כאן, האזנה נעימה ותודה רבה לעופר פורר על התמלול

338 פרקים