התחל במצב לא מקוון עם האפליקציה Player FM !
פרק 39: סקרייפינג מחוץ לקופסה - עם זיו ״זיקו״ קלדרון
Manage episode 364517506 series 3432247
תהיתם פעם איך גוגל מאנדקסים את האתרים שלהם, או איך יודעים היכן נמצא כל קישור ברחבי הרשת?
אולי הייתם צריכים להשיג מידע בכל מני אתרים שלא היה להם API רשמי?
הגעתם למקום הנכון, בפרק מיוחד (אבל ממש 😆) הגיע אלינו זיו ״זיקו״ קלדרון לשיחה בועטת על עולם הסקייפרים והקרולרים וכיצד הם עזרו לו לפני כמה שנים להקים סטארטאפ עם Data על מאות אלפי מוצרים וכל זה לבדו.
כרגיל נשמח לשמוע מה אתם חושבים.
מפתחים מחוץ לקופסה... מ ת ח י ל י ם!
קישורים שימושיים:
Cheerio JS
https://www.npmjs.com/package/cheerio
Cheerio מנתח Markup ומספק API למעבר/מניפולציה של מבנה הנתונים המתקבל. זה לא מפרש את התוצאה כפי שדפדפן אינטרנט מפרש. באופן ספציפי, הוא אינו מייצר עיבוד ויזואלי, לא מחיל CSS, טוען משאבים חיצוניים או מפעיל JavaScript, המשותף ל-SPA (יישום עמוד בודד). זה הופך את Cheerio למהיר הרבה יותר מפתרונות אחרים.
Beautifulsoup4
https://pypi.org/project/beautifulsoup4/
ספריה מעולה שמקלה על סקרייפינג של מידע מדפי אינטרנט. הספריה מאפשרת ניתוח של HTML או XML, ומספקת API נוח לעבודה עם העץ של הDOM על ידי חיפוש ושינוי של עץ הניתוח.
Scrapy
https://scrapy.org/
ספריית אוופן סורס מעולה שהפכה בשנים האחרונות להיות הדיפקטו של סקייפינג לחילוץ הנתונים הדרושים מאתרים בצורה מהירה קלה ופשוטה, עם אפשריות להרחבה.
69 פרקים
Manage episode 364517506 series 3432247
תהיתם פעם איך גוגל מאנדקסים את האתרים שלהם, או איך יודעים היכן נמצא כל קישור ברחבי הרשת?
אולי הייתם צריכים להשיג מידע בכל מני אתרים שלא היה להם API רשמי?
הגעתם למקום הנכון, בפרק מיוחד (אבל ממש 😆) הגיע אלינו זיו ״זיקו״ קלדרון לשיחה בועטת על עולם הסקייפרים והקרולרים וכיצד הם עזרו לו לפני כמה שנים להקים סטארטאפ עם Data על מאות אלפי מוצרים וכל זה לבדו.
כרגיל נשמח לשמוע מה אתם חושבים.
מפתחים מחוץ לקופסה... מ ת ח י ל י ם!
קישורים שימושיים:
Cheerio JS
https://www.npmjs.com/package/cheerio
Cheerio מנתח Markup ומספק API למעבר/מניפולציה של מבנה הנתונים המתקבל. זה לא מפרש את התוצאה כפי שדפדפן אינטרנט מפרש. באופן ספציפי, הוא אינו מייצר עיבוד ויזואלי, לא מחיל CSS, טוען משאבים חיצוניים או מפעיל JavaScript, המשותף ל-SPA (יישום עמוד בודד). זה הופך את Cheerio למהיר הרבה יותר מפתרונות אחרים.
Beautifulsoup4
https://pypi.org/project/beautifulsoup4/
ספריה מעולה שמקלה על סקרייפינג של מידע מדפי אינטרנט. הספריה מאפשרת ניתוח של HTML או XML, ומספקת API נוח לעבודה עם העץ של הDOM על ידי חיפוש ושינוי של עץ הניתוח.
Scrapy
https://scrapy.org/
ספריית אוופן סורס מעולה שהפכה בשנים האחרונות להיות הדיפקטו של סקייפינג לחילוץ הנתונים הדרושים מאתרים בצורה מהירה קלה ופשוטה, עם אפשריות להרחבה.
69 פרקים
כל הפרקים
×ברוכים הבאים אל Player FM!
Player FM סורק את האינטרנט עבור פודקאסטים באיכות גבוהה בשבילכם כדי שתהנו מהם כרגע. זה יישום הפודקאסט הטוב ביותר והוא עובד על אנדרואיד, iPhone ואינטרנט. הירשמו לסנכרון מנויים במכשירים שונים.