האם ידעת שאפשר לגרד נתונים מאתר באמצעות Google Sheets? הנה איך אתה יכול לעשות את זה.

גרידה באינטרנט היא טכניקה רבת עוצמה לחילוץ מידע מאתרים ולנתח אותם באופן אוטומטי. למרות שאתה יכול לעשות זאת באופן ידני, זו יכולה להיות משימה מייגעת וגוזלת זמן. כלי גירוד אינטרנט הופכים את התהליך למהיר ויעיל יותר, כל זאת תוך עלות נמוכה יותר.

מעניין לציין של-Google Sheets יש את הפוטנציאל להיות כלי גריטת הרשת האחת שלך, הודות לפונקציית ה-IMPORTXML שלו. עם IMPORTXML, אתה יכול בקלות לגרד נתונים מדפי אינטרנט ולהשתמש בהם לניתוח, דיווח או כל משימות מונעות נתונים אחרות.

הפונקציה IMPORTXML ב-Google Sheets

Google Sheets מספק פונקציה מובנית בשם IMPORTXML, המאפשרת לייבא נתונים מפורמטי אינטרנט כגון XML, HTML, RSS ו-CSV. פונקציה זו יכולה להיות מחליף משחקים אם אתה רוצה לאסוף נתונים מאתרים מבלי להזדקק לקידוד מורכב.

להלן התחביר הבסיסי של IMPORTXML:

=IMPORTXML(url, xpath_query)
  • כתובת אתר: כתובת האתר של דף האינטרנט שממנו ברצונך לגרד נתונים.
  • xpath_query: שאילתת XPath המגדירה את הנתונים שברצונך לחלץ.

XPath (שפת XML) היא שפה המשמשת לניווט במסמכי XML, כולל HTML - המאפשרת לך לציין את מיקום הנתונים בתוך מבנה HTML. הבנת שאילתות XPath חיונית לשימוש נכון ב-IMPORTXML.

instagram viewer

הבנת XPath

XPath מספק פונקציות וביטויים שונים כדי לנווט ולסנן נתונים בתוך מסמך HTML. מדריך XML ו-Xpath מקיף הוא מעבר לתחום של מאמר זה, אז נסתפק בכמה מושגי XPath חיוניים:

  • בחירת אלמנטים: ניתן לבחור אלמנטים באמצעות / ו // לסמן שבילים. לדוגמה, /html/body/div בוחר את כל רכיבי ה-div בגוף המסמך.
  • בחירת תכונות: כדי לבחור תכונות, אתה יכול להשתמש @. לדוגמה, //@href בוחר הכל href תכונות בדף.
  • מסנני פרדיקטים: ניתן לסנן אלמנטים באמצעות פרדיקטים המוקפים בסוגריים מרובעים ([ ]). לדוגמה, /div[@class="container"] בוחר הכל div אלמנטים עם הכיתה מְכוֹלָה.
  • פונקציות: XPath מספק פונקציות שונות כגון מכיל(), מתחיל עם(), ו טֶקסט() כדי לבצע פעולות ספציפיות כמו בדיקת תוכן טקסט או ערכי תכונות.

כיצד לחלץ XPath מאתר אינטרנט

עד כה, אתה מכיר את תחביר IMPORTXML, אתה יודע את כתובת האתר של האתר, ואתה יודע איזה אלמנט אתה רוצה לחלץ. אבל איך משיגים את ה-XPath של האלמנט?

אינך צריך לדעת בעל פה את מבנה האתר כדי לחלץ את הנתונים שלו באמצעות IMPORTXML. למעשה, לכל דפדפן יש כלי נחמד המאפשר לך להעתיק מיידית את ה-XPath של כל רכיב.

הכלי Inspect Element מאפשר לך לחלץ את ה-XPath מאלמנטים באתר. כך:

  1. נווט אל דף האינטרנט שברצונך לגרד באמצעות דפדפן האינטרנט המועדף עליך.
  2. אתר את האלמנט שברצונך לגרד.
  3. לחץ לחיצה ימנית על האלמנט.
  4. בחר בדוק את האלמנט מתפריט הקליק הימני. הדפדפן שלך יפתח חלונית שמציגה את קוד ה-HTML של דף האינטרנט. אלמנט ה-HTML הרלוונטי יודגש בקוד.
  5. בחלונית Inspect Element, לחץ לחיצה ימנית על האלמנט המודגש בקוד ה-HTML.
  6. נְקִישָׁה העתק את XPath כדי להעתיק את כתובת ה-XPath של האלמנט ללוח שלך.

עכשיו, כשיש לך את כל מה שאתה צריך, הגיע הזמן לראות את IMPORTXML בפעולה ולגרד כמה קישורים.

אתה יכול להשתמש ב-IMPORTXML כדי לגרד כל מיני נתונים מאתרים. זה כולל קישורים, סרטונים, תמונות וכמעט כל רכיב באתר. קישורים הם אחד המרכיבים הבולטים בניתוח אינטרנט, ותוכלו ללמוד הרבה על אתר אינטרנט רק על ידי ניתוח הדפים שאליהם הוא מקשר.

IMPORTXML מאפשר לך לגרד במהירות קישורים ב-Google Sheets ולאחר מכן לנתח אותם עוד יותר באמצעות הפונקציות השונות ש-Google Sheets מציע.

כדי לגרד את כל הקישורים מדף אינטרנט, אתה יכול להשתמש בנוסחה הבאה:

=IMPORTXML(url, "//a/@href") 

שאילתת XPath זו בוחרת הכל href תכונות של א אלמנטים, תוך חילוץ יעיל של כל הקישורים בדף.

=IMPORTXML("https://en.wikipedia.org/wiki/Nine_Inch_Nails", "//a/@href")

הנוסחה למעלה מגרדת את כל הקישורים במאמר בויקיפדיה.

מומלץ להזין את כתובת האתר של דף האינטרנט בתא נפרד ולאחר מכן להפנות לתא זה. זה ימנע מהנוסחה שלך להיות ארוכה מדי ומסורבלת. אתה יכול לעשות את אותו הדבר עם שאילתת XPath.

2. גירוד כל טקסטי הקישורים

כדי לחלץ את הטקסט של הקישורים יחד עם כתובות האתרים שלהם, אתה יכול להשתמש ב:

=IMPORTXML(url, "//a") 

שאילתה זו בוחרת את כל האלמנטים, ותוכל לחלץ את טקסט הקישור וכתובות האתרים מהתוצאות.

=IMPORTXML("https://en.wikipedia.org/wiki/Nine_Inch_Nails", "//a")

הנוסחה למעלה מקבלת את טקסטי הקישור באותו מאמר בוויקיפדיה.

לפעמים, ייתכן שתצטרך לגרד קישורים ספציפיים על סמך קריטריונים. לדוגמה, ייתכן שתהיה מעוניין לחלץ קישורים המכילים מילת מפתח מסוימת או קישורים הממוקמים בחלק מסוים של הדף.

עם ידע מתאים של XPath, אתה יכול לאתר כל אלמנט שאתה מחפש.

כדי לגרד קישורים המכילים מילת מפתח ספציפית, אתה יכול להשתמש בפונקציה contains() XPath:

=IMPORTXML(url, "//a[contains(@href, 'keyword')]/@href") 

שאילתה זו בוחרת בתכונות href של אלמנטים שבהם ה-href מכיל את מילת המפתח שצוינה.

=IMPORTXML("https://en.wikipedia.org/wiki/Nine_Inch_Nails", "//a[contains(@href, 'record')]/@href")

הנוסחה שלמעלה מגרדת את כל הקישורים המכילים את המילה רשומה בטקסט שלהם בתוך מאמר לדוגמה בוויקיפדיה.

כדי לגרד קישורים מקטע מסוים בדף, אתה יכול לציין את ה-XPath של המדור. לדוגמה:

=IMPORTXML(url, "//div[@class='section']//a/@href") 

שאילתה זו בוחרת תכונות href של אלמנטים בתוך רכיבי div עם המחלקה "קטע".

באופן דומה, הנוסחה שלהלן בוחרת את כל הקישורים במחלקה div שיש להם את המחלקה mw-content-container:

=IMPORTXML("https://en.wikipedia.org/wiki/Nine_Inch_Nails", "//div[@class='mw-content-container']//a/@href")

ראוי לציין שאתה יכול להשתמש ב-IMPORTXML עבור יותר מאשר גירוד אינטרנט. אתה יכול להשתמש במשפחת הפונקציות IMPORT כדי לייבא טבלאות נתונים מאתרים ל-Google Sheets.

למרות ש-Google Sheets ו-Excel חולקים את רוב הפונקציות שלהם, משפחת הפונקציות IMPORT היא ייחודית ל-Google Sheets. תצטרך לשקול שיטות אחרות לייבא נתונים מאתרים לאקסל.

פשט את גירוד האינטרנט עם Google Sheets

גירוד אינטרנט עם Google Sheets ופונקציית IMPORTXML היא דרך רב-תכליתית ונגישה לאיסוף נתונים מאתרים.

על ידי שליטה ב-Xpath והבנה כיצד ליצור שאילתות יעילות, תוכל לנצל את מלוא הפוטנציאל של IMPORTXML ולקבל תובנות חשובות ממשאבי אינטרנט. אז, התחל לגרד ולקחת את ניתוח האינטרנט שלך לשלב הבא!