גרידה באינטרנט כוללת איסוף מידע בצורת נתונים מאתרים או דפים. למרות שייתכן שאינך מעשה מודע, גירדת את האינטרנט בצורה זו או אחרת תוך איסוף מידע. אבל זה בדרך כלל עדין.

גירוד באינטרנט או גירוד מסך הוא בדרך כלל פעולה תכליתית, ואנשי מקצוע עושים את העיצוב אוטומטי כדי לקבל נתונים עצומים. בין אם על ידי העתקת טקסטים באתר באופן ידני, שימוש בכלים ייעודיים, או כתיבת סקריפטים לגרידה באינטרנט, מגרדי האינטרנט לפעמים פוגעים חזק באתר על ידי הגשת בקשות מרובות בבת אחת.

אך בעוד שעסקים רבים ממנפים כעת את גירוד האתרים בכדי להשיג יתרון תחרותי, האם זה אכן חוקי?

אילו אתרים כדאי לגרד?

האינטרנט הוא מאגר מידע, המעניק לאנשים גישה לנתונים ישנים ובזמן אמת. גירוד באינטרנט או גרידת מסך קיימים כבר זמן מה. אבל כמה כדאי להשתמש בו, ובאילו אתרים תוכלו לגרד?

אתרים מסוימים מחמירים סורקי אינטרנט או מגרדי מסך וחוסמים אותם לחלוטין. אז ברור מאליו שלא צריך לגרד אתרים כאלה. אבל אנשים עדיין עושים זאת.

למרבה הצער, אין כמעט שום דבר אחר שאתרים כאלה יכולים לעשות בכדי לעצור את זה מלבד תיקון הפרצות שלהם.

לפני שאתה מגרד אתר, באופן אידיאלי, עליך לבדוק אם הוא מאפשר סריקה או לא. בדרך כלל, תוכל לברר זאת על ידי בדיקת קובץ robots.txt של האתר. אתה יכול לעשות זאת על ידי הקלדת "[URL URL] /robots.txt".

instagram viewer

בדרך כלל קובץ robots.txt חוקים לסורקים או סוכני משתמשים שונים. עם זאת, כללים אלה משתנים, תלוי באתר המעורב. בעוד שאתרים מסוימים מאפשרים סריקה בכל הדפים, יש המציינים את הדפים שבוט יכול לסרוק, וחלקם חוסמים את הסורקים על הסף.

אתר שחוסם את כל סוכני המשתמשים בסריקת כל הדפים קובע בדרך כלל את הכללים הבאים:

סוכן משתמש: *
אסור: /

קובץ robots.txt החוסם את כל הבוטים מסריקה של ספריות או דפים מסוימים נראה בדרך כלל כך:

סוכן משתמש: *
אסור: / URL לדף 1
אסור: / URL לדף 2

אם robots.txt אינו מתיר את הדף שברצונך לסרוק, סביר להניח שתוכל לגרד אותו. אחרת, עליכם לסגת או לבקש את הסכמת המנהל. הם עשויים להעניק לך גישה.

בנוסף, אתרים מסוימים מציינים במפורש אם הם מאפשרים סריקה או לא בתנאי השימוש שלהם. יש שאף מציינים זאת בראש הרובוטים שלהם. גם הם. בדוק תמיד גם את זה כדי להיות בטוח שאתה עושה את הדבר הנכון.

כיצד משתמשים בגרידה ברשת

אז אם קיבלתם הודעות דואר זבל או SMS מאתרים או אנשים שמעולם לא סיפקתם את המידע האישי שלכם, סביר להניח שגירדתם איפשהו. ובעיקר, זה דרך אחת מידיות המדיה החברתית שלך.

עם זאת, גירוד באינטרנט לפעמים הוא יותר מאשר רק איסוף נתונים המועבר לחזית הקצה. אם משתמשים בו בזדון, זה עלול לגרום לדליפת מידע אישי ומסווג.

בעוד שרוב פלטפורמות המדיה החברתית מקמטות את מצחה, בוטים זוחלים עדיין ניגשים לפרופילים של אנשים, ופרטי הקשר שלהם דולפים ומגרדים.

לפייסבוק, למשל, דווח כי יש לה נקודות תורפה שהדליפו את פרטי הקשר של המשתמשים בעבר, למרות שמשתמשים שומרים עליהם פרטיים.

באופן דומה, LinkedIn סבלה לאחרונה מפריצת אבטחה שגרמה לדליפת נתונים אישיים השייכים למעל 500 מיליון חשבונות. כתוצאה מכך, פגיעות זו הביאה לשיתוף של כתובות דוא"ל ומספרי טלפון רבים ללא הסכמת בעלי הפרופיל.

האם זה לא חוקי לגרד אתר?

מעולם לא הייתה מסקנה בדבר חוקיות הגרידה ברשת. במקום זאת, המיקוד הוא על האופן שבו סורק עובד על כל מקרה לגופו ועל מה הם משתמשים בנתונים שנאספו כדי להשיג.

אז במקום להסיק על החוקיות שלה, גרידה, כאשר היא נעשית בזדון, אינה חוקית. אבל אם נעשה בצורה נבונה, זה לא חוקי.

אך כצפוי, נראה שיש מדיניות מחמירה יותר לגבי גירוד ושימוש בנתוני מדיה חברתית מכיוון שפרטיות המשתמשים כה חשובה. עם זאת, הכל עדיין מסתכם באיך שאנשים מגרדים את הנתונים.

ה בלוג דיני אינטרנט ומדיה חברתית ניתח את המקרה של hiQ Labs, חברת גירוד נתונים שזכתה בתביעה נגד LinkedIn בשנת 2019 לאחר שניסתה לחסום את מעבדות hiQ מגרד את נתוני משתמשי LinkedIn הזמינים לציבור.

כאשר מעבדות hiQ טוענות כי חוק הונאת מחשבים והתעללות (CFAA) אוסר רק גישה בלתי מורשית, פסק הדין אישר כי הנתונים של לינקדאין היו זמינים לציבור, ולכן כל מי שמגרד אותם עשה זאת מכיוון שהם נגיש.

חוץ מזה, מעבדות hiQ השתמשו רק בנתונים המגורדים על מנת לספק פתרונות ניתוח לחברות - כדי שיוכלו לקבל החלטות גיוס טובות יותר.

לעומת זאת, פייסבוק תבעה לאחרונה את מפתחי ההרחבות של Chrome שגירדו את הפרופילים של משתמשי פייסבוק ללא הסכמתם.

באופן דומה, א אתר copycat נתבע על ידי פייסבוק לגירוד פרטי פרופיל של משתמשי אינסטגרם ואז שימוש באלה ליצירת שיבוטים. על פי הדיווח, פייסבוק המשיכה אז להשיג צו קבוע לבית המשפט נגד העבריין.

אלה כמה מקרים שבהם אנשים עשויים להשתמש בגרידה באינטרנט באופן לא חוקי. החברות האמורות אספו את נתוני משתמשי פייסבוק במרמה, ללא הסכמת המשתמשים בה. אז זה הפר את מדיניות הפרטיות.

לכן, אף על פי שגרידה באינטרנט עשויה לסכל את האתר שממנו הוא מקבל נתונים, אין כלל כלל שעכשיו מונע מאנשים להשיג את מבוקשם, כל עוד הם אינם מפרים את חוקי האינטרנט על הסף.

האם גירוד באינטרנט הוא שם נרדף לפריצה?

ישנם מספר מיתוסים סביב גרידת רשת. אחת מהן היא האמונה כי גירוד אתר פירושו שפרצת אותו. למרות שפריצה יכולה בסופו של דבר להוביל לגרידת נתונים, הטענה שהמונח עצמו פירושו פריצה לאתר אינה נכונה.

גירוד באינטרנט יכול לכלול שימוש ב כלי זחילה או גירוד ייעודיים, ממשקי תכנות יישומים (API), או סקריפטים לגרידה באינטרנט כדי לקבל נתונים שניתנו מאתר. בניגוד לפריצה, הוא לא מתפשר על האתר שהוא מגרד ולא משבש את חוויית המשתמשים בו.

קָשׁוּר: מה זה גירוד באינטרנט? כיצד לאסוף נתונים מאתרים

אז בעוד פריצה כרוכה בגישה לא מורשית, בדרך כלל למסד הנתונים של האתר, גרידה באינטרנט מכוונת רק לנתונים שכבר נראים בקצה הקדמי. למרות שאנשים יכולים להשתמש בגרידה באינטרנט בזדון, זה עדיין לא שם נרדף לפריצה.

בנוסף לכך, בניגוד לגרידת רשת, פריצה מכוונת ולא מוסרית אינה חוקית.

מה החיובי של גרידה באינטרנט?

לגרידה באינטרנט יש תוצאות חיוביות רבות, ואפילו כמה חברות טכנולוגיה מציעות כעת את הנתונים שלהן בחינם באמצעות ממשקי API. מידע זה בדרך כלל אינו מספיק בכדי להעריך מגמות עסקיות ולקבל החלטות.

כך שחברות מקבלות כעת נתונים רבים יותר על ידי גירוד האינטרנט כדי לשפר את שיטות העבודה ולהניע מכירות. בנוסף, מדעני נתונים מזינים אלגוריתמים של למידת מכונה בנתונים שנאספים באמצעות גירוד מסך.

נתונים כאלה יכולים להיות תמונות המשמשות לזיהוי תמונות, טקסטים פשוטים לניתוח סנטימנט, או נתוני מוצרים ישירים לניתוח מודיעין שוק וניתוח התנהגות צרכנים.

קָשׁוּר: דרכים ייחודיות להשיג מערכי נתונים עבור פרויקט למידת המכונה שלך

אז גירוד באינטרנט מועיל עוד יותר מכיוון שאם יש לך גישה למידע שאין למתחרה שלך, אתה יכול לנצח אותם.

בעוד שאתרים מסוימים מקמטים פנים על מגרדי רשת, לחלקם, אפילו שירותי מסחר אלקטרוני, לא אכפת לך אם תגרד את הנתונים שלהם או לא. ענקיות אינטרנט כמו eBay ו- Salesforce החלו את ה- API שלהן בשנת 2000, והציעו למתכנתים גישה לנתונים ציבוריים בפעם הראשונה.

האם אתה אמור לגרד את האינטרנט?

קבענו כי גירוד באינטרנט אינו חוקי כאשר נעשה בדרך הנכונה. אבל מה שאתה עושה עם הנתונים שאתה מגרד הוא גם דאגה. אז במקום לנצל לרעה זאת, השתמש בה כדי להשיג יותר תובנות שיעזרו לך ולאחרים לקבל החלטות מושכלות.

עם זאת, גירוד באינטרנט כמיומנות מעניק לך גישה לנתחי נתונים גדולים באינטרנט, אשר יכולים לעזור לך או לחברתך להישאר מעל הנישה העסקית. כמדען נתונים, זה אפילו מרחיב את היקףך ומשפר את כישורי הקידוד והטכני שלך.

לדוגמא, פייתון היא אחת משפות התכנות המסייעות לך לגרד אתר בקלות באמצעות ספריית המרק היפה שלו או מסגרת ה- Scrapy.

אימייל
גרד אתר עם מדריך יפה זה לפיתון מרק

מעוניינים בגרידה ברשת? כך תגרד אתר לתוכן ועוד באמצעות ספריית Python מרק יפה.

קרא הבא

נושאים קשורים
  • בִּטָחוֹן
  • תִכנוּת
  • אבטחה מקוונת
  • גירוד באינטרנט
על הסופר
אידובו אומיסולה (71 מאמרים פורסמו)

Idowu הוא נלהב מכל דבר חכם טק ופרודוקטיביות. בזמנו הפנוי הוא משחק בקידוד ועובר ללוח השחמט כשמשעמם לו, אבל הוא גם אוהב להתנתק מהשגרה מדי פעם. התשוקה שלו להראות לאנשים את הדרך סביב הטכנולוגיה המודרנית מניע אותו לכתוב יותר.

עוד מאידובו אומיסולה

הירשם לניוזלטר שלנו

הצטרף לניוזלטר שלנו לקבלת טיפים טכניים, ביקורות, ספרים אלקטרוניים בחינם ומבצעים בלעדיים!

צעד אחד נוסף !!!

אנא אשר את כתובת הדוא"ל שלך בדוא"ל ששלחנו לך זה עתה.

.