GPTBot כנראה לא מה שאתה חושב.
טייק אווי מפתח
- ה-GPTBot של OpenAI הוא סורק אינטרנט שנועד לאסוף נתונים מאתרים ציבוריים, המשמש לאחר מכן לאימון ושיפור דגמי AI כמו GPT-4 ו-ChatGPT.
- חלק מהאתרים הגדולים ביותר באינטרנט חוסמים את GPTBot מכיוון שהוא ניגש ומשתמש בתוכן המוגן בזכויות יוצרים ללא רשות או פיצוי ליוצרים.
- בעוד שאתרים יכולים להשתמש בכלים כמו robots.txt כדי לנסות לחסום את GPTBot, אין ערובה לכך ש-OpenAI יעמוד בדרישות, ויעניק להם שליטה על הגישה לנתונים המוגנים בזכויות יוצרים.
באוגוסט 2023, OpenAI, מעצמת הבינה המלאכותית שזוכה לפיתוח ChatGPT, הכריזה על GPTBot, סורק אינטרנט שנועד לחצות את האינטרנט ולאסוף נתונים.
זמן לא רב לאחר ההכרזה הזו, כמה מהאתרים הגדולים ביותר באינטרנט חסמו את הבוט מגישה לאתר שלהם. אבל למה? מהו ה-GPTBot של OpenAI? למה האתרים הגדולים מפחדים מזה, ולמה הם מנסים לחסום את זה?
מהו ה-GPTBot של OpenAI?
GPTBot הוא סורק אינטרנט שנוצר על ידי OpenAI כדי לחפש באינטרנט ולאסוף מידע עבור יעדי פיתוח הבינה המלאכותית של OpenAI. הוא מתוכנת לסרוק אתרים ציבוריים ולשלוח את הנתונים בחזרה לשרתים של OpenAI. לאחר מכן, OpenAI משתמשת בנתונים אלה כדי לאמן ולשפר את מודלי הבינה המלאכותית שלה, במטרה לבנות מערכות בינה מלאכותית מתקדמות יותר ויותר. כדי לבנות מודלים מתוחכמים של בינה מלאכותית כמו GPT-4 או מוצרי התינוק שלו כמו ChatGPT, סורקי אינטרנט הם כמעט הכרחיים.
אימון מודל בינה מלאכותית דורש כמות עצומה של נתונים, ואחת הדרכים היעילות ביותר לאסוף נתונים אלו היא באמצעות פריסת כלים כמו סורקי אינטרנט. סורקים יכולים לגלוש באופן שיטתי באינטרנט, לעקוב אחר קישורים לאינדקס כמויות גדולות של דפי אינטרנט ולחלץ נתוני מפתח כמו טקסט, תמונות ומטא נתונים התואמים דפוס מוגדר מראש.
לאחר מכן ניתן לבנות נתונים אלה ולהזין אותם לתוך מודלים של AI כדי לאמן את יכולות עיבוד השפה הטבעית שלהם או את יכולות יצירת התמונות או לאמן אותם למשימות AI אחרות. במילים סדר, סורקי אינטרנט אוספים את הנתונים שמאפשרים לכלים כמו ChatGPT או DALL-E לעשות את מה שהם עושים.
סורקי אינטרנט אינם מושג חדש. יש כנראה מיליונים מהם סורקים את מיליארדי האתרים הזמינים היום באינטרנט. והם קיימים לפחות מאז תחילת שנות ה-90. GPTBot הוא רק אחד מהסורקים האלה בבעלות OpenAI. אז מה גורם למחלוקת סביב סורק האינטרנט המסוים הזה?
מדוע אתרי טכנולוגיה גדולים חוסמים את GPTBot?
לפי Business Insider, כמה מהאתרים הגדולים באינטרנט חוסמים באופן פעיל את הסורק של OpenAI באתר האינטרנט שלהם. אז, אם המטרה הסופית של GPTBot היא לקדם פיתוח בינה מלאכותית, מדוע חלק מהאתרים הגדולים באינטרנט, שחלקם הרוויחו בדרך זו או אחרת מבינה מלאכותית, נגדו?
ובכן, הנה העניין. מאז ההתעוררות המחודשת של טכנולוגיות בינה מלאכותית ב-2022, היו דיונים רבים על זכותן של חברות בינה מלאכותית להשתמש, כמעט ללא הגבלה, בנתונים שמקורם באינטרנט, שחלק ניכר מהם מוגן על ידי החוק זכויות יוצרים. אין חוקים ברורים שקובעים את האופן שבו חברות אלו אוספות ומשתמשות בנתונים למען הרווח שלהן.
אז בעצם, סורקים כמו GPTBot סורקים את האינטרנט, תופסים עבודה יצירתית של אנשים בצורה של טקסט, תמונות או צורות אחרות של מדיה, ולהשתמש בה למטרות מסחריות מבלי לקבל כל רשות, רישוי או מתן פיצוי למקור יוצרים.
זה מערב פרוע שם בחוץ, וחברות בינה מלאכותית תופסות כל מה שהן יכולות לשים עליהן. אתרים גדולים כמו Quora, CNN, הניו יורק טיימס, Business Insider ואמזון לא מאוד מרוצים מכך שהם תוכן המוגן בזכויות יוצרים נאסף על ידי הסורקים הללו, כך ש-OpenAI יכול להפיק ממנו תועלת כספית אצלם הוֹצָאָה.
זו הסיבה שהאתרים הללו פורסים "robots.txt", שיטה בת עשרות שנים לחסום סורקי אינטרנט. לפי OpenAI, GPTBot יציית להוראות לסריקה או להימנע מסריקת אתרים בהתבסס על הכללים המוטמעים ב-robots.txt, קובץ טקסט קטן שאומר לסורקי אינטרנט כיצד להתנהג באתר. אם יש לך אתר משלך ותשמח למנוע מ-GPTBot לתפוס את הנתונים שלך, כך תוכל לחסום את הסורקים של OpenAI מלגרד את האתר שלך.
האם אתרים באמת יכולים לעצור את GPTBot?
בעוד שסורקים כמו GPTBot הם הכרחיים לאיסוף כמויות הנתונים העצומות הנדרשות לאמן מערכות בינה מלאכותית מתקדמות, יש דאגות תקפות לגבי זכויות יוצרים ושימוש הוגן שלא יכולים להיות התעלמו.
בטח, ישנם כלים פשוטים כמו robots.txt שניתן להשתמש בהם כדי להתגונן מפני זה, אך האם GPTBot מציית להוראות בקובץ זה נתון לשיקול דעתה של OpenAI. אין ערובה שהם יעשו זאת, ואין דרך מיידית חסינת תקלות לדעת אם הם עשו זאת. במאבק להרחיק את GPTBot מנתונים המוגנים בזכויות יוצרים, OpenAI מחזיקה באסים, לפחות לעת עתה.