מודאג לגבי צ'אטבוטים של AI שמגרדים את האתר שלך לתוכן? למרבה המזל, אתה יכול לחסום אותם מלעשות זאת. הנה איך.
במצב הדברים, לצ'אטבוטים של AI יש רישיון חינם לגרד את האתר שלך ולהשתמש בתוכן שלו ללא רשותך. מודאג מכך שהתוכן שלך נגרד על ידי כלים כאלה?
החדשות הטובות הן שאתה יכול למנוע מכלי בינה מלאכותית לגשת לאתר שלך, אבל יש כמה אזהרות. כאן, אנו מראים לך כיצד לחסום את הבוטים באמצעות קובץ robots.txt עבור האתר שלך, בתוספת היתרונות והחסרונות של פעולה זו.
כיצד צ'אטבוטים של AI ניגשים לתוכן האינטרנט שלך?
צ'אטבוטים של AI מאומנים באמצעות מערכי נתונים מרובים, חלקם בקוד פתוח וזמינים לציבור. לדוגמה, GPT3 הוכשר באמצעות חמישה מערכי נתונים, לפי מאמר מחקר שפורסם על ידי OpenAI:
- זחילה נפוצה (60% משקל באימון)
- WebText2 (22% משקל באימון)
- ספרים1 (8% משקל באימון)
- ספרים2 (8% משקל באימון)
- ויקיפדיה (3% משקל באימון)
זחילה נפוצה כולל פטה-בייט (אלפי TBs) של נתונים מאתרים שנאספו מאז 2008, בדומה לאופן שבו אלגוריתם החיפוש של גוגל סורק תוכן אינטרנט. WebText2 הוא מערך נתונים שנוצר על ידי OpenAI, המכיל בערך 45 מיליון דפי אינטרנט המקושרים אליהם מפוסטים של Reddit עם לפחות שלוש הצבעות בעד.
לכן, במקרה של ChatGPT, בוט הבינה המלאכותית אינו ניגש וזרק ישירות לדפי האינטרנט שלך - עדיין לא, בכל מקרה. אם כי, של OpenAI הכרזה על דפדפן אינטרנט המתארח ב-ChatGPT העלה חששות שזה עלול להשתנות.
בינתיים, בעלי אתרים צריכים לפקוח עין על צ'אטבוטים אחרים של AI, מכיוון שיותר מהם יצאו לשוק. בארד הוא השם הגדול השני בתחום, ומעט מאוד ידוע עליו מערכי הנתונים המשמשים לאימון אותו. ברור, אנחנו יודעים שהבוטים לחיפוש של גוגל סורקים כל הזמן דפי אינטרנט, אבל זה לא אומר בהכרח שלבארד יש גישה לאותם נתונים.
מדוע חלק מבעלי אתרים מודאגים?
הדאגה הגדולה ביותר עבור בעלי אתרים היא שבוטים של AI כמו ChatGPT, Bard ו-Bing Chat מפחיתים מערכם בתוכן שלהם. בוטים של AI משתמשים בתוכן קיים כדי ליצור את התגובות שלהם, אך גם מפחיתים את הצורך של משתמשים לגשת למקור המקורי. במקום שמשתמשים יבקרו באתרי אינטרנט כדי לגשת למידע, הם יכולים פשוט לגרום לגוגל או לבינג ליצור סיכום של המידע שהם צריכים.
כשמדובר בצ'אטבוטים של AI בחיפוש, החשש הגדול של בעלי אתרים הוא איבוד תנועה. במקרה של בארד, בוט הבינה המלאכותית רק לעתים נדירות כולל ציטוטים בתגובותיו היצירתיות, אומר למשתמשים מאילו דפים הוא מקבל את המידע שלו.
לכן, מלבד החלפת ביקורים באתר בתגובות בינה מלאכותית, בארד מסיר כמעט כל סיכוי לאתר המקור לקבל תעבורה - גם אם המשתמש רוצה מידע נוסף. Bing Chat, לעומת זאת, מקושר יותר למקורות מידע.
במילים אחרות, הצי הנוכחי של כלי AI גנרטיביים הם באמצעות עבודתם של יוצרי תוכן להחליף באופן שיטתי את הצורך ביוצרי תוכן. בסופו של דבר, אתה צריך לשאול איזה תמריץ זה משאיר לבעלי אתרים כדי להמשיך לפרסם תוכן. ובהרחבה, מה קורה לבוטים של AI כאשר אתרים מפסיקים לפרסם את התוכן שהם מסתמכים עליו כדי לתפקד?
כיצד לחסום בוטים של AI מהאתר שלך
אם אינך רוצה שבוטי בינה מלאכותית ישתמשו בתוכן האינטרנט שלך, תוכל לחסום מהם את הגישה לאתר שלך באמצעות robots.txt קוֹבֶץ. למרבה הצער, עליך לחסום כל בוט בנפרד ולציין אותו בשם.
לדוגמה, הבוט של Common Crawl נקרא CCBot ואתה יכול לחסום אותו על ידי הוספת הקוד הבא לקובץ robots.txt שלך:
סוכן משתמש: CCBot
אסור: /
פעולה זו תחסום את Common Crawl לסרוק את האתר שלך בעתיד, אך היא לא תסיר נתונים שכבר נאספו מסריקות קודמות.
אם אתה מודאג מהתוספים החדשים של ChatGPT לגשת לתוכן האינטרנט שלך, OpenAI כבר פרסם הוראות לחסימת הבוט שלו. במקרה זה, הבוט של ChatGPT נקרא ChatGPT-User ואתה יכול לחסום אותו על ידי הוספת הקוד הבא לקובץ robots.txt שלך:
User-agent: ChatGPT-User
אסור: /
עם זאת, חסימת בוטים של AI במנועי חיפוש מלסרוק את התוכן שלך היא בעיה אחרת לחלוטין. מכיוון שגוגל חשאית מאוד לגבי נתוני האימון שבהם היא משתמשת, אי אפשר לזהות אילו בוטים תצטרך לחסום והאם הם בכלל יכבדו את הפקודות שלך robots.txt קובץ (סורקים רבים אינם עושים זאת).
עד כמה השיטה הזו יעילה?
חסימת בוטים של AI אצלך robots.txt הקובץ הוא השיטה היעילה ביותר שקיימת כיום, אבל היא לא אמינה במיוחד.
הבעיה הראשונה היא שאתה צריך לציין כל בוט שאתה רוצה לחסום, אבל מי יכול לעקוב אחר כל בוט בינה מלאכותית שמגיע לשוק? הנושא הבא הוא הפקודות שלך robots.txt הקובץ הם הוראות לא חובה. בעוד Common Crawl, ChatGPT ובוטים רבים אחרים מכבדים את הפקודות הללו, בוטים רבים לא עושים זאת.
האזהרה הגדולה הנוספת היא שאתה יכול רק לחסום בוטים של AI מלבצע סריקות עתידיות. אינך יכול להסיר נתונים מסריקות קודמות או לשלוח בקשות לחברות כמו OpenAI למחוק את כל הנתונים שלך.
למרבה הצער, אין דרך פשוטה לחסום את כל הבוטים של AI מגישה לאתר שלך, וחסימה ידנית של כל בוט בודד היא כמעט בלתי אפשרית. גם אם תתעדכן בבוטים העדכניים ביותר של AI המשוטטים באינטרנט, אין ערובה שכולם יפעלו לפי הפקודות שלך robots.txt קוֹבֶץ.
השאלה האמיתית כאן היא האם התוצאות שוות את המאמץ, והתשובה הקצרה היא (כמעט בוודאות) לא.
יש גם חסרונות פוטנציאליים לחסימת בוטים של AI מהאתר שלך. יותר מכל, לא תוכל לאסוף נתונים משמעותיים כדי להוכיח אם כלים כמו בארד מועילים או פוגעים באסטרטגיית השיווק שלך בחיפוש.
כן, אתה יכול להניח שהעדר ציטוטים מזיק, אבל אתה מנחש רק אם חסר לך הנתונים כי חסמתם לבוטים של AI לגשת לתוכן שלכם. זה היה סיפור דומה כאשר גוגל הציגה לראשונה קטעים מומלצים לחפש.
עבור שאילתות רלוונטיות, Google מציגה קטע תוכן מדפי אינטרנט בדף התוצאות, ועונה על שאלת המשתמש. המשמעות היא שמשתמשים לא צריכים ללחוץ לאתר כדי לקבל את התשובה שהם מחפשים. זה גרם לפאניקה בקרב בעלי אתרים ומומחי SEO המסתמכים על יצירת תנועה משאילתות חיפוש.
עם זאת, סוג השאילתות שמפעילים קטעי קוד מוצגים הם בדרך כלל חיפושים בעלי ערך נמוך כמו "מה זה X" או "איך מזג האוויר בניו יורק". כל מי שרוצה מידע מעמיק או דוח מזג אוויר מקיף עדיין יעבור לחיצה, ומי שלא היה לו מעולם לא היה כל כך יקר מלכתחילה.
אולי תגלו שזה סיפור דומה עם כלי בינה מלאכותית, אבל תזדקק לנתונים כדי להוכיח זאת.
אל תמהרו לשום דבר
בעלי אתרים ומפרסמים מודאגים באופן מובן מטכנולוגיית AI ומתוסכלים מהרעיון שבוטים משתמשים בתוכן שלהם כדי ליצור תגובות מיידיות. עם זאת, זה לא הזמן למהלכים התקפי נגד. טכנולוגיית AI היא תחום שזז במהירות, והדברים ימשיכו להתפתח בקצב מהיר. נצל את ההזדמנות הזו כדי לראות איך הדברים מסתדרים ולנתח את האיומים וההזדמנויות הפוטנציאליים שה-AI מביא לשולחן.
המערכת הנוכחית של הסתמכות על עבודתם של יוצרי תוכן כדי להחליף אותם אינה ברת קיימא. בין אם חברות כמו גוגל ו-OpenAI משנות את הגישה שלהן או שממשלות מציגות תקנות חדשות, משהו חייב לתת. במקביל, ההשלכות השליליות של צ'אטבוטים של AI על יצירת תוכן הופכות יותר ויותר ברורות, שבהן בעלי אתרים ויוצרי תוכן יכולים להשתמש לטובתם.