פרסומת

אם אתה לנהל אתר אינטרנט 10 דרכים ליצור אתר קטן ופשוט ללא הגזמהוורדפרס עלולה להיות מוגזמת. כפי שהשירותים המצוינים האחרים הללו מוכיחים, וורדפרס היא לא הכל וסיים את כל יצירת האתר. אם אתה רוצה פתרונות פשוטים יותר, יש מגוון לבחירה. קרא עוד , בטח שמעתם על קובץ robots.txt (או "תקן אי הכללת רובוטים"). בין אם יש לך או לא, הגיע הזמן ללמוד על זה, כי קובץ הטקסט הפשוט הזה הוא חלק מכריע באתר שלך. זה אולי נראה חסר חשיבות, אבל אתה עשוי להיות מופתע עד כמה זה חשוב.

בואו נסתכל מה זה קובץ robots.txt, מה הוא עושה וכיצד להגדיר אותו כהלכה עבור האתר שלכם.

מהו קובץ robots.txt?

כדי להבין כיצד פועל קובץ robots.txt, עליך לדעת קצת על מנועי חיפוש כיצד פועלים מנועי חיפוש?עבור אנשים רבים, גוגל היא האינטרנט. זו ללא ספק ההמצאה החשובה ביותר מאז האינטרנט עצמו. ולמרות שמנועי החיפוש השתנו הרבה מאז, העקרונות הבסיסיים עדיין זהים. קרא עוד . הגרסה הקצרה היא שהם שולחים "סורקים", שהם תוכנות שסורקות את האינטרנט אחר מידע. לאחר מכן הם מאחסנים חלק מהמידע הזה כדי שיוכלו להפנות אנשים אליו מאוחר יותר.

הסורקים האלה, הידועים גם בשם "בוטים" או "עכבישים", מוצאים דפים ממיליארדי אתרים. מנועי חיפוש נותנים להם הנחיות לאן ללכת, אבל אתרים בודדים יכולים גם לתקשר עם הבוטים ולומר להם באילו דפים הם צריכים להסתכל.

instagram viewer

רוב הזמן, הם למעשה עושים את ההיפך, ואומרים להם אילו דפים הם לא צריך להסתכל על. דברים כמו דפים ניהוליים, פורטלים עורפיים, דפי קטגוריות ותגים ועוד דברים שבעלי אתרים לא רוצים שיוצגו במנועי חיפוש. הדפים האלה עדיין גלויים למשתמשים, והם נגישים לכל מי שיש לו הרשאה (שזה לרוב לכולם).

אבל בכך שאומרים לעכבישים האלה לא להכניס כמה דפים לאינדקס, קובץ robots.txt עושה טובה לכולם. אם חיפשת "MakeUseOf" במנוע חיפוש, האם תרצה שהדפים הניהוליים שלנו יופיעו גבוה בדירוג? לא. זה לא יעזור לאף אחד, אז אנחנו אומרים למנועי החיפוש לא להציג אותם. זה יכול לשמש גם כדי למנוע ממנועי חיפוש לבדוק דפים שאולי לא יעזרו להם לסווג את האתר שלך בתוצאות החיפוש.

בקיצור, robots.txt אומר לסורקי אינטרנט מה לעשות.

האם הסורקים יכולים להתעלם מ-robots.txt?

האם הסורקים מתעלמים מקובצי robots.txt? כן. למעשה, סורקים רבים לַעֲשׂוֹת התעלם מזה. עם זאת, בדרך כלל, הסורקים הללו אינם ממנועי חיפוש מכובדים. הם משולחי דואר זבל, אוספי דואר אלקטרוני ו סוגים אחרים של בוטים אוטומטיים כיצד לבנות סורק אינטרנט בסיסי כדי למשוך מידע מאתררצית פעם ללכוד מידע מאתר אינטרנט? הנה איך לכתוב סורק כדי לנווט באתר ולחלץ את מה שאתה צריך. קרא עוד שמסתובבים באינטרנט. חשוב לזכור זאת - השימוש בתקן אי הכללת רובוטים כדי לומר לבוטים להתרחק אינו אמצעי אבטחה יעיל. למעשה, כמה בוטים עשויים הַתחָלָה עם הדפים שאתה אומר להם לא ללכת אליהם.

עם זאת, מנועי חיפוש יעשו כפי שכתוב בקובץ robots.txt כל עוד הוא מעוצב כהלכה.

כיצד לכתוב קובץ robots.txt

ישנם כמה חלקים שונים שנכנסים לקובץ סטנדרטי של אי הכללת רובוט. אני אפרט אותם כל אחד בנפרד כאן.

הצהרת סוכן משתמש

לפני שאתה אומר לבוט באילו דפים הוא לא צריך להסתכל, עליך לציין לאיזה בוט אתה מדבר. לרוב, תשתמש בהצהרה פשוטה שמשמעותה "כל הבוטים". זה נראה כך:

סוכן משתמש: *

הכוכבית מייצגת "כל הבוטים". עם זאת, אתה יכול לציין דפים עבור בוטים מסוימים. כדי לעשות זאת, תצטרך לדעת את שם הבוט שעבורו אתה פורס הנחיות. זה עשוי להיראות כך:

סוכן משתמש: Googlebot. [רשימה של דפים לא לסרוק] סוכן משתמש: Googlebot-Image/1.0. [רשימה של דפים לא לסרוק] סוכן משתמש: Bingbot. [רשימה של דפים לא לסרוק]

וכן הלאה. אם אתה מגלה בוט שאינך רוצה שיסרוק את האתר שלך כלל, תוכל לציין זאת גם כן.

כדי למצוא את השמות של סוכני משתמש, בדוק את useragentstring.com [לא זמין יותר].

אי אישור דפים

זהו החלק העיקרי של קובץ אי הכללת הרובוטים שלך. בהצהרה פשוטה, אתה אומר לבוט או לקבוצת בוטים לא לסרוק דפים מסוימים. התחביר קל. כך תוכל לאשר גישה לכל דבר בספריית "אדמין" של האתר שלך:

Disallow: /admin/

שורה זו תמנע מבוטים לסרוק את yoursite.com/admin, yoursite.com/admin/login, yoursite.com/admin/files/secret.html, וכל דבר אחר שנכלל תחת ספריית הניהול.

כדי לא לאפשר עמוד בודד, פשוט ציין אותו בשורת האסור:

Disallow: /public/exception.html

כעת עמוד ה"חריג" לא יימשך, אבל כל השאר בתיקייה "ציבורית" כן.

כדי לכלול מספר ספריות או דפים, פשוט רשום אותם בשורות הבאות:

Disallow: /private/ Disallow: /admin/ Disallow: /cgi-bin/ Disallow: /temp/

ארבע השורות הללו יחולו על כל סוכן המשתמש שציינת בראש הסעיף.

אם אתה רוצה למנוע מבוטים להסתכל בדף כלשהו באתר שלך, השתמש בזה:

אסור: /

הגדרת סטנדרטים שונים עבור בוטים

כפי שראינו לעיל, אתה יכול לציין דפים מסוימים עבור בוטים שונים. בשילוב שני האלמנטים הקודמים, כך זה נראה:

סוכן משתמש: googlebot. Disallow: /admin/ Disallow: /private/ User-agent: bingbot. Disallow: /admin/ Disallow: /private/ Disallow: /secret/

הקטעים "אדמין" ו"פרטיים" יהיו בלתי נראים בגוגל ובינג, אבל גוגל תראה את הספרייה "הסודית", בעוד שבינג לא.

אתה יכול לציין כללים כלליים עבור כל הבוטים על ידי שימוש בסוכן המשתמש בכוכבית, ולאחר מכן לתת הוראות ספציפיות לבוטים גם בסעיפים הבאים.

לשים הכל ביחד

עם הידע למעלה, אתה יכול לכתוב קובץ robots.txt שלם. פשוט הפעל את עורך הטקסט האהוב עליך (אנחנו מעריצי סאבליים 11 עצות טקסט נשגבות לפרודוקטיביות ולזרימת עבודה מהירה יותרSublime Text הוא עורך טקסט רב תכליתי ותקן זהב עבור מתכנתים רבים. הטיפים שלנו מתמקדים בקידוד יעיל, אך משתמשים כלליים יעריכו את קיצורי המקלדת. קרא עוד כאן) והתחל להודיע ​​לבוטים שהם לא רצויים בחלקים מסוימים באתר שלך.

אם תרצה לראות דוגמה של קובץ robots.txt, פשוט פנה לכל אתר והוסף "/robots.txt" לסוף. הנה חלק מקובץ robots.txt של Giant Bicycles:

קובץ robots.txt ענק

כפי שאתה יכול לראות, יש לא מעט דפים שהם לא רוצים שיופיעו במנועי חיפוש. הם גם כללו כמה דברים שעדיין לא דיברנו עליהם. בוא נסתכל מה עוד אתה יכול לעשות בקובץ אי הכללת הרובוטים שלך.

איתור ה-Sitemap שלך

אם קובץ robots.txt שלך אומר לבוטים היכן לֹא ללכת, שלך מפת האתר עושה את ההיפך כיצד ליצור מפת אתר XML ב-4 שלבים פשוטיםישנם שני סוגים של מפות אתר - דף HTML או קובץ XML. מפת אתר HTML היא עמוד בודד שמציג למבקרים את כל הדפים באתר ובדרך כלל יש קישורים אליהם... קרא עוד , ועוזר להם למצוא את מה שהם מחפשים. ולמרות שמנועי החיפוש כנראה כבר יודעים היכן מפת האתר שלך נמצאת, זה לא מזיק ליידע אותם שוב.

ההצהרה על מיקום מפת אתר היא פשוטה:

מפת אתר: [כתובת אתר של מפת אתר]

זהו זה.

בקובץ robots.txt שלנו, זה נראה כך:

מפת אתר: //www.makeuseof.com/sitemap_index.xml

זה כל מה שיש בזה.

הגדרת השהיית סריקה

הוראת עיכוב הסריקה אומרת למנועי חיפוש מסוימים באיזו תדירות הם יכולים להוסיף דף באתר שלך לאינדקס. זה נמדד בשניות, אם כי כמה מנועי חיפוש מפרשים את זה קצת אחרת. יש הרואים בהשהיית זחילה של 5 כאומר להם לחכות חמש שניות לאחר כל זחילה כדי להתחיל את הבא. אחרים מפרשים זאת כהוראה לסרוק רק עמוד אחד כל חמש שניות.

למה שתגיד לסורק לא לזחול כמה שיותר? ל לשמור על רוחב הפס 4 דרכים שבהן Windows 10 מבזבז את רוחב הפס של האינטרנט שלךהאם Windows 10 מבזבז את רוחב הפס האינטרנט שלך? הנה איך לבדוק, ומה אתה יכול לעשות כדי לעצור את זה. קרא עוד . אם השרת שלך מתקשה לעמוד בקצב התעבורה, ייתכן שתרצה להפעיל עיכוב סריקה. באופן כללי, רוב האנשים לא צריכים לדאוג לגבי זה. עם זאת, אתרים גדולים עם תנועה גבוהה, אולי ירצו להתנסות קצת.

כך מגדירים השהיית סריקה של שמונה שניות:

עיכוב זחילה: 8

זהו זה. לא כל מנועי החיפוש יצייתו להנחיות שלך. אבל לא מזיק לשאול. כמו עם אי אישור של דפים, אתה יכול להגדיר עיכובי סריקה שונים עבור מנועי חיפוש ספציפיים.

העלאת קובץ robots.txt שלך

לאחר שתגדיר את כל ההוראות בקובץ שלך, תוכל להעלות אותו לאתר שלך. ודא שזה קובץ טקסט רגיל ושיש לו את השם robots.txt. לאחר מכן העלה אותו לאתר שלך כדי שתוכל למצוא אותו בכתובת yoursite.com/robots.txt.

אם אתה משתמש ב- a מערכת ניהול תוכן 10 מערכות ניהול התוכן הפופולריות ביותר באינטרנטהימים של דפי HTML מקודדים ביד, ושליטה ב-CSS, חלפו מזמן. התקן מערכת ניהול תוכן (CMS) ותוך דקות תוכל לקבל אתר אינטרנט לשיתוף עם העולם. קרא עוד כמו וורדפרס, כנראה שיש דרך ספציפית שתצטרך לעשות זאת. מכיוון שזה שונה בכל מערכת ניהול תוכן, תצטרך לעיין בתיעוד עבור המערכת שלך.

לחלק מהמערכות עשויות להיות ממשקים מקוונים להעלאת הקובץ שלך. עבור אלה, פשוט העתק והדבק את הקובץ שיצרת בשלבים הקודמים.

זכור לעדכן את הקובץ שלך

העצה האחרונה שאתן היא לעיין מדי פעם בקובץ אי הכללת הרובוטים שלך. האתר שלך משתנה, וייתכן שתצטרך לבצע כמה התאמות. אם אתה מבחין בשינוי מוזר בתעבורת מנוע החיפוש שלך, מומלץ לבדוק גם את הקובץ. ייתכן גם שהסימון הסטנדרטי עשוי להשתנות בעתיד. כמו כל דבר אחר באתר שלך, שווה לבדוק אותו מדי פעם.

מאילו דפים אתה לא כולל סורקים באתר שלך? האם שמת לב להבדל כלשהו בתנועת מנועי החיפוש? שתף את העצות וההערות שלך למטה!

דן הוא יועץ אסטרטגיית תוכן ושיווק שעוזר לחברות לייצר ביקוש ולידים. הוא גם כותב בבלוג על אסטרטגיה ושיווק תוכן באתר dannalbright.com.