מפתח | חברת גוגל |
---|---|
www | |
גוגלבוט (אנגלית: Googlebot) הוא זחלן רשת המיועד לאינטרנט שנבנה על ידי גוגל ומשמש את החברה. הזחלן אוסף מסמכים ומידע מהאינטרנט במטרה לבנות אינדקס נרחב שעליו מתבסס מנוע החיפוש של Google. שם זה משמש למעשה להתייחסות לשני זחלנים שונים של סורקי אינטרנט: האחד "גוגלבוט שולחני" (Googlebot Desktop המדמה משתמשי במחשבים נייחים) והשני "גוגלבוט נייד" (Googlebot Mobile המדמה משתמש ממכשיר נייד).[1]
כל אתר אינטרנט ציבורי ככל הנראה יסרק על ידי "גוגלבוט שולחני" ו"גוגלבוט נייד". עם זאת, גוגל הודיעה כי החל מספטמבר 2020 כל האתרים עברו לאינדקס ראשון במובייל, כלומר גוגל סורקת את האינטרנט באמצעות גוגלבוט של סמארטפון.[2] ניתן לזהות את סוג המשנה של הגוגלבוט על ידי הסתכלות על במחרוזת סוכן המשתמש שבבקשה. עם זאת, שני סוגי הסורקים מצייתים לאותו אסימון (token) מוצר ((useent token)) ב־robots.txt, ולכן מפתח אינו יכול למקד באופן סלקטיבי לגוגלבוט ספציפי באמצעות robots.txt.
אם מנהל אתר מעוניין להגביל את המידע באתר שלו הזמין לגוגלבוט, או לזחלן רשת "תקני" אחר, הוא יכול לעשות זאת באמצעות הנחיות מתאימות בקובץ robots.txt[3] או על ידי הוספת meta tag כזה: <meta name="Googlebot" content="nofollow" />
לדף האינטרנט.[4] בקשות גוגלבוט לשרתי HTTP ניתנות בדרך כלל לזיהוי באמצעות מחרוזת סוכן משתמש המכילה "Googlebot" וכתובת מארח המכילה "googlebot.com".
גוגלבוט עוקב אחר קישורי HREF וקישורי SRC.[3] ישנן הוכחות הולכות וגוברות שגוגלבוט יכול לבצע JavaScript ולנתח תוכן שנוצר גם משיחות Ajax.[5] ישנן מספר תיאוריות לגבי מידת ההתקדמות של יכולת הגוגלבוט לעבד JavaScript.[6] זחלן גוגלבוט משתמש בשירות עיבוד אתרים (WRS) המבוסס על מנוע עיבוד כרום.[7] גוגלבוט מגלה דפים על ידי צירוף כל הקישורים בכל דף שהוא מוצא. לאחר מכן הוא עוקב אחר קישורים אלה לדפי אינטרנט אחרים. לדפי אינטרנט חדשים חייבים להיות מקושרים מדפים מוכרים אחרים באינטרנט על מנת שיסרוק אותם ויאנדקס או לשלוח אותם ידנית על ידי מנהל האתר.
בעיה שמנהלי אתרים עם אחסון אתרים ברוחב פס נמוך ציינו בגוגלבוט כי הוא תופס רוחב פס גדול. הדבר יכול לגרום לאתרים לחרוג ממגבלת רוחב הפס שלהם ולהסירם באופן זמני. הדבר בעייתי במיוחד עבור אתרי מראה (mirror site) המאחסנים נתונים רבים. גוגל מספקת קונסולת חיפוש (Search Console) המאפשרת לבעלי אתרים לצמצם את קצב הסריקה.[8]
התדירות שבה גוגלבוט יסרוק אתר תלוי בתקציב הסריקה. תקציב סריקה הוא הערכה של התדירות שבה אתר אינטרנט מתעדכן. מבחינה טכנית, צוות הפיתוח של גוגלבוט (צוות סריקה ואינדקס) משתמש בכמה מונחים מוגדרים באופן פנימי כדי להשתלט על מה ש"תקציב סריקה" מייצג.[9] מאז מאי 2019, גוגלבוט משתמש במנוע העיבוד העדכני ביותר של Chromium, התומך בתכונות ECMAScript 6. זה יהפוך את הבוט לקצת יותר "ירוק עד" ויבטיח שהוא לא מסתמך על מנוע עיבוד מיושן בהשוואה ליכולות הדפדפן.[10]
מדיאבוט (Mediabot) הוא סורק אינטרנט בו משתמשת גוגל לניתוח תוכן, כך ש־Google AdSense תוכל להציג פרסום רלוונטי מבחינת הקשר לדף אינטרנט. מדיאבוט מזדהה עם מחרוזת סוכן המשתמש "Mediapartners-Google/2.1".
שלא כמו זחלנים אחרים, מדיאבוט אינו עוקב אחר קישורים לגלות כתובות אתרים חדשות הניתנות לסריקה, אלא רק ביקור בכתובות אתרים שכללו את קוד AdSense. כאשר התוכן שוכן מאחורי התחברות, ניתן לתת לסורק כניסה כך שיוכל לסרוק תוכן מוגן.