گوگل بهطور قابل توجهی مستندات مربوط به کرالر خود را تغییر داده و نتیجه آن، افزایش تراکم اطلاعات و پوشش بهتر موضوعات شده است.
گوگل یک بازنگری بزرگ در مستندات کرالر خود انجام داده است و صفحه اصلی را کوچکتر کرده و محتوای آن را به سه صفحه جدید و متمرکز تقسیم کرده است. اگرچه گزارش تغییرات (changelog) این تغییرات را کماهمیت نشان میدهد، اما بخش کاملاً جدیدی اضافه شده و عملاً تمام صفحه نمای کلی کرالر بازنویسی شده است. این صفحات جدید به گوگل اجازه میدهد تا تراکم اطلاعات در تمام صفحات کرالر را افزایش دهد و پوشش موضوعات را بهبود بخشد.
چه چیزی تغییر کرده است؟
گزارش تغییرات گوگل تنها به دو تغییر اشاره میکند، اما در واقع تغییرات بسیار بیشتری وجود دارد.
در اینجا برخی از تغییرات آمده است:
- افزودن رشته جدید user agent برای کرالر GoogleProducer
- اضافه شدن اطلاعات مربوط به کدگذاری محتوا
- اضافه شدن بخش جدید درباره ویژگیهای فنی
بخش ویژگیهای فنی شامل اطلاعات کاملاً جدیدی است که قبلاً وجود نداشت. هیچ تغییری در رفتار کرالرها رخ نداده است، اما با ایجاد سه صفحه با موضوعات خاص، گوگل قادر است اطلاعات بیشتری را به صفحه نمای کلی کرالر اضافه کند در حالی که آن را کوچکتر میکند.
این اطلاعات جدید درباره کدگذاری محتوا (فشردهسازی) است:
“کرالرها و fetcherهای گوگل از کدگذاریهای محتوای زیر (فشردهسازیها) پشتیبانی میکنند: gzip، deflate و Brotli (br). کدگذاریهای محتوایی که توسط هر user agent گوگل پشتیبانی میشوند، در هدر Accept-Encoding هر درخواست که ارسال میکنند، اعلام میشود. برای مثال Accept-Encoding: gzip، deflate، br.”
هدف از این بازنگری چیست؟
این تغییر به دلیل این بود که صفحه نمای کلی بسیار بزرگ شده بود. افزودن اطلاعات بیشتر درباره کرالرها باعث میشد که این صفحه حتی بزرگتر شود. تصمیم گرفته شد که صفحه به سه زیرموضوع تقسیم شود تا محتوای خاص هر کرالر بتواند ادامه یابد و فضای بیشتری برای اطلاعات عمومیتر در صفحه نمای کلی فراهم شود. جدا کردن زیرموضوعات به صفحات مستقل یک راهحل هوشمندانه برای حل این مشکل است که چگونه بهترین خدمات به کاربران ارائه شود.
این گونه گزارش تغییرات این تغییرات را توضیح میدهد:
“مستندات بسیار طولانی شده بود که توانایی ما برای گسترش محتوای مربوط به کرالرها و fetcherهایی که توسط کاربر فعال میشوند را محدود کرده بود.
مستندات مربوط به کرالرهای گوگل و fetcherهایی که توسط کاربر فعال میشوند را بازسازی کردیم. همچنین یادداشتهای صریحی درباره تأثیر هر محصول روی هر کرالر اضافه کردیم و قطعهای از robots.txt برای هر کرالر برای نشان دادن نحوه استفاده از توکنهای user agent افزودیم. به جز این، تغییرات معنایی دیگری در محتوا ایجاد نشده است.”
گزارش تغییرات این بازنگری را به عنوان یک سازماندهی مجدد توصیف میکند، زیرا علاوه بر ایجاد سه صفحه جدید، صفحه نمای کلی کرالرها بهطور قابل توجهی بازنویسی شده است.
در حالی که محتوا عمدتاً همان باقی مانده است، تقسیم آن به زیرموضوعات، این امکان را برای گوگل فراهم میکند که بدون بزرگتر کردن صفحه اصلی، اطلاعات بیشتری به صفحات جدید اضافه کند. صفحه اصلی که اکنون به نام “نمای کلی کرالرها و fetcherهای گوگل (user agents)” نامیده میشود، اکنون واقعاً یک نمای کلی است و محتوای دقیقتر به صفحات جداگانه منتقل شده است.
گوگل سه صفحه جدید منتشر کرده است:
- کرالرهای عمومی
- کرالرهای موارد خاص
- fetcherهایی که توسط کاربر فعال میشوند
1. کرالرهای عمومی
همانطور که در عنوان آمده است، اینها کرالرهای عمومی هستند که برخی از آنها به GoogleBot مرتبط هستند، از جمله ابزار Google-InspectionTool که از user agent GoogleBot استفاده میکند. تمام باتهای موجود در این صفحه از قوانین robots.txt پیروی میکنند.
اینها کرالرهای مستند شده گوگل هستند:
- Googlebot
- Googlebot Image
- Googlebot Video
- Googlebot News
- Google StoreBot
- Google-InspectionTool
- GoogleOther
- GoogleOther-Image
- GoogleOther-Video
- Google-CloudVertexBot
- Google-Extended
2. کرالرهای موارد خاص
اینها کرالرهایی هستند که به محصولات خاص مرتبط هستند و طبق توافق با کاربران آن محصولات فعالیت میکنند و از آدرسهای IP متفاوتی نسبت به IP کرالر GoogleBot عمل میکنند.
فهرست کرالرهای موارد خاص:
- AdSense
User Agent برای Robots.txt: Mediapartners-Google - AdsBot
User Agent برای Robots.txt: AdsBot-Google - AdsBot موبایل وب
User Agent برای Robots.txt: AdsBot-Google-Mobile - APIهای گوگل
User Agent برای Robots.txt: APIs-Google - Google-Safety
User Agent برای Robots.txt: Google-Safety
3. fetcherهایی که توسط کاربر فعال میشوند
صفحه fetcherهایی که توسط کاربر فعال میشوند، باتهایی را پوشش میدهد که با درخواست کاربر فعال میشوند و به این صورت توضیح داده شده است:
“fetcherهایی که توسط کاربر فعال میشوند، با درخواست کاربران برای اجرای یک عملیات fetch در یک محصول گوگل فعال میشوند. برای مثال، Google Site Verifier بر اساس درخواست کاربر عمل میکند یا یک سایت میزبانی شده در Google Cloud (GCP) دارای قابلیتی است که به کاربران سایت امکان میدهد یک فید RSS خارجی را بازیابی کنند. از آنجایی که fetch توسط کاربر درخواست شده است، این fetcherها معمولاً قوانین robots.txt را نادیده میگیرند. ویژگیهای فنی عمومی کرالرهای گوگل نیز برای fetcherهای فعال شده توسط کاربر اعمال میشود.”
مستندات شامل باتهای زیر است:
- Feedfetcher
- Google Publisher Center
- Google Read Aloud
- Google Site Verifier
نتیجهگیری:
صفحه نمای کلی کرالر گوگل بسیار جامع شده بود و احتمالاً کمتر مفید شده بود، زیرا مردم همیشه به یک صفحه جامع نیاز ندارند و تنها به دنبال اطلاعات خاصی هستند. صفحه نمای کلی اکنون کمتر جامع اما درک آن سادهتر است. این صفحه اکنون بهعنوان یک نقطه ورود عمل میکند که کاربران میتوانند به زیرموضوعات خاص مرتبط با سه نوع کرالر دسترسی پیدا کنند.
این تغییر نکاتی درباره نحوه بهروزرسانی یک صفحه که ممکن است کمتر کارایی داشته باشد، ارائه میدهد. جدا کردن یک صفحه جامع به صفحات مستقل این امکان را میدهد که زیرموضوعات نیازهای خاص کاربران را پوشش دهند و ممکن است آنها را مفیدتر کند، بهویژه اگر در نتایج جستجو رتبهبندی شوند.
من نمیگویم که این تغییر بازتابدهنده چیزی در الگوریتم گوگل است؛ بلکه تنها نشاندهنده این است که گوگل مستندات خود را بهروزرسانی کرده است تا مفیدتر باشد و زمینه را برای افزودن اطلاعات بیشتر فراهم کند.
منبع: https://www.searchenginejournal.com/google-revamps-crawler-documentation/527424/