گوگل اصلاحات اساسی در اسناد خزنده راه اندازی کرده است، اندازه صفحه نمای کلی را کوچک می کند و محتوا را به سه صفحه جدید و متمرکزتر تقسیم می کند. اگرچه لاگ تغییرات اهمیت تغییرات را کمرنگ می کند، اما شامل یک بخش کاملاً جدید و بازنویسی کامل صفحه نمای کلی Crawler است. صفحات اضافی به گوگل اجازه می دهد تا تراکم اطلاعات را در تمام صفحات خزنده افزایش دهد و پوشش موضوعی را بهبود بخشد.
چه چیزی تغییر کرد؟
گزارشهای تغییرات در اسناد Google به دو تغییر اشاره میکنند، اما در واقع تغییرات بیشتری وجود دارد.
در اینجا برخی از تغییرات وجود دارد:
- رشته عامل کاربر بهروزرسانی شده برای خزنده GoogleProducer اضافه شد
- اطلاعات رمزگذاری محتوا اضافه شد
- بخش جدیدی در مورد مشخصات فنی اضافه شده است
بخش مشخصات فنی حاوی اطلاعات کاملاً جدیدی است که قبلاً وجود نداشت. هیچ تغییری در رفتار خزنده وجود ندارد، اما با ایجاد سه صفحه با موضوع خاص، گوگل قادر است اطلاعات بیشتری را به صفحه نمای کلی خزنده اضافه کند و همزمان آن را کوچکتر کند.
این اطلاعات جدید در مورد رمزگذاری محتوا (فشرده سازی) است:
“ابزارهای خزیدن و واکشی Google از کدگذاریهای محتوای زیر (فشردهسازی) پشتیبانی میکنند: gzip، deflate، و Brotli (br). رمزگذاریهای محتوایی که توسط هر نماینده کاربر Google پشتیبانی میشود، در سربرگ Accept-Encoding هر درخواستی که ارائه میکند، اعلام میشود. برای مثال. ، Accept-Encoding: gzip، deflate و br.”
اطلاعات بیشتری در مورد خزیدن بر روی HTTP/1.1 و HTTP/2 و همچنین بیانیه ای وجود دارد مبنی بر اینکه هدف آنها این است که تا آنجا که ممکن است صفحات را بدون تأثیر بر سرور وب سایت خزیدن کنند.
هدف از نوسازی چیست؟
تغییر در اسناد به این دلیل بود که صفحه نمای کلی بزرگ شد. اطلاعات اضافی خزنده صفحه نمای کلی را بزرگتر می کند. تصمیم گرفته شد که صفحه را به سه موضوع فرعی تقسیم کنیم تا محتوای خزنده خاص بتواند به رشد خود ادامه دهد و فضا را برای اطلاعات کلی بیشتر در صفحه نمای کلی باز کند. تفکیک موضوعات فرعی به صفحات خود یک راه حل عالی برای مشکل نحوه ارائه بهترین خدمات به کاربران است.
به این صورت است که گزارش تغییر اسناد تغییر را توضیح می دهد:
«اسناد بسیار طولانی شد، که توانایی ما را برای گسترش محتوای مربوط به خزندهها و ابزارهای واکشی دادههای مبتنی بر کاربر محدود کرد.
… ما اسناد ابزارهای جستجوی Google و ابزارهای جستجوی کاربر را سازماندهی مجدد کرده ایم. همچنین یادداشتهای واضحی درباره محصولی که هر ابزار جستجو تأثیر میگذارد اضافه کردهایم، و برای هر ابزار جستجو یک قطعه robots.txt اضافه کردهایم تا توضیح دهیم که چگونه از نشانههای عامل کاربر استفاده میشود. در غیر این صورت هیچ تغییر معنیداری در محتوا ایجاد نشد.»
تغییرات با نام سازماندهی مجدد تغییرات را کمرنگ می کند زیرا نمای کلی خزنده به طور قابل توجهی بازنویسی شده است و همچنین سه صفحه جدید ایجاد شده است.
در حالی که محتوا تا حد زیادی یکسان باقی میماند، تقسیم آن به موضوعات فرعی باعث میشود که گوگل بدون ادامه گسترش صفحه اصلی، محتوای بیشتری را به صفحات جدید اضافه کند. صفحه اصلی که نمای کلی برای خزندهها و واکندههای گوگل (عاملهای کاربر) نامیده میشود، اکنون یک نمای کلی واقعی است که محتوای دقیقتر آن به صفحات جداگانه منتقل شده است.
گوگل سه صفحه جدید منتشر کرده است:
- خزندگان معمولی
- خزنده های ویژه
- واکشی کننده داده توسط کاربر
1. خزندگان معمولی
همانطور که در عنوان ذکر شد، اینها خزنده های محبوبی هستند که برخی از آنها با GoogleBot مرتبط هستند، از جمله Google-InspectionTool که از عامل کاربر GoogleBot استفاده می کند. همه خزنده های فهرست شده در این صفحه از قوانین فایل robots.txt پیروی می کنند.
اینها خزنده های مستند Google هستند:
- ربات گوگل
- تصویر Googlebot
- ویدیوی ربات گوگل
- ربات Google News
- ربات فروشگاه گوگل
- ابزار اسکن گوگل
- یک گوگل دیگر
- یک تصویر دیگر را گوگل کنید
- ویدیوی دیگری را گوگل کنید
- ربات Google Cloud Vertex
- Google Extended
3. موارد خاص خزندگان
اینها خزنده های مرتبط با محصولات خاص هستند که با توافق با کاربران آن محصولات خزیده می شوند و از آدرس های IP متفاوتی نسبت به آدرس های IP خزنده GoogleBot کار می کنند.
لیست خزندگان با موارد خاص:
- Adsense
عامل کاربر Robots.txt: Mediapartners-Google - تبلیغات ربات
عامل کاربر Robots.txt: AdsBot-Google - AdsBot برای وب و موبایل
عامل کاربر Robots.txt: AdsBot-Google-Mobile - API – Google
عامل کاربر Robots.txt: APIs-Google - امنیت گوگل
عامل کاربر Robots.txt: Google Security
3. واکشی کننده داده های کاربر محور
صفحه واکشی دادههای تحریکشده توسط کاربر، رباتهایی را پوشش میدهد که به درخواست کاربر فعال میشوند و به شرح زیر توضیح داده شده است:
«واکشکنندههای کاربر محور برای انجام عملکرد واکشی دادهها در محصول Google بهعنوان مثال، Google Site Verifier به درخواست کاربر اجرا میشود، یا سایتی که در Google Cloud (GCP) میزبانی میشود، ویژگیای دارد که به کاربران سایت اجازه میدهد تا بازیابی کنند. فید RSS خارجی از آنجایی که واکشی توسط کاربر درخواست می شود، این واکشی ها معمولاً قوانین robots.txt را نادیده می گیرند.
این اسناد ربات های زیر را پوشش می دهد:
- ویژگی فید
- Google Publisher Center
- با صدای بلند از گوگل بخوانید
- ابزار تایید وب سایت گوگل
غذای آماده:
صفحه نمای کلی Google Crawlers بیش از حد جامع و شاید کمتر کاربردی شده است زیرا مردم همیشه به یک صفحه جامع نیاز ندارند، آنها فقط به اطلاعات خاصی علاقه مند هستند. صفحه نمای کلی کمتر مشخص شده است اما درک آن نیز آسان تر شده است. اکنون به عنوان یک نقطه ورودی عمل می کند که در آن کاربران می توانند به موضوعات فرعی خاص تری مربوط به سه نوع خزنده بپردازند.
این تغییر بینشهایی را در مورد چگونگی اصلاح صفحهای که ممکن است به دلیل جامعتر شدن بسیار خوب عمل نکند، ارائه میکند. تجزیه صفحه کلی به صفحات مستقل به موضوعات فرعی اجازه می دهد تا نیازهای خاص کاربران را برطرف کنند و در صورت رتبه بندی در نتایج جستجو، آنها را به طور بالقوه مفیدتر کند.
نمی توانم بگویم این تغییر چیزی را در الگوریتم گوگل منعکس می کند، فقط نشان می دهد که چگونه گوگل اسناد خود را به روز کرده است تا آن را مفیدتر کند و آن را برای افزودن اطلاعات بیشتر تنظیم کند.
اسناد جدید گوگل را بخوانید
مروری بر ابزارهای خزیدن و واکشی داده های گوگل (عوامل کاربر)
فهرست ابزارهای خزنده محبوب در گوگل
فهرست خزندههای مورد خاص از Google
فهرستی از واکشی کننده های داده که توسط یک کاربر Google اداره می شود
تصویر برجسته از Shutterstock/Cast Of Thousands
منبع: https://www.searchenginejournal.com/google-revamps-crawler-documentation/527424/