اقترحت جوجل معيار إنترنت
رسميًا للقواعد المضمنة في ملفات robots.txt.
كانت تلك القواعد ،
الموضحة في بروتوكول استبعاد الروبوتات
(REP) ، معيارًا غير رسمي على مدار الخمسة والعشرين
عامًا الماضية.
بينما تم اعتماد REP بواسطة محركات البحث ، إلا أنه لا يزال غير رسمي ، مما يعني أنه مفتوح للتفسير من قبل المطورين. علاوة على ذلك ، لم يتم تحديثه أبداً لتغطية حالات الاستخدام
اليوم.
كما تقول جوجل ، فإن هذا يخلق تحديًا لأصحاب المواقع لأن المعيار المكتوب بشكل
غامض ، الأمر الواقع يجعل من الصعب كتابة القواعد بشكل صحيح.
للتغلب على هذا التحدي
، قامت جوجل بتوثيق كيفية استخدام REP على الويب الحديث وإرساله إلى فريق
هندسة الإنترنت ( للمراجعة.
تشرح جوجل ما تم تضمينه في المسودة:
تعكس مسودة REP المقترحة أكثر من 20 عامًا من الخبرة في العالم الحقيقي في الاعتماد على قواعد ملف robots.txt ، ويستخدمها كل من زحف جوجل وغيره من برامج الزحف الرئيسية ، بالإضافة إلى حوالي نصف مليار موقع إلكتروني يعتمد على REP. تمنح عناصر التحكم الدقيقة هذه للناشر القدرة على تحديد ما الذي يريد الزحف إليه على موقعه على الويب ويحتمل أن تظهر للمستخدمين المهتمين.
لا تغير المسودة أيًا
من القواعد الموضوعة في عام 1994 ، بل تم تحديثها فقط على الويب الحديث.
بعض القواعد المحدثة
تشمل:
·
يمكن لأي بروتوكول نقل يستند إلى عنوان استخدام ملف الروبوت . لم يعد يقتصر على HTTP بعد الآن. يمكن
استخدامها لبروتوكول نقل الملفات .
·
يجب على المطورين تحليل ما لا يقل عن 500 كيلو
بايت من ملف
robots.txt.
·
وقت تخزين مؤقت جديد يبلغ 24 ساعة أو قيمة توجيه
ذاكرة التخزين المؤقت إن وجدت ، مما يمنح مالكي مواقع الويب المرونة لتحديث ملف robots.txt الخاص
بهم وقتما يريدون.
·
عندما يتعذر الوصول إلى ملف robots.txt بسبب
فشل الخادم ، لا يتم الزحف إلى الصفحات غير المسموح بها لفترة طويلة من الوقت بشكل
معقول.
جوجل منفتحه تمامًا للتعليقات على المسودة المقترحة وتقول إنها ملتزمة بتصحيحها.