تاريخ اليوم

 

بسم الله الرحمن الرحيم

 الحمد لله رب العالمين، وصلى الله وسلم وبارك على عبده ورسوله نبينا محمد وعلى آله وصحبه أجمعين

 

ما هو ملف robots.txt؟

Tip : attention au contenu du robots.txt - Neper


ملف robots.txt هو مجموعة من الإرشادات للروبوتات. يتم تضمين هذا الملف في الملفات المصدر لمعظم مواقع الويب. تهدف ملفات robots.txt إلى إدارة أنشطة الروبوتات الجيدة مثل زحف الويب ، حيث من غير المحتمل أن تتبع الروبوتات  التعليمات السيئة .
فكر في ملف robots.txt باعتباره علامة "مدونة قواعد السلوك"  سوف تتبع القواعد ، في حين من المحتمل أن تكسرها القوات "السيئة" وتحظر نفسها.
الروبوت هو برنامج كمبيوتر آلي يتفاعل مع مواقع الويب والتطبيقات. هناك روبوتات جيدة وروبوتات سيئة ، ويسمى نوع واحد من الروبوت الجيد روبوت الزاحف على شبكة الإنترنت. برامج الروبوت هذه "الزحف" وفهرسة المحتوى بحيث يمكن أن تظهر في نتائج محرك البحث. يساعد ملف robots.txt في إدارة أنشطة زحفات الويب هذه بحيث لا يتفوقون على خادم الويب الذي يستضيف موقع الويب ، أو صفحات فهرسة غير المقصودة للعرض العام.

ما هى : أداة Parsero في Kali Linux

كيف يعمل ملف robots.txt؟
ملف robots.txt هو مجرد ملف نصي بدون رمز ترميز HTML (وبالتالي امتداد .txt). يتم استضافة ملف robots.txt على خادم الويب تمامًا مثل أي ملف آخر على الموقع الإلكتروني. في الواقع ، يمكن عادةً عرض ملف robots.txt لأي موقع ويب معين عن طريق كتابة عنوان URL الكامل للصفحة الرئيسية ثم إضافة /robots.txt ،
 مثل https://www.url.com/robots.txt.
لا يرتبط الملف إلى أي مكان آخر على الموقع ، لذلك من غير المحتمل أن يتعثر المستخدمون عليه ، ولكن معظم روبوتات الزاحف على شبكة الإنترنت ستبحث عن هذا الملف أولاً قبل الزحف بقية الموقع.

بينما يوفر ملف robots.txt إرشادات للروبوتات ، فإنه لا يمكنه فعليًا فرض التعليمات. سيحاول الروبوت الجيد ، مثل زاحف الويب أو روبوت خلاصة الأخبار ، زيارة ملف Robots.txt أولاً قبل مشاهدة أي صفحات أخرى على مجال ، وسيتبع التعليمات. سوف يتجاهل الروبوت السيئ إما ملف robots.txt أو سيقوم بمعالجته من أجل العثور على صفحات الويب المحظورة.
سيتابع روبوت الزاحف على الويب مجموعة التعليمات الأكثر تحديداً في ملف Robots.txt. إذا كانت هناك أوامر متناقضة في الملف ، فسيتابع الروبوت الأمر .
أحد الأشياء المهمة التي يجب ملاحظتها هي أن جميع النطاقات الفرعية تحتاج إلى ملف Robots.txt الخاص بها. على سبيل المثال ، بينما يحتوي www.url.com على ملف خاص به ، فإن جميع المجالات الفرعية url
 (blog.url.com ، community.url.com ، إلخ)
  تحتاج إلى ذلك أيضًا.
ما هي البروتوكولات المستخدمة في ملف robots.txt؟

في الشبكات ، يعد البروتوكول تنسيقًا لتقديم التعليمات أو الأوامر. تستخدم ملفات robots.txt بضعة بروتوكولات مختلفة. يسمى البروتوكول الرئيسي بروتوكول استبعاد الروبوتات. هذه طريقة لإخبار الروبوتات عن صفحات الويب والموارد التي يجب تجنبها. يتم تضمين التعليمات المنسقة لهذا البروتوكول في ملف robots.txt.
البروتوكول الآخر المستخدم في ملفات Robots.txt هو بروتوكول Sitemaps. يمكن اعتبار هذا بروتوكول إدراج الروبوتات. تُظهر حالات Sitemap زاحفًا على الويب الذي يمكن أن يزحفوا. هذا يساعد على ضمان ألا يفوتك روبوت الزاحف أي صفحات مهمة.


ما هو وكيل المستخدم؟ ماذا يعني "عامل المستخدم: *"؟
سيكون لأي شخص أو برنامج نشط على الإنترنت "وكيل مستخدم" أو اسم مخصص. بالنسبة للمستخدمين ، يتضمن ذلك معلومات مثل نوع المتصفح وإصدار نظام التشغيل ولكن لا توجد معلومات شخصية ؛ يساعد مواقع الويب على إظهار المحتوى المتوافق مع نظام المستخدم. بالنسبة إلى الروبوتات ، يساعد وكيل المستخدم (نظريًا) مسؤولي الموقع على معرفة نوع الروبوتات التي تزحف الموقع.

في ملف robots.txt ، يستطيع مسؤولو موقع الويب تقديم تعليمات محددة لروبوتات محددة عن طريق كتابة تعليمات مختلفة لوكلاء مستخدمي الروبوت. على سبيل المثال ، إذا أراد المسؤول أن تظهر صفحة معينة في نتائج بحث Google ولكن ليس عمليات البحث عن Bing ، فيمكنها تضمين مجموعتين من الأوامر في ملف Robots.txt: مجموعة واحدة تسبقها "عامل المستخدم: Bingbot" ومجموعة واحدة يسبقه "عامل المستخدم: GoogleBot".

في المثال أعلاه ، تضمنت url "عامل المستخدم: *" في ملف Robots.txt. يمثل النجمة وكيل مستخدم "بطاقة Wild" ، وهذا يعني أن الإرشادات تنطبق على كل روبوت ، وليس أي روبوت محدد.

تتضمن أسماء وكيل مستخدمي محرك البحث المشترك:

جوجل:

    Googlebot
    googlebot-disage (للصور)
    Googlebot-News (للأخبار)
    googlebot-video (للفيديو)

    Bing:

    Bingbot
    MSNBOT-Media (للصور والفيديو)

    Baidu:

    Baiduspider

كيف تعمل أوامر "عدم السماح" في ملف robots.txt؟

أمر عدم السماح هو الأكثر شيوعًا في بروتوكول استبعاد الروبوتات. يخبر Bots بعدم الوصول إلى صفحة الويب أو مجموعة صفحات الويب التي تأتي بعد الأمر. الصفحات غير المسموح بها ليست بالضرورة "مخفية" - فهي ليست مفيدة لمستخدم Google أو Bing العادي ، لذلك لا يتم عرضها عليها. معظم الوقت ، مستخدم على الموقع الإلكتروني
لا يزال بإمكانه الانتقال إلى هذه الصفحات إذا كانوا يعرفون مكان العثور عليها.

يمكن استخدام الأمر Disallow بعدة طرق .
قم بحظر ملف واحد (بمعنى آخر ، صفحة ويب معينة)
على سبيل المثال ، إذا أراد url منع  الروبوتات من الزحف "ما هو الروبوت؟"  ، سيتم كتابة مثل هذا الأمر على النحو التالي:

Disallow: /learning/bots/what-is-a-bot/

بعد الأمر "Disallow" ، يتم تضمين جزء عنوان URL لصفحة الويب التي تأتي بعد الصفحة الرئيسية - في هذه الحالة ، "www.url.com" -. مع وجود هذا الأمر في مكانه ، لن تصل الروبوتات الجيدة إلى
https://www.url.com/learning/bots/what-is-a-bot/
ولن تظهر الصفحة في نتائج محرك البحث.
حظر دليل واحد
في بعض الأحيان يكون من أكثر كفاءة حظر عدة صفحات في وقت واحد ، بدلاً من إدراجها جميعًا بشكل فردي. إذا كانت جميعها في نفس القسم من موقع الويب ، يمكن لملف robots.txt فقط حظر الدليل الذي يحتوي عليها.

مثال من الأعلى هو:

Disallow: /__mesa/

هذا يعني أن جميع الصفحات الموجودة في دليل __mesa لا ينبغي حظر .
السماح بالوصول الكامل

مثل هذا الأمر سيبدو على النحو التالي:

:Disallow 


هذا يخبر الروبوتات أنه يمكنهم تصفح الموقع بأكمله ، لأنه لا يوجد شيء غير مسموح به.
إخفاء الموقع بأكمله عن الروبوتات

/ :Disallow


يمثل "/" هنا "الجذر" في التسلسل الهرمي لموقع الويب ، أو الصفحة التي تتفرع منها جميع الصفحات الأخرى ، بحيث تتضمن الصفحة الرئيسية وجميع الصفحات المرتبطة بها. مع هذا الأمر ، لا يمكن لروبوتات محرك البحث زحف الى الموقع على الإطلاق.
وبعبارة أخرى ، يمكن لمقاطعة واحدة القضاء على موقع ويب كامل من الإنترنت القابل للبحث!
ما هي الأوامر الأخرى التي هي جزء من بروتوكول استبعاد الروبوتات؟

السماح: تمامًا كما قد يتوقع المرء ، يخبر الأمر "السماح" برامج الروبوت التي يُسمح لها بالوصول إلى صفحة ويب أو دليل معين. يجعل هذا الأمر من الممكن السماح للروبوتات بالوصول إلى صفحة ويب معينة ، مع عدم سماع بقية صفحات الويب في الملف. ليس كل محركات البحث تتعرف على هذا الأمر.

DRAWL-DELAY:
يهدف أمر تأخير الزحف إلى إيقاف روبوتات عنكبوت محرك البحث من الخادم. يسمح للمسؤولين بتحديد المدة التي يجب أن تنتظرها الروبوت بين كل طلب ، بالمللي ثانية. فيما يلي مثال على أمر Drawl Delay للانتظار 8 مللي ثانية:

Drawl-Delay: 8

لا تتعرف Google على هذا الأمر ، على الرغم من أن محركات البحث الأخرى تفعل ذلك. بالنسبة إلى Google ، يمكن للمسؤولين تغيير تردد الزحف لموقعهم على الويب في وحدة تحكم بحث Google.

ما هو بروتوكول  Sitemap؟
لماذا يتم تضمينه في robots.txt؟
يساعد بروتوكول Sitemaps الروبوتات على معرفة ما يجب تضمينه في زحف موقع الويب الخاص بهم.

خريطة Sitemap عبارة عن ملف XML يشبه هذا:
مثال على sitemap

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>http://www.example.com/foo.html</loc>
    <lastmod>2018-06-04</lastmod>
  </url>
</urlset>

إنها قائمة قابلة للقراءة الآلي لجميع الصفحات على موقع ويب. عبر بروتوكول SiteMaps ، يمكن تضمين روابط لهذه الخرائط Sitemap في ملف Robots.txt. التنسيق هو: "Sitemaps:" متبوعًا بعنوان الويب لملف XML. يمكنك رؤية عدة أمثلة في ملف url Robots.txt أعلاه.

على الرغم من أن بروتوكول Sitemaps يساعد في ضمان عدم تفويت روبوتات العنكبوت على شبكة الإنترنت أي شيء أثناء زحفها على الويب ، إلا أن الروبوتات ستظل تتبع عملية الزحف النموذجية. لا تجبر الملفات على الروبوتات الزاحفة على إعطاء الأولوية لصفحات الويب بشكل مختلف.
كيف يرتبط Robots.txt بإدارة الروبوت؟

تعد إدارة BOTS ضرورية للحفاظ على موقع ويب أو تطبيقًا وتشغيله ، لأنه حتى نشاط الروبوت الجيد يمكن أن يتفوق على خادم الأصل ، أو إبطاء خاصية ويب. يحتفظ ملف Robots.txt الذي تم بناؤه جيدًا بموقع ويب محسّن لكبار المسئولين  ويحافظ على نشاط الروبوت الجيد تحت السيطرة.
لن يفعل ملف robots.txt الكثير لإدارة حركة المرور الضارة. يمكن أن يساعد حل إدارة الروبوت مثل
url Bot Management أو Super Bot Fight
في الحد من نشاط الروبوت الخبيث دون التأثير على الروبوتات الأساسية مثل
 زحفات الويب.
بيض عيد الفصح robots.txt

في بعض الأحيان ، سيحتوي ملف robots.txt على بيض عيد الفصح - رسائل فكاهية يتضمنها المطورين لأنهم يعرفون أن هذه الملفات نادراً ما يراها المستخدمون. على سبيل المثال ،أ قرأ ملف youtube robots.txt

 "تم إنشاؤه في المستقبل البعيد (عام 2000) بعد الانتفاضة الآلية في منتصف التسعينيات التي قضت على جميع البشر." يسأل ملف url Robots.txt ، "عزيزي الروبوت ، كن لطيفًا".


#    .__________________________.
#    | .___________________. |==|
#    | | ................. | |  |
#    | | ::[ Dear robot ]: | |  |
#    | | ::::[ be nice ]:: | |  |
#    | | ::::::::::::::::: | |  |
#    | | ::::::::::::::::: | |  |
#    | | ::::::::::::::::: | |  |
#    | | ::::::::::::::::: | | ,|
#    | !___________________! |(c|
#    !_______________________!__!
#   /                            \
#  /  [][][][][][][][][][][][][]  \
# /  [][][][][][][][][][][][][][]  \
#(  [][][][][____________][][][][]  )
# \ ------------------------------ /
#  \______________________________/

لدى Google أيضًا ملف "Humans.txt" على: 

https://www.google.com/humans.txt


 

ليست هناك تعليقات:

إرسال تعليق

(( مَا يَلْفِظُ مِنْ قَوْلٍ إِلَّا لَدَيْهِ رَقِيبٌ عَتِيدٌ))

السلام عليكم و رحمة الله و بركاته

الصلاة والسلام على اشرف المرسلين صلى الله عليه وسلم

مدونة نادي لينكس الاغواط الجزائري هي مدونة لتعريف على نظام لينكس وعلى بعض انوعه التوزيعات لينكس لتشجيع على استخدم النظام ربما يكون غير معروف للبعض الهدف هو تعميم والتعريف بالنظام لينكس هي بمثابة اول خطوة الى عالم لينكس ربما الكثير منا لا يعرف الكثير عنه وفي مدونة نادي لينكس الاغواط الجزائري

بحث هذه المدونة الإلكترونية

إجمالي مرات مشاهدة الصفحة

نموذج الاتصال

الاسم

بريد إلكتروني *

رسالة *