1 / 19

Robots.txt

Robots.txt. دکتر مريم اخوتی کمیته علم سنجی و وب سنجی - دانشگاه علوم پزشکی کرمان okhovati.maryam@gmail.com. فایل robot.txt. نام های دیگر spider , robot و یا crawler پیمایش خودکار صفحات وب،برداشتن اطلاعات مورد نیاز،ارسال به موتورهای جستجو نحوه ی بازگشت با توجه به میزان به روز رسانی سایت

Download Presentation

Robots.txt

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Robots.txt دکتر مريم اخوتی کمیته علم سنجی و وب سنجی - دانشگاه علوم پزشکی کرمان okhovati.maryam@gmail.com

  2. فایل robot.txt • نام های دیگر spider , robot و یا crawler • پیمایش خودکار صفحات وب،برداشتن اطلاعات مورد نیاز،ارسال به موتورهای جستجو • نحوه ی بازگشت با توجه به میزان به روز رسانی سایت • کنترل ایندکس شدن صفحات مختلف • فایل robot.txt یک فایل متنی ساده (با همین نام و پسوند txt) است .

  3. فايل/robots.txt در کجا تهيه شود؟ • On Microsoft Windows, use notepad.exe, or wordpad.exe (Save as Text Document), or even Microsoft Word (Save as Plain Text) • On the Macintosh, use TextEdit (Format->Make Plain Text, then Save as Western) • On Linux, vi or emacs

  4. User-agent دستورات در خط اول این فایل معمولا نوع روباتی که قراراست محدودیت ایندکسینگ برای آن اعمال گردد با دستور *:User-agent قرار می گيرد. به شکل زیر : User-agent: * علامت * يعنی همه ی ر,بات های پیمایشگر مثال: فقط روبات های Google User-agent: googlebot

  5. User-agent: googlebot جلوگیری از ایندکس شدن User-agent: * Disallow: / دوخط فوق يعنی عدم ایندکس شدن همه ی صفحات توسط روبات های گوگل Disallow: /private.html Disallow: /files/ Allow: /files/public/

  6. Disallow/Allow با این دستور مسیرهای ممنوع / مجاز مشخص می شوند و به صورت زیر به کار می رود: Disallow: /path/ Allow: /path/ و مثال هایی از آن به صورت زیر می باشد: Disallow: /sales/ Disallow: /shoppingcard/ Allow: /site/search/map.php Allow: /iranforums/user

  7. برای محدود کردن هر روبوت ابتدا آن را مشخص کرده و سپس تمام مسیرهای محدود شده برای آن ذکر می شود: Useragent : Googlebot Disallow : /test/ Disallow : /sales/ در مثال زیر روبوت XGET از دسترسی به فولدر های 1، 2 و 33 منع شده است: Useragent : XGET Disallow : /1/ Disallow : /2/ Disallow : /33/

  8. و با دستور زیر مقدم همه روبوت ها در سایت گرامی داشته می شود : Useragent : * Disallow : کاربرد * به همراه useragent به معنی تمام روبوت ها است. در مثال زیر خیلی ساده به تمام روبوتها گفته می شود راه را اشتباه آمده اید، دور شوید! Useragent : * Disallow : / کاربرد / به همراه disallow به معنی تمام مسیر ها است. برای نوشتن توضیحات در فایل robots.txt از # به صورت زیر استفاده می شود:

  9. برای حذف تصویری مشخص از نتایج گوگل این گونه عمل کنید : Useragent : GoogleotImage Disallow : /images/ax.jpg و برای حذف همه تصاویر از نتایج گوگل این گونه : Useragent : GoogleotImage Disallow : /

  10. Allow در پروتکل robots.txt به طور استاندارد این دستور وجود ندارد اما با این حال گوگل و بینگ آن را پشتیبانی می کنند. کاربرد آن بیشتر در مواردی است که می خواهید همه روبوت ها را از مسیری مشخص دور کنید و تنها به یک یا چند روبوت خاص اجازه دسترسی بدهید. مثال زیر را بررسی نمایید : Useragent : * Disallow : /forums/rules Disallow : /site/search Useragent : Googlebot Allow : / site/search Allow : /forums/user

  11. Useragent : Bingbot Allow : / site/search Allow : /forums/user در این مثال همه روبوت ها به جز دو مورد از دسترسی به مسیرهایی مشخص، منع شده اند. توضیح بیشتری در این جا لازم است. /forums/user به معنی تمام مسیرهایی است که /forums/user در آن موجود است، یعنی مواردی مانند: /forums/user /forums/user/124 /forums/user/messages

  12. در این مثال دسترسی به نوع خاصی از فایل ها برای گوگل محدود شده است : Useragent : Googlebot Disallow : /* . gif Disallow : /* . eps در تمام مثال های بررسی شده بزرگی و کوچکی مسیرها قاعده را تغییر می دهد. این دستور Useragent : * Disallow : /site/map.php تنها برای فایل /site/map.php موثر است و نه برای /site/MAP.php . معمولا بهتر است این پروتکل را برای هر موتور جست و جو در صفحه راهنمای همان موتور جست و جو بررسی کنید. زیرا ممکن است موارد دیگری علاوه بر موارد اشاره شده را نیز پشتیبانی کند. برخی موارد مورد قبول گوگل در ادامه بررسی شده است.

  13. دستور زیر به معنای منع کردن گوگل از خواندن تمام پوشه هایی است که نام آنها با private شروع می شود Useragent : Googlebot Disallow : / private/*

  14. محدود کردن دسترسی به تمام آدرس هایی که به xls ختم می شوند : Useragent : Googlebot Disallow : /*.xls مقابل disallow نمی توان نام روبوت را قرار داد. Useragent : * Disallow : Bingbot کاربرد توضیحات به صورت زیر اشکالی ندارد اما توصیه می شود توضیحات را در خطوط جداگانه قرار دهید : Disallow : /cgibin/ #comments

  15. فایل robots.txt را کجا باید قرار داد؟ این فایل در ریشه سایت قرار می گیرد و نه در جایی دیگر! کاربرد درست و نادرست در دو مثال زیر نشان داده شده است. کاربرد درست: http://www.example.com/robots.txt کاربرد نادرست : http://www.example.com/mysite/robots.txt

  16. Google www.google.com/robots.txt User-agent: * Disallow: /search Disallow: /sdch Disallow: /groups Disallow: /images Disallow: /catalogs Allow: /catalogs/about Allow: /catalogs/p? Disallow: /catalogues Disallow: /news Allow: /news/directory

  17. Googlebot

  18. فهرست روبات ها www.robotstxt.org/db.html ABCdatos Botlink Acme.Spider Ahoy! The Homepage Finder AskJeeves Googlebot

More Related