آشنایی با فایل Robots.txt , نحوه ایجاد و فواید آن

دسته بندی: سئو
زمان مطالعه: 2 دقیقه
۲۷ اسفند ۱۳۹۱

فایل  Robots.txt یک فایل متنی بسیار ساده ,در عین حال بسیار مفید و تاثیر گذار می‌باشد.توسط این فایل شما قادر خواهید بود تا صفحات,لینک ها,پوشه‌های خاصی را از دید موتور‌های جستجو پنهان کنید این کار کمک شایانی در seo یک سایت می‌کند بطوری که وب سایت هایی که از این فایل استفاده می‌کنند در رتبه بهتری در پیج رنک قرار می‌گیرند علاوه بر seo این فایل باعث ایجاد امنیت بالاتری در برابر حملات می‌شود.توسط این فایل می‌توانید محدودیتها  زیادی رو بر روی سایت خود ایجاد نمایید.

برای ایجاد فایل Robots.txt  کافیه از یک نرم افزار ویرایش متن مثل notepad استفاده کنید,نرم افزار رو اجرا کنید و شروع کنید به وارد کردن کدهای مورد نظرتون. به شکل زیر توجه کنید...

همانطور که در تصویر بالا مشاهده می‌کنید ابتدای هر کد از واژه Disallow استفاده شده این واژه به معنی عدم اجازه می‌باشد و به موتور جستجو می‌فهماند که اجازه دسترسی به پوشه و یا فایل مورد نظر راندارد در نتیجه موتور جستجو  فایل هایی با این شرایط را را ایندکس گذاری نمی‌کند.

به عنوان مثال عبارت Disallow:/wp-admin پوشه ادمین وردپرس را برای موتور‌های جستجو غیر قابل دسترس می‌کند.و اگر بخواهیم فایل خاصی را در پوشه ی مورد نظر غیر قابل دسترس کنیم تنها کافیست بعد از اشاره به پوشه مورد نظر نام فایل یا پوشه ی مد نظرتان راوارد کنید مانند:

Disallow:/wp-admin/نام فایل یا پوشه مورد نظر

نکته مهم دیگری که باید مورد توجه قرار گیرد محل ذخیره فایل Robots.txt می‌باشد این فایل باید در ریشه اصلی سایت مورد نظر ایجاد و یا ذخیره شود بدین صورت :

http://www.yoursite/robots.txt 

به همین راحتی و با چند خط کد شما هم میتوانید seo سایت خود را بهتر و هم امنیت سایت خود را فزایش دهید...

در پایان تعدادی از دستورات مهم این فایل رو مشاهده می‌کنید که برای دو  cms قدرتمند جوملا و وردپرس مورد استفاده قرار می‌گیرد...

joomla

User-agent: *

Disallow: /administrator/

Disallow: /cache/

Disallow: /components/

Disallow: /editor/

Disallow: /help/

Disallow: /includes/

Disallow: /language/

Disallow: /mambots/

Disallow: /media/

Disallow: /modules/

Disallow: /templates/

Disallow: /installation/

Disallow: /libraries/

Disallow: /tmp/

Disallow: /xmlrpc/

Disallow: /admin

Disallow: /administrator

Disallow:/admin/

Disallow: /admin.html

Disallow:/admin.php

wordperss

User-agent: *

Disallow: /wp-admin

Disallow: /wp-includes

Disallow: /wp-content/plugins

Disallow: /wp-content/cache

Disallow: /wp-content/themes

Disallow: /trackback

Disallow: /tag

Disallow: /author

Disallow: /wget/

Disallow: /httpd/

Disallow: /cgi-bin

Disallow: /images/

Disallow: /search

Disallow: /feed

Disallow: /feed/

Disallow: /trackback/

Disallow: /rss

Disallow: /comments/feed

Disallow: /feed/$

Disallow: /*/feed/$

Disallow: /*/feed/rss/$

Disallow: /*/trackback/$

امیدوارم که این مطلب مورد توجه شما قرار گرفته باشه...

چه امتیازی به این مقاله می دید؟
نویسنده وحید صالحی
علاقمند به طراحی و برنامه نویسی وب هستم و چند سالی میشه که در این زمینه فعالیت می کنم. (ایمیل من: @) وب سایت من:

نظرات کاربران

Paria RVN

سلام
ممنون از مطلبتون

من از ASP.net استفاده می کنم، برای ساخت فایل Robots.txt می تونم از همین آموزش استفاده کنم؟

مثلاً با داشتن پوشه ی administrator از همین کد استفاده کنم؟

Disallow: /administrator/

کیوان علی محمدی

بله مشکلی نداره.این فایل مربوط به اسپایدر های وب هستش و ربطی به نوع پلت فرم نداره.

تفریحی رزپاتوق

سلام ممنون عالی ومفیدبود

سامان

سلام
آقا دستتون درد نکنه واقعا عالی بود
خیلی خیلی از شما ممنونم

Kish TB

ممنون عالی بود:smile:

علی

سلام ، ممنون بابت آموزش جامه و مفصلتون…
با این فایل چه طور میتونم از دسترسی موتورهای جستجو برای یک URL خاص جلوگیری کنم ؟

کیوان علی محمدی

خوب طبق آموزش آدرس مورد نظر رو در قست deny قرار بدید.

پوریا

سلام من ساختار سایتم فرق میکنه میخواستم بدونم چگونه از این فایل میتونم استفاده کنم !
سایت من به یه صفحه اینکس معمولی بر پایه اچ تی ام لی میباشد و لینک شده به چندین ساب دامین هست به این صورت :
man.site.com
yo.site.com
و غیره که دارای سیستم های مختلفی مثل ورد پرس هستن اما در مقابل صفحه اصلی سایت فقط یه اینکس HTMl هست ممنون میشم راه نمایی کنید برای قرار دادن این فایل

کیوان علی محمدی

سلام این فایل باید توی پوشه ریشه هر کدوم از زیر دامنه ها قرار بگیره.

reza

سلام با تشكر از مطالب خوبتان براي ديتا لايف نيز كد ان را درج نمائيد

Pakdaman

تشکر از شما بخاطر این آموزش
چطور میشه یه دسته خاص رو از چشم موتور های جستجو خارج کنم
مثلاً سایتم تو موتور های جستجو با عنوان ” لباس مجلسه ” ثبت شده اما من میخوام چند تا مطلب هم بزارم که اصلا هیچ ربطی به محتوای سایت نداره
دسته مورد نظرم رو فرض بگیرید آموزش دفاع شخصیه! حالا باید چه کار کنم؟

لقمان آوند

خوب یه disallow ساده می خواد . چیزی شبیه این :
Disallow: /cat/amoozesh-defa-shakhsi/*

milad

روبوتس تو وبمستر گوگل چجوری فعال می شه

وحید صالحی

منظور شما از فعال شدن چیه؟ اگه ایندکس گذاری هست باید از عبارت follow یزای لینک ها و اجازه دسترسی به اونها استفاده کنی…

javad

با سلام امروز یا این ارور مواجه شدن از طرف گوگل
http://www.rayatech.ir/: Googlebot can’t access your site

Over the last 24 hours, Googlebot encountered 3 errors while attempting to access your robots.txt. To ensure that we didn’t crawl any pages listed in that file, we postponed our crawl. Your site’s overall robots.txt error rate is 60.0%.

و میخوام توسط robots.txt لینک های 404 رو حذف کنم
چطور میتونم لینک رو به روباتس بدم ؟؟

وحید

سلام
با توچه به متن ارور شما اجازه دسترسی به فایل robots.txt رو از روبوت های گوگل گرفته اید در نتیجه اون ها قادر به خواندن محتوایت فایل robots شما نیستند در نتیجه قادر به ایندکس کردن سایت شما و صفحات اون نیستند…
با robots.txt نمی تونی لینک 404 رو حذف کنی فقط می تونی اجازه دسترسی به اون ها رو ندی با همون disallow/آدرس یا نام صفحه

براری حذف شما باید از بخش configuration در وبمستر تولز گوگل ، بخش crawler access ، وارد بخش remove url بشی . در این بخش شما باید بر روی create a new removal request کلیک کنی و ادرس صفحه ۴۰۴ مورد نظرت رودرش وارد کی
((میتونی صفحات ۴۰۴ خود را از بخش diagnostics و crawl error پیدا کنی . )
بعد از این که ادرس وبسایت خود را وارد کردی ، دکمه continue را بزن و در صفحه بعد هم بر روی Remove کلیک کن .
به همین راحتی شما درخواست حذف یک صفحه از سایت خود را در گوگل به ثبت کردی ! بعد از چند روز میتونی به همین صفحه سر بزنی و ببینی که با درخواست شما موافقت شده است یا نه ! این پروسه شاید یک هفته زمان ببرد …

javad

خیلی مناسب و عالی بود پاسخ شما == خب مشکل این ارور از کجاست ؟؟ یعنی چه اتفاقی میفته برای این ارور و چطوری میتونم این ارور رو برطرف کنم یا به حالت عادی برگردونم و اگر امکانش هست کد دقیق نادیده گرفتن لینک رو بدید مثلا لینک www.rayatech.ir/post رو چی بنویسم توی robots.txt تا نادیده گرفته بشه ؟؟
بازهم ممنون از شما و سایت مفید و بروزتون ➡

وحید

دوست عزیز
تا فایل robots شما رو نبینم نمیتونم بگم مشکل کار کجاست …
برای نادیده گرفتن لینک هم از عبارت disallow/آدرس لینک استفاده کنید…

Javad

http://rayatech.ir/robots.txt
اجزای روباتس معلومه البته از یک نفر شنیدم توی وبمستر از Fetch as Googleh<health یک fatch بگیرید و Success رو نشون بده یعنی مشکل برطرف شده این درسته ؟؟

وحید

بله درسته اما این کار برای زمانی هستش که شما لینکت رو در گوگل حذف کرده باشی بعد بخوای مطمئن شی که این کار انجام شده بهترین کار اینه که توسط ابزار وبمستر که گفتم اقدام به حل مشکل کنی بعد با این ابزار ازش تست بگیری اما ممکنه چند وقتی جواب مثبت نده چون زمان میبره تا لینک ها حذف بشه…
به نظر من از فایل robots برای مشکلت استفاده نکن چون فقط دسترسی رو مسدود میکنی ولی ارور کماکان وجود داره و این منطقی نیست بهترین کار اقدام به رفع مشکل توسط وب مستر گوگل هستش و روش پیشنهادی خود گوگل هم هست …
موفق باشی

ارسال دیدگاه
خوشحال میشیم دیدگاه و یا تجربیات خودتون رو با ما در میون بذارید :