تخفیف ویژه

فایل robot.txt چیست و چرا باید از آن استفاده کرد؟

دسته بندی: سئو
زمان مطالعه: 4 دقیقه
۱۱ تیر ۱۳۹۱

:: موتورهای جستجو همانند گوگل ، یاهو و بینگ مایکروسافت برای برای یافتن و ایندکس کردن صفحات مختلف وب و سایت‌های موجود از روبات‌های جستجو که به spider , robot و یا crawler معروف هستنداستفاده می‌کننید . این روبوت‌ها با پیمایش خودکار در صفحات وب اطلاعات مربوط به صفحات رو بدست میارند و اونها رو به موتور جستجوی مربوطه ارسال میکنند . معمولا بر اساس اینکه یک سایت چند مدت به چند مدت آپدیت میشه تعداد دفعاتی که این روبات‌های جستجوگر در روز به سایت مراجعه می‌کنند متفاوته . صفحات موجود در سایتهای مختلف از لحاظ امنیتی و درجه حساسیت متفاوت هستند و شاید شما دوست نداشته باشید بعضی از صفحات (مثل صفحات مدیریتی و ادمین سایت) در موتورهای جستجو ایندکس بشه و آدرسش در این موتورها در اختیار عموم باشه . برای اینکه به موتورهای جستجو بگید چه صفحات یا فولدرهایی در سایت رو پیمایش و ایندکس کنه و اینکه چه صفحاتی رو ایندکس نکنه می‌تونید از یک فایل با نام robot.txt در ایندکس هاستینگ سایتتون و یا در پوشه ای خاص استفاده کنید تا به موتورهای جستجو بگید جا مجازید پیمایش کنید و کجا مجاز نیستید : ربات‌های موتورهای جستجو فایل robot.txt چیست همونطور که در عکس بالا میبینید ، در سایتی که از فایل robot.txt استفاده نشده باشه روبات‌های موتورهای جستجو همه ی صفحات رو ایندکس می‌کنند در صورتی که با استفاده از این فایل میشه این ایندکس شدنها رو برای پوشه‌های مختلف کنترل کرد ! از این فایل همچنین برای جلوگیری از ایندکس شدن تکراری صفحات با url‌های مختلف استفاده میشه . :: خوب حالا که فهمیدید دلیل استفاده از فایل مهم robot.txt چی هست ، نحوه استفاده از اون رو براتون توضیح میدیم : فایل robot.txt یک فایل متنی ساده (دقیقا با همین نام و پسوند txt) است . در زیر چند تا از مهمترین دستوراتی که توی این فایل می‌تونید بیارید آوردم . User-agent در خط اول این فایل معمولا نوع روباتی که قراره محدودیت ایندکسینگ رو براش اعمال کنیم با دستور *:User-agent میاریم . به شکل زیر :

User-agent: *

علامت * میگه که همه ی ربات‌های پیمایشگر ، این دستورات براشون اعمال بشه . مثلا اگه بخواید بگید فقط روبات‌های گوگل این محدودیت‌ها رو داشته باشند ، این دستور رو به این شکل داریم :

User-agent: googlebot

در اینجا میتونید لیست همه ی روبوت‌های موجود و معروف رو ببینید . اگر فایل فقط حاوی این خط باشه همچنان پیمایشگران محترم موتورهای جستجو بدون محدودیت به ایندکس کردن همه صفحات ادامه می‌دن . Disallow برای جلوگیری از ایندکس شدن ادرس خاصی از سایت از دستور Disallow استفاده میشه . بزارید چندتا مثال بزنیم :

User-agent: googlebot
Disallow: /

این دوخط فوق باعث میشه که جلوی ایندکس شدن همه ی صفحات توسط روبوت‌های گوگل گرفته بشه .

User-agent: *
Disallow: /admin.php

در مثال فوق همه ی روبوت‌ها رو محدود میکنید که اجازه ایندکس کردن صفحه admin.php رو نداشته باشند .

User-agent: *
Disallow: /cgi-bin/
Disallow: /images/
Disallow: /private.html

در این مثال هم همه ی روبوت‌ها رو محدود میکنید که اجازه ایندکس کردن صفحه private.html و پوشه‌های cgi-bin و images رو نداشته باشند .

البته میتونید برای روبوت‌های مختلف محدودیت های مختلف تعیین کنید :

User-agent: *
Disallow: /cgi-bin/
Disallow: /admin/
Disallow: /private.html

User-agent: googlebot
Disallow: /images/

User-agent: BadBot
Disallow: /

Allow از دستور Allow هم معمولا برای اجازه دادن ایندکسینگ به زیرپوشه ای که درون یک پوشه Dissallow شده قرار داده استفاده میشه . مثال زیر رو ببینید :

User-agent: *
Disallow: /files/
Allow: /files/public/

در اینجا ما می‌گیم که روبات‌ها اجازه ایندکس کردن محتویات درون پوشه files رو ندارند به جز پوشه public که در پوشه files قرار داره !

robot.txt برای سایت‌های وردپرسی ! در زیر یک فایل مناسب برای استفاده وب سایت هایی که با وردپرس ساخته شدند آوردم . می‌تونید ازش استفاده کنید . میبینید که به پوشه‌های مدیریتی و حاوی فایل‌ها قالب و پلاگین‌ها و ... اجازه دسترسی داده نشده .

User-agent: *

Disallow: /feed/
Disallow: /trackback/
Disallow: /wp-admin/
Disallow: /wp-content/
Disallow: /wp-includes/
Disallow: /xmlrpc.php
Disallow: /wp-
Sitemap: https://7learn.com/Sitemap.xml

همونطور که در مثال بالا می‌بینید می‌تونید به این طریق Sitemap سایت خودتون رو هم در این فایل قرار بدید تا در معرض دید روبات‌ها باشه . انشاءالله در آینده در مورد فایل sitemap و دلایل استفاده از اون هم صحبت خواهیم کرد .

robot.txt برای سایت‌های پیاده سازی شده با جوملا !

User-agent: *
Disallow: /component

:: در آخر هم بد نیست یه نگاهی به فایل robot.txt خود سایت گوگل بکنید !

:: امیدوارم که مفید واقع شده باشه ! حمایت از ما (+1 در گوگل) فراموش نشه ... خوش باشید !

چه امتیازی به این مقاله می دید؟
نویسنده لقمان آوند
بیش از 15 سال هست که برنامه نویسی می کنم و از بین همه زبون هایی که کار کردم جاوا، اسمبلی و php رو دوست دارم. دانشجوی دکترای نرم افزارم و توی دانشگاه روی پردازش بیگ دیتا و پردازش موازی کار کردم و عاشق چالش از هر نوعیش هستم! سون لرن مثل بچه منه که 12 سال براش وقت گذاشتم، اینجا همه تلاش می کنیم از شروع یادگیری تا ورود به بازر کار حوزه برنامه نویسی و IT همراهتون باشیم.

نظرات کاربران

افشین

خسته نباشید.
مطلب جالبی بود.

احسان

مثل اینکه سایت گوگل از سایتهایی که روبتس تکست داشته باشن بدش میاد. چون من داشتم تو گوگل سرچ میکردم ، تو نتایج سرچ بر ای چندتا سایت نوشته بود اینها دارای فایل روبتس تکست هستند و نتایج آنها قابل مشاهده نیست. مثل اینکه گوگیل اونها رو تحریم بکنه. درسته چنین مطلبی؟ توضیح بدید و لطفا جواب رو به آدرس ایمیلم نیز بفرستید خواهشا.

لقمان آوند

سلام
خیر اینطور نیست . حتی گوگل در وبمستر تولز خودش قسمتی برای آنالیز این فایل داره .
اون سایت ها احتمالا بد استفاده کردند و تعداد زیادی از صفحات سایتشون رو با این فایل unFollow کردن !

محمد

با سلام و تشکر از مطالب آمزشی دقیق شما
ببخشید این مسئله رو می شه برای صفحاتی که گوگل ارور داده یعنی صفحات از سایت پاک شده بکار برد

لقمان آوند

بله میشه

منصوری

ماژولی مثل نویسنده توی این سایت برای جوملا میخوام

هستش

لقمان آوند

سلام
باید بگردی . این ماژول نیست ه اینجا استفاده شده . از یه سری از توابع وردپرس استفاده کردم . مطمئنا اگه با وملا خوب آشنا باشی چنین چیزی داره .

mr.mahdi

درود بر شما بسیار عالی بود
😛

arash_en91

برای وبلاگ میشه روبات رو بهینه کرد؟
راهی هست؟

لقمان آوند

سلام . در سرویس های وبلاگ دهی موجود معمولا اجازه آپلود فایل و در نتیجه استفاده از فایل روبات مقدور نیست .

HappyMoon

فقط باقی می‌مونه یه سوال که این فایل رو کجای سایت بریزیم؟ هرجا باشه ایراد نداره؟ مثلا برای سایت‌های وردپرس باید داخل پوشه‌ی قالب باشه؟

لقمان آوند

برای هر پوشه ای که میخوای محدودیت ایجاد کنی باید تو همون پوشه بزاری . اگه برا کل سایت می خوای تو همون پوشه اول و کلی هاستت بزار .

HappyMoon

خیلی عالی بود. دیروز مقاله‌ای راجع به سئو خوندم که داخلش به این فایل اشاره شده بود می‌خواستم بعدا دنبالش برم که وقتی اومدم داخل این سایت دیدم شما توضیح دادین و همین الان خوندم. تو وقتم صرفه جویی شد ممنون. 😳

محمدسینا معراجیان

خواهش می کنیم

shnf

آموزش خوبی بود
تشکر

arash_en91

robot.txt رو برای وبلاگ ها نمیشه بهینه سازی کرد
چون یه سایتی که داشتم وبلاگمو از طریق اون تو موتورای جستجو ثبت میگردم گفت روبات وبلاگت مشکل داره

arash_en91

ممنون از زحمات فراوانتون و توجه کردن به نظرات بیننده ها و پاسخ به سوالات
ممنون

محمدسینا معراجیان

خواهش می کنم وظیفمونه

علی

درود بر شما
عالیه این سایت

محمدسینا معراجیان

ممنون

ارسال دیدگاه
خوشحال میشیم دیدگاه و یا تجربیات خودتون رو با ما در میون بذارید :