فایل robots.txt در تمامی سایت ها استفاده می شود.
وظیفه این فایل این است که به موتور جست وجو می گویند کدام قسمت های هاست شما را و در واقع چه فایلهایی از سایت شما را می تواند پیمایش و ایندکس کند.وقتی اسپایدر های موتور جستجو وارد سایت شما می شوند باید بدانند چه قسمتهایی را می توانند ببینند و چه قسمتهایی برای آنها ممنوع است که این تنظیمات در قابل robots.txt ذخیره می شود و در قسمت روت root هاست شما قرار می گیرد.
فایل robots.txt دارای اهمیت فراوانی است اما زیاد مورد توجه قرار نمی گیرد زیرا کاربران از اهمیت آن بی اطلاع هستند. این فایل بخشی از معماری سایت محسوب می شود. یک اشتباه کوچک در این فایل باعث می شود سایت شما توسط موتور جستجو ایندکس نشود یا ناقص ایندکس شود.
برای اطلاعات بیشتر در مورد این فایل به این لینک مراجعه کنید :https://en.wikipedia.org/wiki/Robots_exclusion_standard
فایل robots.txt در پوشه اصلی هاست شما یعنی Public_html وجود دارد که اگر آن را با یک ویرایشگر متنی باز کنید چند خط کد ساده میبینید که چند پوشه از سایت شما در آن قرار دارد و اینکه چه اسپایدر هایی اجازه دارند سایت شما را مرور کنند.
قالب بندی کلی فایل robots.txt
خواندید که این فایل در قسمت روت هاست شما قرار دارد یعنی با تایپ sample.com/robots.txt باید بتوانید محتویات آن را ببینید. اگر در پوشه دیگری آن را ساخته اید میتواند کپی کنید و در محل درست قرار دهید.
نمونه کد موجود در این فایل :
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /junk/
این کد به موتور جستجو می گوید که نمی تواند پوشه های /cgi-bin/ و /tmp/و /junk/ را جستجو کند. چون ممکن است فایلهای شخصی یا چیزی درآن وجود داشته باشد که نخواهید کسی از آن مطلع شود.
از نمونه کدهای زیر میتوانید در فایل robots.txt خود استفاده کنید فقط کافیست آن را به این فایل اضافه کنید و آن را ذخیره کنید
مثال ۱ : اجازه ایندکس شدن تمامی فایل ها
User-agent: *
Disallow:
مثال۲ : جلوگیری از ایندکس شدن تمامی فایل ها
User-agent: *
Disallow: /
مثال ۳: جلوگیری از ایندکس شدن یک پوشه خاص
User-agent: *
Disallow: /folder/
مثال ۴: جلوگیری از ایندکس شدن یک پوشه خاص توسط اسپایدر گوگل طوری که فقط یک فایل از این پوشه قابل ایندکس باشد
User-agent: Googlebot
Disallow: /folder1/
Allow: /folder1/myfile.html
مثال ۵: اجازه دسترسی فقط برای یک اسپایدر خاص
User-agent: *
Disallow: /
User-agent: Googlebot
Disallow:
چرا باید از فایل robots.txt استفاده کنیم
با کمک این فایل میتوانیم جلوی دسترسی موتور های جستجو به بخشهای خصوصی سایت خود را بگیریم
ممکن است پوشه های در سایت شما وجود داشته باشد که نسخه چاپی مقالات سایت شما در آن وجود داشته باشد که شما میتوانید از ایندکس شدن آن پوشه جلوگیری کنید زیرا اگر آن پوشه نیز ایندکس شود مطالب شما دوبار در موتور جستجو ثبت میشوند که به عنوان مطالب کپی شده محسوب میشود
با کمک این فایل اطمینان حاصل میکنید که موتور های جستجو بخشهای اصلی و مورد نیاز سایت شما را ایندکس می کنند
اگر از سیستم مدیریت محتوی ووردپرس استفاده میکنید بهتر است پوشه admin را از ایندکس شدن مخفی کنید زیرا در آن پوشه چیزی برای موتور جستجو وجود ندارد. فقط کد زیر را اضافه کنید:
User-agent: *
Disallow: /wp-admin/
حال که از اهمیت این فایل مطلع شدید. سعی کنید از آن حتما استفاده کنید و طوری آن را پیکربندی کنید که موتور های جستجو به بهترین روش مطالب سایت شما را ایندکس کنند.
ارسال دیدگاه