از سادهترین فایلهای یک سایت، فایل Robots.txt میباشد که در عین حال نیز از سادهترین راهها برای آسیب به سئو وبسایت نیز میباشد. یک پیکربندی نادرست در این فایل میتواند موتورهای جستجو را از دسترسی به محتوای شما باز دارد. به عنوان مثال فرض کنید که سایت شما مثل یک تالار میباشد که روزانه افراد زیادی به آن رفت و آمد دارند. حال اگر این تالار در ابتدای در ورودی خود برای راهنمایی افراد یک راهنما نداشته باشد، امکان اینکه تالار بهم بریزد زیاد است. در اینجا است که فایلی چون Robots.txt به کمک شما میآید. به طور کلی این فایل از اهمیت بالایی در وبسایت شما برخوردار است و اگر قصد بهبود عملکرد سایت خود را دارد، پیشنهاد میکنیم از این فایل استفاده نمایید.
فایل robots.txt چیست؟
اگر بخواهیم یک تعریف کلی از این فایل ارائه دهیم، میتوانیم این گونه بیان کنیم که، این فایل یک فایل متنی میباشد که میتوانید آن را روی سرور خود قرار دهید. robots.txt نحوه کراول کردن رباتها و ایندکس کردن صفحات در سایت را مشخص مینماید. به طور کلی این فایل به رباتهای گوگل کمک میکند تا به راحتی به صفحات وبسایتها سر بزنند. شاید فکر کنید فقط افراد عادی هستند که به سایت شما سر میزنند، در صورتی که این گونه نمیباشد رباتهای گوگل نیز در دورههای زمانی مختلف به سایت شما سر میزنند که به این کار همان کراول ( Crawl) گفته میشود. رباتها گوگل با هدف پیدا کردن صفحات جدید شما و یا ایندکس کردن صفحاتتان به سایت شما و صفحاتتان سر میزنند.
این فایل از پروتکل REF یا Robots Exclusion Protocol تشکیل شده که لینکهای فالو و نوفالو هم جزئی از پروتکل میباشند. این فایل را خود وبمستران برای رباتهای گوگل میسازند، تا از طریق آن به رباتهای گوگل دستور دهند کدام صفحات سایت را کراول یا ایندکس نمایند.
عملکرد فایل Robots.txt
رباتهای گوگل به دو روش زیر سایت شما را بررسی مینمایند که در ادامه به توضیح هر کدام از آنها خواهیم پرداخت.
- از طریق لینکها
- از طریق فایل txt
- بررسی از طریق لینکها
بررسی از طریق لینکها بدین صورت است که رباتهای گوگل لینکهای داخلی که در سایت قرار دارد را دنبال مینمایند و از طریق آنها به تغییرات و صفحات جدید سایت ما دسترسی پیدا خواهند کرد و در نتیجه تصمیم میگیرند که صفحات جدید را ایندکس نمایند یا نه. به زبان سادهتر، رباتهای گوگل در ابتدا وارد سایتتان میشوند و سپس از طریق لینکهایی که در صفحه اصلی و منوی سایت گذاشتهاید، به صفحات جدید دسترسی پیدا خواهند کرد. همچنین اگر صفحات جدیدتان دارای لینکهای داخلی بودند، آنها را نیز دنبال میکنند.
- بررسی از طریق فایل txt
در روش اول همانطور که گفتیم رباتهای گوگل، لینکها را دنبال مینمایند. حال اگر شما در وبسایتتان فایل robots.txt داشته باشید، رباتهای گوگل در ابتدا به سراغ آنها میروند و دستورات آن را میخوانند. به زبان ساده شما با استفاده از این فایل robots.txt، این امکان را دارید تا صفحاتی که میخواهید توسط گوگل بررسی شوند را انتخاب نمایید. رباتهای گوگل نیز با استفاده از این فایل، طبق دستورات شما سایت را کراول مینمایند.
اهمیت استفاده از فایل robots.txt
با استفاده از فایل robots.txt، شما میتوانید عملکرد سایتتان را بهبود ببخشید. در ادامه چند مورد از دلایل اهمیت این فایل را بیان خواهیم کرد.
- مدیریت ترافیک رباتها
همانطور که گفتیم این فایلها، قادرند تا کنترل نمایند که رباتهای گوگل در کدام صفحات در سایت شما خزیده شوند و در کدام صفحات خزیده نشوند. این مورد را با دستور اجازه یا غیراجازه میتوانید انجام دهید.
- جلوگیری از نمایش برخی صفحات و محتواها
برخی از محتواها و صفحات در سایتتان دارید که شاید نخواهید گوگل آنها را در نتایج جستجو نمایش دهد. برای این کار از این فایل با دستور ایندکس نشدن میتوانید این کار را انجام دهید.
- جلوگیری از کنیبالیزیشن
گاهی ممکن است پیش آید که دو صفحه از سایتتان در صفحه نتایج گوگل رتبه بگیرد. در این صورت است که کاربر دو صفحه یکسان از وبسایت شما را میبیند که به آن کنیبالیزیشن میگویند و اصلاً برای ترافیک وبسایت شما مناسب نمیباشد. در صورت رخ دادن این مورد، شما میتوانید با استفاده از فایل robots.txt، دستور ایندکس نشدن صفحات تکراری سایتتان را بدهید.
انواع دستورات در فایل robots.txt
همانطور که بارها اشاره کردیم، با استفاده از این فایل میتوانید دستورات مختلفی را اعمال نمایید.
- دستور User-agent
این دستور در مواقعی استفاده میشود که شما میخواهید فقط یک ربات خاص را هدف خود قرار دهید. علامت * نیز بدین معناست که دستور برای همه رباتها اعمال گردد.
- دستور Disallow
با استفاده از این دستور شما مشخص مینمایید که رباتهای گوگل، کدام صفحات از سایتتان را crawl ننمایند. در حالت کلی این دستور برای نمایش ندادن محتواهای دلخواه در نتایج جستجوی گوگل میباشد.
- دستور Allow
با این دستور شما به رباتهای گوگل اجازه دهید تا به فولدری قبلاً دستور Disallow داشتند، دسترسی پیدا نماید و فایل انتخابی شما را کراول کنند.
- دستور Sitemap یا نقشه سایت
یکی از رایجترین روشها برای دسترسی به نقشه سایت، نوشتن نقشه سایت در فایل robots.txt میباشد. با این روش نقشه سایت شما در موتورهای جستجوی مختلف همانند بینگ و فایرفاکس نیز پشتیبانی خواهد شد. برای ثبت نقشه سایت در گوگل میتوانید به بلاگ آن مراجعه کنید.
- Crawl-delay
با این دستور شما قادر خواهید بود تا مشخص نمایید که رباتهای خزنده باید چند ثانیه برای کراول کردن سایت شما صبر نمایند. این دستور همچنین میتواند بر روی سرعت لود شدن سایت شما تاثیر مستقیم بگذارد و میبایست بتوانید از آن به درستی استفاده نمایید.
نحوه استفاده از فایل robots.txt
شما با قرار دادن یک عبارت در انتهای آدرس سایت خود میتوانید به فایل robots.txt دسترسی داشته باشید و دستورهای مختلف روی آن پیاده کنید. با قرار دادن عبارت robots.txt/ در آدرس سایت خود قادر خواهید بود به فایل robots.txt دسترسی پیدا نمایید. همینطور اگر میخواهید بر روی فایل robots.txt ویرایشهایی انجام دهید و یا دستوراتی را اعمال نمایید، میتوانید به بخش Root سایتتان مراجعه کنید و فایل robots.txt را در آنجا مشاهده نمایید.
سخن پایانی
در این بلاگ از آساوردپرس تلاش کردیم تا شما را با فایل robots.txt و اهمیت آن آشنا کنیم. این فایل قابلیتهای زیادی دارد که شما میتوانید از آنها برای بهبود عملکرد وبسایت خود استفاده نمایید و از رقبا خود پیشی بگیرید.
Leave A Comment