فایل robots.txt به خزنده های موتور جستجو می گوید که خزنده به چه URL هایی در سایت شما دسترسی دارد. این کار عمدتا برای جلوگیری از بارگذاری بیش از حد سایت شما با درخواست ها استفاده می شود. این مکانیزمی برای دور نگه داشتن یک صفحه وب از دسترس گوگل نیست. برای دور نگه داشتن یک صفحه وب از دسترس گوگل، فهرست بندی صفحه را با noindex مسدود کنید. این کار را میتوانید توسط افزونه های سئو وردپرس انجام دهید.
فایل robots.txt برای چه مواردی استفاده می شود؟
یک فایل robots.txt در درجه اول برای مدیریت ترافیک خزنده به سایت شما استفاده می شود و معمولاً بسته به نوع فایل، فایل را از دسترسی Google دور نگه می دارد. robots.txt روی انواع مختلف فایل تأثیر می گذارد جمله:
- صفحات سایت (پست ها، پیج ها و…)
- فایل های رسانه ای (صوت، فیلم و..)
- Resource file
فایل robots.txt برای صفحات وب
شما می توانید از یک فایل robots.txt برای صفحات وب (HTML PDF، یا سایر فرمت های غیر رسانه ای که Google می تواند بخواند) استفاده کنید، اگر فکر می کنید سرور شما تحت تأثیر درخواست های خزنده Google قرار می گیرد، یا برای جلوگیری از خزیدن خزنده های گوگل به صفحات بی اهمیت سایت (صفحات تماس باما، درباره ما و…) از آن استفاده کنید.
توجه مهم:
از فایل robots.txt به عنوان وسیله ای برای پنهان کردن صفحات وب خود از نتایج جستجوی گوگل استفاده نکنید.
اگر سایر صفحات با انکر تکست به صفحه شما اشاره می کنند، Google همچنان می تواند آدرس را بدون مراجعه به صفحه فهرست بندی(ایندکس) کند. اگر می خواهید صفحه خود را از نتایج جستجو مسدود کنید از روش noindex استفاده کنید.
اگر صفحه وب شما با یک فایل robots.txt مسدود شده باشد، URL آن هنوز می تواند در نتایج جستجو ظاهر شود، اما نتیجه جستجو توضیحی نخواهد داشت. فایلهای تصویری، فایلهای ویدئویی، PDF، و سایر فایلهای غیر HTML حذف خواهند شد. اگر این نتیجه جستجو را برای صفحه خود می بینید و می خواهید آن را برطرف کنید، ورودی robots.txt که صفحه را مسدود می کند حذف کنید. اگر می خواهید صفحه را به طور کامل از جستجو پنهان کنید، از روش دیگری استفاده کنید.
robots.txt برای فایل های رسانه ای
از یک فایل robots.txt برای مدیریت ترافیک خزیدن و همچنین جلوگیری از ظاهر شدن فایل های ویدیویی، تصویری و صوتی در نتایج جستجوی Google استفاده کنید. اما فایل robots.txt مانع از لینک شدن سایر صفحات یا کاربران به تصویر/ویدیو/فایل صوتی شما نمی شود.
robots.txt برای Resource file
اگر فکر می کنید صفحات بارگذاری شده بدون این منابع به طور قابل توجهی تحت تأثیر قرار نمی گیرند، می توانید از یک فایل robots.txt برای مسدود کردن فایل های منبع مانند فایل های مهم و اسکریپت های سبک استفاده کنید.
با این حال، اگر عدم وجود این منابع درک صفحه را برای خزنده گوگل سخت تر کند، آنها را مسدود نکنید، در غیر این صورت گوگل کار خوبی در تجزیه و تحلیل صفحات وابسته به آن منابع انجام نمی دهد و به سئو سایت شما ضربه میزند.
محدودیت های فایل robots.txt را درک کنید
قبل از ایجاد یا ویرایش فایل robots.txt، باید محدودیت های این روش مسدودسازی URL را به خوبی بفهمید. بسته به اهداف و موقعیت خود، ممکن است بخواهید مکانیزم های دیگری را در نظر بگیرید تا مطمئن شوید آدرس اینترنتی شما در وب پیدا نمی شود.
دستورات robots.txt ممکن است توسط همه موتورهای جستجو پشتیبانی نشوند.
دستورالعمل های موجود در فایل های robots.txt نمی تواند رفتار خزنده را در سایت شما اعمال کند. این به خزنده بستگی دارد که از آنها پیروی کند. در حالی که Googlebot و سایر خزنده های وب معتبر از دستورالعمل های یک فایل robots.txt پیروی می کنند، سایر خزنده ها ممکن است رعایت نکنند. بنابراین، اگر می خواهید اطلاعات خود را از خزنده های وب دور نگه دارید، بهتر است از سایر روشهای مسدود کردن آدرس صفحه یا URL خود، مانند محافظت از فایل های خصوصی در سرور خود استفاده کنید.
خزنده های مختلف دستورات را متفاوت تفسیر می کنند.
اگرچه خزنده های وب معتبر از دستورالعمل های یک فایل robots.txt پیروی می کنند، اما هر خزنده ممکن است دستورالعمل های مختلف را تفسیر کند. شما باید نحو مناسب برای آدرس دهی خزنده های مختلف وب را بدانید زیرا برخی از آنها دستورالعمل های خاصی را درک نمی کنند.
صفحه ای که در robots.txt مسدود شده است با لینک سازی برای آن ایندکس میشود
در حالی که گوگل محتوای مسدود شده توسط یک فایل robots.txt را نمی خزد یا فهرست بندی نمی کند، اما در صورتی که از سایر نقاط وب لینکی داشته باشد، ممکن است همچنان آدرس مجاز را پیدا کرده و ایندکس شود. در نتیجه، آدرس URL و به طور بالقوه سایر اطلاعات عمومی در دسترس مانند لنگر نوشتار در پیوندهای صفحه هنوز می توانند در نتایج جستجوی Google ظاهر شوند.
برای جلوگیری از ظاهر شدن نشانی اینترنتی شما در نتایج جستجوی Google، از فایل های سرور خود با گذرواژه محافظت کنید، از متا تگ noindex یا سرصفحه پاسخ استفاده کنید یا صفحه را به طور کامل حذف کنید.
نکته مهم:
ترکیب چند دستورالعمل خزنده و نمایه سازی ممکن است باعث شود برخی از دستورالعمل ها با دستورالعمل های دیگر مقابله کنند.
منبع:
https://developers.google.com/search/docs/basics/optimize-your-site?hl=en

کامل بهرامی: دانشآموخته کارشناسی ارشد رشته مهندسی کامپیوتر گرایش نرمافزار از دانشگاه ارومیه هستم. به حوزه کامپیوتر، برنامهنویسی و فناوری اطلاعات علاقهمندم و در حوزههای مذکور در مکتب خونه، مجله فرادرس، هاست ایران، مدیااد، تپسل، متریکس و… تولید و ویراستاری محتوا انجام میدهم. هماکنون سه سال است که در این حوزه مشغول به کار هستم و بالای 6000 مقاله در سطح وب دارم.