آموزش ساخت فایل robots.txt برای وردپرس و بهینه سازی آن
robots . txt میتونه به شما کمک کنه تا دسترسی لازم برای موتورهای جستجو را برای دایرکتوری یا همون پوشههای موجود در هاستتون تعیین کنید تا با اینکار اجازه اینکه موتورهای جستجو میتونند تا چه آدرسهایی را مورد بررسی قرار بدن و چه آدرسهایی رو نمیتونن بررسی کرده و در خودشون ایندکس کنند را تعیین کنید.
ساخت robots.txt وردپرس و بهینه سازی robots.txt
برای ساخت فایل robots.txt وردپرس ابتدا وارد هاست خودتون بشید و بعد از ورود روی File Manager کلیک کنید تا به فایل منیجر هاست هدایت شده و بتونید فایلهای موجود در هاست را کنترل کنید.
بعد از کلیک روی این دکمه به مسیر /public_html/ مراجعه کنید تا به مسیری که وردپرس در اون نصب هست برسید.با استفاده از برنامه notepad یا هر نرمافزار ویرایشگر متن که دارید یک فایل با نام robots.txt و همین فرمت بسازید و با کلیک روی دکمه آپلود در فایل منیجر هاست اونو به این مسیر اضافه کنید. یا اینکه با کلیک روی دکمه FILE+ کلیک کنید تا پنجرهای مشابه تصویر زیر براتون باز بشه و بعدش نام فایل را در فیلد New File Name با نام robots.txt وارد کنید و در نهایت روی دکمه Create New File کلیک کنید تا فایل شما ساخته شود.
به طور کلی فایل robots.txt از دو دستور و قانون پیروی میکنه که عبارتند از:
- User-agent: این دستور نشان دهنده اینه که میتونید تعیین کنید چه نوع رباتی قادر به دسترسی به دایرکتوریهای تعیین شده در هاست شما خواهد بود. منظور از نوع ربات اینه که ربات کدوم سایت و یا موتور جستجو میتونه تا از این دستورات پیروی کنه
- Disallow: این دستور هم نشون دهنده اینه که ربات اجازه ورود به چه مسیرهایی در هاست شما را نخواهد داشت.
بنابراین شما با استفاده از این دو دستور میتونید تا قوانین مختلفی را برای هریک از رباتهای موتورهای جستجو و سایتها تعیین کنید تا عدم دسترسی به دایرکتوریهای گوناگون در هاست خودتون را تعیین کنید. اما برای استفاده از هر ربات ابتدا لازمه تا با لیست رباتهایی که تا به امروز ساخته شدند آشنا شوید.
User-agent: با استفاده از این دستور میتونید تا یک قانون را برای همه ربات ها و یا یک ربات خاص تعیین کنید. به عنوان مثال اگر شما داخل هاستتون پوشه ای با نام mramooz دارید و میخواین که دسترسی به این پوشه برای کلیه رباتها فراهم نباشه کافیه تا در سطر اول User-agent را وارد کرده و مقدار اون را روی کاراکتر * تعیین کنید و بعدش با دستور /disallow: /mramooz دسترسی به این پوشه را برای کل رباتها غیرفعال کنید. در این صورت هر رباتی که وارد سایت شما بشه از این قانون تبعیت کرده و وارد پوشه mramooz در هاست شما نخواهد شد. پس به صورت کلی ساختاری که برای این حالت تعیین میکنید باید دستور زیر را در فایل robots.txt وارد کنید. برای این کار کافیه تا روی فایل robots.txt که در هاست شما قرار داره راست کلیک کرده و گزینه Edit را انتخاب کنید.
1
2
|
User–agent: *
Disallow: /mramooz/
|
تعیین سطح دسترسی به ربات خاص با فایل robots.txt وردپرس
همه ما ممکنه تا گاهی به این نیاز پیدا کنیم تا تصویری را در هاست خودمون آپلود کنیم و در اختیار دیگران قرار بدیم که نمیخوایم این تصویر در دسترس عموم کاربران قرار بگیره و به عبارت دیگه دیگران وارد حریم خصوصی ما نشن، بنابراین برای اینکه این تصویر توسط موتورهای جستجو ایندکس نشه باید از طریق فایل robots.txt اقدام کنیم. خب حالا شاید بپرسید که برای اینکار باید از کجا شروع کیم.
خب همونطور که در سایت robotstxt.org دیدید ما یک لیست بزرگ از رباتهای مختلف را داریم. گوگل هم بر همین اساس دارای رباتهای گوناگونی هستش که هر کدوم از این رباتها وظیفه بررسی و خزش محتوای خاصی از سایتها را دارند. به عنوان مثال معروفترین ربات گوگل که با نام Googlebot شناخته شده وظیفه بررسی و ایندکس صفحات را داره که بعد از ثبت سایت در گوگل کار خودش را برای سایت ما آغاز میکند. یا ربات Googlebot-image وظیفه بررسی و ایندکس تصاویر را داره که در این مثال ما باید از این بات برای غیرفعال کردن دسترسی این بات به تصویر خودمون استفاده کنیم.
بنابراین ابتدا با استفاده از دستور User-agent ربات خودمون را تعیین میکنیم. در اینجا چون شامل یک ربات هست دیگه نباید از ستاره استفاده کرد و باید نام ربات را بنویسیم بعدش در خط بعدی هم با استفاده از دستور Disallow دسترسی به پوشهای که تصویر در اون قرار داره را لغو میکنیم. به صورت کلی دستور ما مشابه زیر خواهد بود.
1
2
|
user–agent: Googlebot–image
disallow: /mramooz/
|
در اینجا mramooz هم همون پوشه ای هست که تصویر در این مسیر از هاست قرار داره. بنابراین بعد از ذخیره کردن فایل دیگه ربات گوگل همچین آدرسی را مورد بررسی قرار نداده و تصویر شما توسط گوگل ایندکس نخواهد شد.
لیست کلیه دستورات قابل استفاده در robots.txt
اگر قصد دارید تا دسترسی به کل سایت را غیرفعال کنید میتونید از مشابه دستور زیر برای Disallow استفاده کنید.
1
|
Disallow: /
|
برای عدم دسترسی به یک پوشه خاص کافیه تا نام اون پوشه و یا زیر پوشههای اونو وارد کنید.
1
2
|
Disallow: /blog/
Disallow: /blog/file/
|
برای محدود کردن به دسترسی به یک فایل میتونید تا به شکل زیر عمل کنید.
1
2
|
Disallow: /images/dogs.pdf
Disallow: /files/project.pdf
|
برای محدود کردن فایلهایی به فرمت خاص در کل سایت میتونید تا از دستور زیر استفاده کنید.
1
2
3
|
Disallow: /*.gif$
Disallow: /*.pdf$
Disallow: /*.docs$
|
ثبت فایل robots.txt در گوگل
برای ثبت این فایل ابتدا باید وارد آدرس https://www.google.com/webmasters بشید و سپس روی دکمه Sign In کلیک کنید تا وارد کنسول جستجوی گوگل شده و سپس سایت خودتون را گوگل ثبت کردید انتخاب کنید.
بعد از اینکه سایت خودتون را انتخاب کردید مشابه تصویر زیر به مسیر Crawl> robots.txt Tester مراجعه کنید.
در فیلد مشخص شده عبارت robots.txt را وارد کنید و روی دکمه TEST کلیک کنید تا با پیغام سبز رنگ Allowed مواجه بشید. اگر درست بود حالا محتویات فایل robots.txt را وارد ویرایشگری که میبینید بکنید و روی دکمه Submit کلیک کنید تا پنجره زیر براتون باز بشه.خب در اینجا ما چون از قبل فایلرا در هاست اپلود کردیم با کلیک روی دکمه Submit گزینه سوم را انتخاب کنید.
معرفی راههایی برای بهینه سازی robots.txt
چند نکته درباره فایل robots.txt
1-صفحاتی مثل صفحه ورود وردپرس و صفحه پیشخوان وردپرس که به ترتیب در آدرسهای wp-login.php و wp-admin در دسترس هستند به صورت پیشفرض در حالت Noindex هستند، بنابراین نیازی نیست تا با استفاده از فایل robots.txt دسترسی به این دو صفحه را محدود کنید.
2- نقشه سایت یا Sitemap خود را در این فایل مشابه نمونه زیر وارد کنید تا وقتی رباتهای جستجوگر فایل robots.txt را بررسی میکنند نقشه سایت را مشاهده کرده و قبل از هر صفحه از سایت این صفحه را مورد بررسی قرار دهند تا سرعت ایندکس صفحات شما بیشتر شود. برای این کار کافیه تا دستور زیر را در خط انتهایی این فایل وارد کنید.
1
2
|
Sitemap:https://mramooz.com/post-sitemap.xml
Sitemap:https://mramooz.com/page-sitemap.xml
|
3- فایل readme.html را با استفاده از فایل robots.txt در حالت محدود قرار دهید. چرا که برخی افراد سعی میکنند تا با استفاده از این فایل اطلاعاتی مثل نسخه مورد استفاده از وردپرس و… را که معمولا توسط ربات این کارها انجام میگیره به دست آورده و با استفاده از آن شروع به کارهای مخرب روی سایت شما بکنند. هرچند که راههای بسیار زیادی برای دونستن نسخه مورد استفاده وجود داره اما اگر سایر راهها را بسته باشید و تنها این راه بر سر راه فرد قرار گرفته باشه با این روش هم دیگه قادر نخواهد بود تا نسخه وردپرس مورد استفاده شما را بدونه و برای این کار کافیه تا دستور زیر را برای کلیه رباتها تعیین کنید.
1
|
Disallow: /readme.html
|
4-دسترسی به دایرکتوری افزونههای وردپرس را محدود کنید. با استفاده از این کار دایرکتوری که افزونههای وردپرس در اون قرار دارند ایمن شده و مشابه همون فایل readme.html براش اتفاق افتاده و میشه امنیت سایت خودتون را افزایش بدین. برای این کار کافیه تا دستور زیر را به فایل robots.txt اضافه کنید تا دسترسی به پوشه افزونه های وردپرس از رباتها مصون بماند.
1
|
Disallow: /wp–content/plugins/
|