robots.txt - информация для новичков
Если вы внимательно посмотрите на логи своего сервера, то вероятнее всего увидите что когда к вам на сайт приходят боты поисковых систем, то первое что они запрашивают это /robots.txt .
robots.txt должен находиться в корне вашего сайта, обязательно (!) должен быть написан маленькими буквами (не заглавными) и задавать исключения для ботов!
Для чего это все нужно? Для того чтобы поисковые сситемы не индексировали то, что не нужно ... например файлы с профилями пользователей на форумах т.к это отвлекает бота от индексации того что нам нужно + в профилях пользователей содержатся ссылки на их сайты (а как вы знаете чем меньше исходящих ссылок с вашего сайта, тем лучше! )
Из чего состоит robots.txt :
User-Agent: имя бота (можете посмотреть в логах своего сервера)
Disallow: путь к файлу(ам) или папкам к которым бот не должен иметь доступа, и соответственно не индексировать
# - полсе данного знака можно указаывать комментарии
Примеры:
User-agent: Yandex
Disallow: /mysecretfolder/
Disallow: /showprofile.html
# Запрещает ботам Яндекса посещать папку
https://site.ru/mysecretfolder/
# и файл
https://site.ru/showprofile.html
User-agent: Aport
User-agent: Googlebot
Disallow: /myfolder/img/
# Запрещает ботами Google и Апорт посещение
https://site.ru/myfolder/img/
User-agent: StackRambler
Disallow:
# Для бота поисковой системы Рамблер разрешено посещение всех
# страниц и папок сайта
User-Agent: *
Disallow: /profile.php?act=show
# Запрещает посещение всеми ботами, для которых не сделана
#отдельная запись,
# динамических страниц, начинающихся с
https://site.ru/profile.php?act=show
# например:
https://site.ru/profile.php?act=show&id=77
# чувствительно к порядку переменных в ссылке