Ссылка на оригинал
Шаг 5. robots.txt
Составляем файлик, который будет указывать поисковым роботам как именно они должны проиндексировать сайт.
В индекс Гугля попало некоторое количество динамических ссылок нашего сайта. Я не стал писать кучу редиректов для них в .htaccess, а просто запрещу их индексацию в robots.txt. Статические ссылки проиндексируются, а динамические постепенно из индекса уйдут.
Все динамические ссылки сайта имеют вид /?page=ХХХХХ поэтому правила для всех роботов будут такими:
Код:
User-agent: *
Disallow: /?page=
Disallow: /index.php?page=
Робот Яндекса понимает также директиву Host, которая определяет, какое из зеркал считать главным (т.е. в данном случае какой адрес "главнее" - с www или без него). Основным сайтом будет ваш_url(примечание: писать без добавления http:// или www). Добавляем:
Код:
User-agent: Yandex
Disallow: /?page=
Disallow: /index.php?page=
Host: ваш_url
Ну и одна непроверенная гипотеза (практически слух) говорит о том, что робот Гугля не любит "быть как все" и часто плюет на правила, если про него забывают и валят в кучу с остальными роботами. Не стану обижать малыша и пропишу для него персональные правила 🙂
В итоге файл robots.txt выглядит у меня следующим образом:
Код:
User-agent: *
Disallow: /?page=
Disallow: /index.php?page=
User-agent: Googlebot
Disallow: /?page=
Disallow: /index.php?page=
User-agent: Yandex
Disallow: /?page=
Disallow: /index.php?page=
Host: ваш_url
Его и запишем в коренной каталог сайта.
Осталось пройтись по основным русскоязычным поисковикам и сообщить о своем существовании. Остальные сами подтянутся.
Продолжение следует...