Пост устарел и оставлен тут для истории.
Похоже, что все-таки лыжи не едут. Летом добиться от Яндекса сколько-нибудь вменяемой работы с robots.txt
у меня не получилось. Убрал все строчки, которые он мог бы обрабатывать и сайт довольно быстро вернулся к номальной работе, посещаемости и индексируемости.
На праздниках у меня было немного свободного времени и я немного поизучал этот вопрос. Есть у мен еще два сайта, на них установлен WordPress. WordPress сам генерирует по запросу файл robots.txt
и отдает примерно такое содержимое:
1 2 |
User-agent: * Disallow: |
На одном сайте я довольно давно заблокировал выдачу robots.txt
, на втором – оставил все как есть. Отслеживаю оба сайта в Яндекс.Вебмастере. Сайт с заблокированным robots.txt
проиндексирован, какое-то количество страниц есть в индексе, в общем все хорошо. Второй сайт, который отдает robots.txt
, роботами Яндекса посещается, но страниц в индексе – 0 (ноль).
На выходных посмотрел несколько явно спамных сайтов на WordPress – у большинства выдача robots.txt
тем или иным способом заблокирована. Чаще всего просто стоит редирект на главную страницу – закомменирован соответствующий блок в файле rewrite.php
.
Очень похоже, что я не единственный наступающий на эти грабли и проблема довольно распространенная.
Поскольку я WordPress обновляю время от времени, помнить о необходимости комментировать строчку мне лень. Я блокирую выдачу robots.txt
в файле .htaccess
, добавляя еще одно правило RewriteRule. Блок с mod_rewrite
в .htaccess
получается такой:
1 2 3 4 5 6 |
RewriteEngine On RewriteBase / RewriteCond %{REQUEST_FILENAME} !-f RewriteCond %{REQUEST_FILENAME} !-d RewriteCond %{REQUEST_FILENAME} !robots.txt RewriteRule . /index.php [L] |
Добавил такое-же правило и сайту, у которого выдача robots.txt
заблокирована не была. Понаблюдаю динамику.