Яндекс.Автор

Яндекс добавил в интерфейс своего сервиса Яндекс.Вебмастер возможность заявить об авторстве текста. Принцип работы простой — перед публикацией текста надо передать его поисковику и он запомнит, кто автор.

Начинание полезное — на различных форумах вебмастеров часто встречаются тему типа «сайт xxx упер тексты с моего сайта, что делать?».

Есть у меня нехорошее подозрение: «честных» владельцев сайтов, авторов оригинального контента много, но далеко не все добавили свой сайт в Яндекс.Вебмастер. Зато различные «нечестные» владельцы сайтов, горе-оптимизаторы  и прочая шелуха почти наверняка добавили все свои сайты в эту службу.

Посмотрим, как оно будет работать. Включил эту возможность для своих сайтов — как раз сейчас готовится несколько текстов для публикации.

Яндекс и robots.txt

Пост устарел и оставлен тут для истории.

Похоже, что все-таки лыжи не едут. Летом добиться от Яндекса сколько-нибудь вменяемой работы с robots.txt у меня не получилось. Убрал все строчки, которые он мог бы обрабатывать и сайт довольно быстро вернулся к номальной работе, посещаемости и индексируемости.

На праздниках у меня было немного свободного времени и я немного поизучал этот вопрос. Есть у мен еще два сайта, на них установлен WordPress. WordPress сам генерирует по запросу файл robots.txt и отдает примерно такое содержимое:

На одном сайте я довольно давно заблокировал выдачу robots.txt, на втором – оставил все как есть. Отслеживаю оба сайта в Яндекс.Вебмастере. Сайт с заблокированным robots.txt проиндексирован, какое-то количество страниц есть в индексе, в общем все хорошо. Второй сайт, который отдает robots.txt, роботами Яндекса посещается, но страниц в индексе – 0 (ноль).

На выходных посмотрел несколько явно спамных сайтов на WordPress – у большинства выдача robots.txt тем или иным способом заблокирована. Чаще всего просто стоит редирект на главную страницу – закомменирован соответствующий блок в файле rewrite.php.

Очень похоже, что я не единственный наступающий на эти грабли и проблема довольно распространенная.

Поскольку я WordPress обновляю время от времени, помнить о необходимости комментировать строчку мне лень. Я блокирую выдачу robots.txt в файле .htaccess, добавляя еще одно правило RewriteRule. Блок с mod_rewrite в .htaccess получается такой:

Добавил такое-же правило и сайту, у которого выдача robots.txt заблокирована не была. Понаблюдаю динамику.

SEF — ЧПУ

Собственно говоря, термины SEF и ЧПУ несут в себе разную смысловую нагрузку, хотя, в конечном счете, обозначают одно и тоже. Во, загнул! SEF подразумевает, в первую очередь, улучшение индексации поисковыми серверами, а ЧПУ все-таки указывает на ориентированность в сторону живого человека :-)

Откровенно говоря, поисковики отлично индексируют как URL mysite.com/dir/doc/param1, так и mysite.com?di=dir&do=doc&p=param1. А если какой-то поисковик, вдруг, этого не делает — это уже его личная проблема: пусть догоняет лидеров, которые кроме html уже научились индексировать кучу других форматов, а не то, что URL с GET параметрами. Google как-то туманно сообщает в «Руководстве для веб-мастеров»:

Если вы решили использовать динамические страницы (например такие, в URL которых содержится символ «?»), учтите, что не все сканеры поисковых систем сканируют динамические страницы так же успешно, как и статические

Но сам-то он отлично их индексирует, проверено! :-) Читать далее SEF — ЧПУ

Зеркала в Яндексе — окончание

Пост устарел. Сейчас все работает как должно.

В общем, манипуляции произведенные с помощью суппорта Яндекса и описанные ранее ни к чему особому не привели. Шаманские пляски с бубном, указание пустой директивы Disallow, указание Diasallow: /cgi-bin, указание Allow: / — видимого эффекта не дали. За это время строчка «Дата последнего обращения робота к сайту:» обновилась дважды, но количество ссылок в индексе не менялось. Это можно было бы списать на глюки панели вебмастера, но посещаемость с Яндекса упала капитально.

При этом в «Инструменте для проверки корректности файла robots.txt» в ответ на любой адрес оптимистично указывалось, что он доступен для индексирования.

«Что, блин, важнее: три буквы или почти 500 ежедневных уников?!» — задал я себе риторический вопрос и выкинул все инструкции, относяциеся к Яндексу из robots.txt. Пусть Яша сам определяет, где у меня зеркало, а где что.

Склеиваем зеркала в Яндексе

Пост устарел и оставлен тут для истории

Лично мне нравятся адреса сайтов с приставкой www. Я эти три буквы автоматом на клавиатуре набираю. Эстет, блин. Однако, я лично знаю немало людей, которые набирают URL без этой приставки. Поэтому предпочитаю, чтоб сайт был доступен как по адресу www.site.com, так и просто site.com. С формальной точки зрения, которой придерживаются поисковые машины, это два разных сайта (компьютера), которые являются «зеркалами».

Большинство поисковиков самостоятельно определяют «главное» зеркало и повлиять на этот выбор довольно затруднительно. Яндексу можно попробовать подсказать, что именно вебмастер считает «главным» — с помощью директивы Host в файле robots.txt, расположенном в корне сайта.

Руководствуясь директивами Яндекса я написал простой файлик robots.txt из двух строк:

Реакция не замедлила себя ждать — сайт выпал из индекса Яндекса вообще. В интерфейсе Яндекс.Вебмастер получилась такая статистика:

И это при том, что две недели назад страниц в индексе было около 10 тысяч! Самое время биться головой об стену, единственная хоть какая-то помощь — Директ.

После короткой переписки с саппортом Яндекса выяснилось, что яндексмашинен, прочитав мой robots.txt счтает, что весь сайт запрещен для индексации, хотя инструмент Я.Вебмастера для проверки robots.txt показывает, что все в ажуре и волноваться неочем.

То есть наш национальный поисковик считает, что по умолчанию сайт для индексации запрещен, если файл robots.txt есть, но в нем нет инструкций запрещающих или разрешающих!

Саппорт Яндекса посоветовал добавить перед директивой Host какое-нибудь правило. Не долго думая, запретил индексацию /cgi-bin — все равно у меня там ничего нет. Получилось вот так:

На следующий день ссылки начали появляться в индексе! Правда, похоже, я очень удачно успел к апдейту 25 июня. :-)

Update: Читайте поучительную историю о том, чем все это закончилось.

Ссылочное ранжирование и Яндекс

Ни для кого не секрет, что на позицию сайта в выдаче поисковика по какому-либо запросу, словосочетанию сильно влияет такой внешний фактор, как ссылка с другого сайта. Таким образом, если какой-то авторитетный сайт ссылается на другой сайт и в тексте ссылки пишет «самый лучший сайт», то по запросам «лучший сайт» и им подобным другой сайт будет находиться лучше, чем его конкурент. Этой фишка всем известна, и ей пользуются для продвижения сайтов. С этой целью организуются различные тематические и нетематические каталоги, ссылкообменники и т.п. Поисковые системы, конечно, борются с этим, но полностью победить не могут. Ибо в основе современных алгоритмов автоматического определения «полезности» сайта и соответствия запросу лежит ссылочное ранжирование. Не оно одно, конечно, но это один из основополагающих моментов.

Это одна из самых доступных возможностей для манипуляции выдачей поисковика, и ей пользуются не только для улучшения позиции своего сайта в поисковой выдаче, но и для продвижения сайтов конкурентов по различным негативным словосочетаниям. Последние несколько дней в сообществе SEO в Livejournal активно обсуждается вопрос о том, заказал-ли кто-то «продвижение» сайта «Мегафона» в Яндексе и сколько такое может стоить. Попутно делаются «открытия» и других интересных словосочетаний, например вот про другую сотовую компанию. А также нашлись и словосочетания с выражением политических взглядов, например, вот такое.

Конкуренция растет. К выборам, видимо, будут и другие интересные «находки».