Об апдейтах в Яндексе

Больше трех недель вебмастера и оптимизаторы с нетерпением ждали очередного апдейта от Яндекса. Наконец - о, чудо! - результаты новой индексации все-таки появились. Крупнейший русский поисковик почти добрался до своего же рекорда 2009 года, когда обновления основного индекса не было больше месяца. Почему же индексацию в Яндексе приходится так долго ждать — в отличие, например, от Гугла?

Индексация сайтов в Яндексе: как это работает

Сам процесс подробно описан на сайте поисковика в документе индексирование интернета. Процитируем самые важные моменты:

«Поисковый индекс, данные о типе документов, кодировке, языке и сохраненные копии документов вместе составляют поисковую базу. Она обновляется ПОСТОЯННО (здесь и далее выделено нами — NM), но, чтобы это обновление стало доступно пользователям, её нужно перенести на «базовый поиск». Базовый поиск — сервера, которые отвечают пользователям на запросы. Туда переносится не вся поисковая база, а только её полезная часть — без спама, дубликатов сайтов (зеркал) и других ненужных документов. Обновление поисковой базы из хранилища основного робота попадает в поиск «пакетами» — РАЗ В НЕСКОЛЬКО ДНЕЙ. Этот процесс создаёт дополнительную нагрузку на сервера, поэтому производится ночью, когда к Яндексу обращаются на порядок меньше пользователей. Сначала новые части базы помещаются рядом с такими же частями из прошлого обхода. Затем они проверяются по целому ряду факторов, чтобы обновление не ухудшило качество поиска. Если проверка прошла успешно, новая часть базы заменяет собой старую».

Главное, что следует из сказанного — у крупнейшего поисковика Рунета параллельно существуют два индекса интернета.

  • Первый меняется в режиме реального времени, он актуальный и неочищенный. И пока он меняется, происходит проверка и скачивание поисковыми роботами страниц со всей сети рунета (речь в основном, о новостном контенте).
  • Второй индекс — уже очищенный. В нем нет зеркальных и забаненных сайтов и спам-страниц. Поиск по нему происходит тогда, когда пользователь направляет интересующий его запрос. Собственно апдейт — это и есть процесс, когда документы из их хранилища основного робота попадают в очищенный индекс, по которому осуществляется поиск.

Проверка обновленной базы требует огромных вычислительных мощностей серверов, поскольку включает в себя огромное количество факторов. Таких мощностей у Яндекса, в отличие от Гугла, меньше, их приходится экономить и распределять в соответствии с временем суток. Кроме того, «очищенный» индекс на Гугл обновляется постоянно, только не полностью, а блоками, с равномерной нагрузкой на серверные мощности. Это также играет свою роль в том, что апдейты на крупнейшем поисковике Рунета происходят реже.

И еще одна важная деталь. В Яндексе в апдейт выкладываются документы, которые робот индексирует ДО предыдущего апдейта, а не до текущего момента. Пример: если апдейты были 5, 15 и 25 числа, то 15-го вы получите проиндексированные документы, найденные роботом до 5-го числа. А 25-го числа — только те, что были найдены им с 5-го по 15-е. В результате, в среднем на сайте индексация в Яндексе может занимать от двух до трех недель. И это при условии, что робот был на вашем сайте и скачал оттуда документы вашего ресурса (100% гарантии посещения роботом вашего сайта нет, поэтому, в ряде случаев, результат можно ожидать и более 3 недель)

10.06.2015 Все статьи