Перед тем, как поисковики включат статьи и товары с продвигаемого вами сайта в выдачу по запросам пользователей, страницы должны пройти через процесс индексации в поисковой системе. Что такое индексация сайта? Она заключается в обходе ресурса поисковыми роботами. Они представляют собой специальные программы для посещения сайтов. Их задача заключается в считывании контента. Впоследствии найденные тексты будут добавлены в базу данных поисковой системы (ПС). Задача этой базы — обрабатывать и хранить текстовые материалы и другой контент всех проиндексированных сайтов. От скорости и полноты проведения индексации зависит широта представления сайта в поисковой выдаче, высота занимаемой позиции и, в конечном итоге — количество посетителей.

О том, как правильно настроить индексацию страниц в Яндекс и Google рассказываем в этой инструкции.

Какую информацию собирают роботы

Индексация сайта в поисковых системах — это больше, чем просто копирование информации с ваших страниц в базу поисковой машины. Для того, чтобы в результаты поиска попадала только важная для пользователя информация, роботы осуществляют фильтрацию содержимого, удаляя все лишнее: рекламу, элементы навигации и одинаковые для всех страниц блоки. Также выясняется структура документа (разделы, заголовки, подзаголовки), проводится семантический разбор текста, для определения его релевантности тем или иным запросам.

Скриншот: Какую информацию собирают роботы

У роботов есть и специализация: некоторые отвечают за текстовый контент для основной и «быстрой» выдачи (как правило — для новостных сайтов), другие — за картинки для разделов ПС (Яндекс Картинки и аналогичный сервис у Гугла). Существуют и специализированные алгоритмы для слежения за ссылочным профилем, оценки мобильных версий сайтов и медиа-контента.

Как страницы попадают в индекс поисковых систем

Перед тем как начнется индексация в Гугл, Яндекс и других поисковиках, каждая ПС должна получить сведения о появлении нового ресурса. О существовании страницы можно узнать несколькими способами:

Перейдя по ссылкам на просматриваемом сайте. Чем больше исходящих ссылок ведут на документ, тем больше шансов, что он будет проиндексирован в приоритетном порядке.
XML-документ со специальной разметкой — карта сайта, является источником ссылок, с которым будут сверяться роботы при планировании переиндексации.
Информация полученная из систем аналитики Яндекс Метрика и Google Analytics также учитывается при планировании обходов. При подключении этого функционала данные о странице будут отправляться напрямую в сервис индексации как только кто-то откроет на сайте неизвестный ранее ПС документ. Единственное требование к нему — он обязательно должен содержать код отслеживания.
Автор сайта может самостоятельно отправить страницу на индексацию, воспользовавшись специальной формой в панели управления сервисами ПС.

Управление индексацией сайта в поисковых системах

Несмотря на то, что индексация страниц сайта полностью автоматизирована, от усилий вебмастера зависит полнота и скорость этого процесса.

Добавление сайта

Первый шаг всегда заключается в добавлении сайта в специализированные сервисы ПС. Вебмастер — для Яндекс и Search Console для Гугл.

Добавление сайта в Вебмастер выполняется в несколько простых шагов:

Если сайт работает по HTTPS, указывайте домен вместе с протоколом:

Скриншот: Управление индексацией

Второй этап — подтверждение прав на домен. Необходимо воспользоваться одним из предложенных способов. Самый простой из них — скачать html-файл и разместить его в корне сайта.

Скриншот: Управление индексацией

Индексация сайта в Яндекс начнется в течение нескольких дней после добавления домена. Первые результаты, включая данные о количестве проиндексированных страниц, станут доступны после следующего обновления поисковой базы.

Для Google Search Console процесс выглядит схожим образом:

Скриншот: Управление индексацией

Единственное отличие заключается в возможности добавить сразу все ресурсы на домене (мобильные версии сайтов, все протоколы и поддомены), но для этого нужно иметь доступ к редактированию записей NS-сервера, что возможно далеко не у каждого хостера.

Файл robots.txt для индексирования страниц роботами

Этот простой по своей структуре файл позволяет управлять поведением роботов и ускорить индексацию сайта. С его помощью можно как исключить сайт из поиска и полностью запретить индексацию сайта, так и повысить результативность индексирования и продвижения, ограничив доступ роботам к тем страницам, где нет ценного контента.

Скриншот: Файл robots.txt

В рассматриваемом примере все системные папки движка Joomla закрыты от индексирования с помощью конструкции Disallow. Чтобы явно разрешить доступ к какому либо элементу, нужно использовать Allow.

У файла есть и другие интересные особенности. Например, такие, как закрыть сайт от индексации только в определенной поисковой системе. Для этого используется специальная конструкция User-agent. Если после нее указать наименование конкретного робота — Googlebot или Yandex, то все последующие инструкции будут предназначены только для указанной ПС. Как заблокировать сайт в гугле и разрешить индексацию только в Yandex? Достаточно использовать следующую конструкцию

User-agent: Googlebot

Disallow: /

User-agent: Yandex

Allow: /

User-agent позволяет лучше соответствовать требованиям поисковых систем. Тот же Google предлагает разрешить его ботам индексировать файлы скриптов и стилей. Самый простой способ сделать это — добавить всего две лишние строчки в robots.txt

User-agent: Googlebot

Allow: *.css

Allow: *.js

Важно! В зависимости от используемой CMS нужно определить страницы, которые наверняка будут содержать дубли уже размещенной информации (результаты поиска, например) или никогда не обзаведутся полезным для пользователя контентом (страницы входа, регистрации). Доступ к этим страницам нужно запретить в robots.txt, чтобы улучшить результаты индексирования.

Проверить отредактированный файл на правильный синтаксис и узнать, разрешен ли конкретный URL можно в Яндекс Вебмастере:

Скриншот: Файл robots.txt

Noindex и Nofollow

Использование мета-тэгов для ссылок позволяет указывать роботам правила индексирования, что делать на конкретной странице, и стоит ли проводить индексацию сайта в Google, Яндекс и любой другой ПС, которая поддерживает работу с такими тэгами.

INDEX, FOLLOW — содержимое страницы можно добавлять в индекс, также необходимо перейти по всем ссылкам;
INDEX, NOFOLLOW — страница должна попасть в индекс, но переходить по ссылкам не нужно;
NOINDEX, FOLLOW — страница не попадет в индекс, но робот пройдет по всем ссылкам на ней;
NOINDEX, NOFOLLOW — вся страница целиком и ссылки на ней запрещены к индексированию и переходам.

Скриншот: Noindex и Nofollow

Популярные CMS позволяют устанавливать такие тэги для отдельных документов, категорий и пунктов меню. Для отдельных ссылок также можно использовать noindex. В этом случае роботы будут обязаны не включать в базы содержимое целевого документа.

Карта сайта для ускорения индексации

Чтобы индексация сайта в Гугл, а также в Яндексе прошла максимально быстро, нужно указать поисковым системам ссылки на наиболее важный контент. Конечно, можно делать это вручную (об этом — ниже), но постоянное появление новых страниц на продвигаемом ресурсе приведет к необходимости ручного добавления страниц, что не слишком удобно. Карта сайта — решение этой проблемы. Она представляет собой XML документ с определенной разметкой, который размещен по известному ПС адресу. Роботы посещают этот адрес и моментально получают информацию о появлении новых ссылок на вашем сайте.

Скриншот: Карта сайта

Для подготовки карты сайта лучше воспользоваться специализированным расширением для CMS, которое будет автоматически обновлять содержание XML при создании новых статей и разделов. Структура сайта допускает указание периода обновления для различных страниц и приоритета в индексации. Оба эти параметра носят рекомендательный характер, поскольку ПС самостоятельно измеряют временные интервалы между датами изменения и посещают чаще те страницы, где они фактически происходят быстрее.

Как ускорить индексацию сайта в Яндексе? Нужно добавить карту сайта через панель Вебмастера и дождаться обхода роботом ссылок.

Скриншот: Карта сайта

В Google Search Console также есть специализированный раздел:

Скриншот: Карта сайта

Не лишним будет и указание ссылки на Sitemap в файле robots.txt с помощью конструкции:

Sitemap: https://vash_sait/путь_к_sitemap.xml

Поисковики могут и проигнорировать эту запись, полагаясь только на информацию из файлов, добавленных вручную через панели управления.

Учет страниц из Метрики

Подключение счетчика Метрики и его связь с сервисом Яндекс Вебмастер позволяет значительно ускорить процесс индексации сайта в Яндекс благодаря автоматической передачи сведений о страницах из кода счетчика.

Скриншот: Учет страниц из Метрики

При установке на сайт кода Google Analytics (GA) также можно передавать сведения о новых страницах в Search Console. Для этого нужно войти под своей учетной записью и связать сервисы, перейдя по ссылке в уведомлении.

Важно! Предложенный метод позволяет как ускорить индексацию в Яндексе и Гугле, так и значительно замедлить этот процесс. Все зависит от настройки файла robots.txt и особенностей работы вашей CMS. Если система управления контентом генерирует большое число динамических страниц (фильтры товаров в интернет-магазинах, результаты поиска) при выполнении запросов пользователей, то перед подключением обхода по данным Метрики нужно обязательно исключить такие страницы из индексации.

Добавление URL вручную

Для ускорения индексации наиболее важных страниц сайта можно добавлять их в индекс вручную. В Search Console нужно вставить ссылку в верхнее поле поиска и дождаться получения информации из индекса:

Скриншот: Добавление URL вручную

Если страница еще не попала в базу, можно запросить индексирование (отправить страницы на переобход), нажав соответствующую кнопку на странице с результатами поиска. Таким образом можно также проверить индексацию сайта в гугле, любой его страницы или документа.

В Яндекс Вебмастер есть аналогичный функционал. С его помощью можно не только узнавать статус индексации, но добавлять страницы в обход вручную.

Скриншот: Добавление URL вручную

Достаточно указать список URL и отправить их на переобход. Даже если адрес пока неизвестен роботу, он посетит указанные ссылки.

Как проверить индексацию сайта

Чтобы проверить индексацию страницы в Яндексе нужно перейти в раздел «Проверить статус URL» и указать адреса, по которым нужно получить информацию из индекса.

Скриншот: Как проверить индексацию сайта

Добавление страницы в список отслеживаемых позволит получить уведомление о том, что страница добавлена индекс и поиск, а также о важных изменениях в ее статусе (редирект, ошибка 404).

Проверка индексации страницы в Яндексе может быть проведена и с помощью запроса на странице поиска, но этот метод позволяет получить информацию только о тех из них, которые уже попали в поисковую базу. для этого используется конструкция

site:ваш_домен.ru

Метод одинаково работает в ПС Яндекс и Google.

Проверка индексации страницы в Google возможна через поиск Search Console. Единственный минус такого решения: URL придется вставлять по одному. У Яндекс допускается загрузка списков из 20 ссылок.

Методы ускорения индексации

Как проиндексировать сайт в Гугл и Яндекс, чтобы процесс происходил быстро, а в индекс попадали только те страницы, которые впоследствии будут учитываться в поиске? Нужно придерживаться нескольких простых правил:

Настроить индексацию в robots.txt таким образом, чтобы исключить дублирование страниц и исключить из обхода все служебные разделы сайта, не содержащие информации для пользователей.
С помощью тегов Noindex и Nofollow закрыть конкретные ссылки и документы, которые не должны попасть в базу поиска.
Сформировать и подключить карту сайта.
Оптимизировать структуру каталогов и упростить навигацию, чтобы путь до самых важных документов был как можно ближе к корню сайта.
Организовать внутреннюю перелинковку статей таким образом, чтобы путь робота по ссылкам не содержал коротких петель (два документа ссылаются только друг на друга) и охватывал максимально возможное количество ценных для пользователей материалов.

Все эти действия можно провести самостоятельно, но чтобы избежать ошибок, которые пагубно скажутся как на скорости индексации ресурса, так и на его представленности в результатах поиска лучше доверить их профессионалам. Узнать о стоимости услуг оптимизации сайтов можно по этой ссылке.

Ускорение индексации сайта поисковыми системами: подробная инструкция

Содержание

Какую информацию собирают роботы

Как страницы попадают в индекс поисковых систем