Группа компаний Webcom Media: Минск, ул. Скрыганова, 6а, 4 этаж.

Индексирование документов сайта


Наиболее результативными средствами раскрутки сайтов являются регистрация в каталогах и индексирование поисковыми системами. В статье изложены основные сведения об начальном этапе подготовки ресурса к регистрации, а именно о работе с метатегами.


Краткая справка


Как известно, одними из наиболее эффективных и результативных средств раскрутки веб-сайтов являются регистрация в каталогах Интернет-ресурсов и индексирование поисковыми системами. Но если первый метод в большинстве случаев зависит исключительно от того, как устроена процедура занесения информации о ресурсе в базу данных каталога, то подход пользователя к индексированию веб-документов поисковиками с полной уверенностью можно назвать индивидуальным и вполне предсказуемым. Регистрируясь в каталоге, пользователь вносит в установленные формы данные о сайте так, как он хочет. Однако, далеко не всегда информация о ресурсе будет отображена впоследствии в каталоге в первозданном виде: администраторы многих подобных серверов по-своему редактируют описание ресурсов, руководствуясь при этом собственными доводами и правилами.

Поисковая система представляет собой более сложную структуру и состоит из трех компонентов:

  • Робот (spider):
    Программа, которая просматривает веб-страницы, считывает (индексирует) их содержимое, следуя по ссылкам, найденным внутри документов. Возобновляет работу через определенный период времени.
     
  • Индексы:
    База данных о проиндексированных роботом документах.
     
  • Поисковый механизм:
    Программа, проверяющая в соответствии с запросом пользователя содержание индексов.

 Следует сказать, что поисковые системы, в отличие от встроенных в каталоги поисковых двигателей, ищут не в пределах определенной серверными настройками базы данных, а по всей Сети, выводя страницы, находящиеся в их индексах (реестрах данных, где хранится информация о проиндексированных ресурсах). Именно последним и занимаются так называемые поисковые роботы (spiders, wanderers, robots). При обращении к серверу робот проверяет наличие файла robots.txt в его корневой директории, в котором могут быть вручную установлены правила индексирования тех или иных документов текущего узла. Однако, не все роботы«умеют» читать указанную в этом файле информацию: часть из них не поддерживает специальный стандарт описания правил индексирования файлов – Standard for Robot Exclusion. К сожалению, сегодня не все веб-мастера и ведущие Интернет-проектов имеют представление об этом стандарте, к тому же не каждый системный администратор, настраивающий веб-сервер, придает применению правил описания для поисковых роботов должное внимание.

Но данная статья будет посвящена не стандарту Standard for Robot Exclusion, что требует изучения специальных параметров описания правил и работы с веб-сервером, а тому, как правильно подготовить веб-документ для индексирования поисковыми роботами.


Релевантность документов

 
Когда пользователь вводит в строке запроса поисковой системы какое-то слово или словосочетание, робот обращается ко всем проиндексированным страницам. Количество полученных результатов может достигать десятков и даже сотен тысяч. Робот выводит результаты по критерию наибольшего соответствия содержания документов запросу пользователя, который называется релевантностью. Другими словами, самые подходящие страницы будут размещены в начале результирующего списка, выдаваемого поисковой системой. На релевантность влияют факторы ключевых слов, речь о которых и пойдет.


Количество ключевых слов

 
Под количеством ключевых слов (keywords) подразумевается их частота присутствия в документе (не путать с указанием ключевых слов в мета-тегах, разговор о которых пойдет чуть ниже). То есть страница, на которой робот обнаружит 15 раз запрошенное пользователем слово, будет более релевантна, чем та, которая содержит это слово всего 3 раза. Этот фактор как правило зависит от тематики ресурса и профессиональной этики веб-мастера. Логично допустить, что если страница называется«Лучшие бесплатные программы для Unix», в ее тексте навряд ли можно встретить слова«эротика»,«макияж» или«трубопровод». Зато«система» или«Unix» могут встретиться десятки раз. Но когда вопрос траффика перерастает в вопрос жизни или смерти, некоторые веб-мастера идут на неэтичный шаг: указывают в документе ключевые слова, совершенно не имеющие отношения к теме ресурса. Делается это обычно очень мелким шрифтом, в самом низу страницы или цветом, совпадающим с задним фоном. Реже эти методы берут на вооружение люди, стремящиеся искусственным путем повысить релевантность своих документов: одно и тоже ключевое слово указывается большое количество раз.


Густота (плотность) ключевых слов

 
Под густотой (плотностью) ключевых слов принято понимать степень отношения количества ключевых слов к остальным словам в пределах документа. Поисковые роботы считают более релевантной страницу с конкретным словосочетанием, нежели документ, в котором есть помимо этого словосочетания другие слова и фразы. Например, документ, содержащий только два слова«коммерческое предложение», будет идти в результирующем списке впереди страницы, содержащей помимо сочетания слов«коммерческое предложение» еще и другие слова.


Расположение ключевых слов

 
Веб-страница имеет ряд особых мест, поместив ключевые слова в которые, можно надеяться на более высокую релевантность в индексах поисковых систем. Прежде всего это самое начало документа: текст, содержащий ключевые слова в верхней части страницы, заметно повысит релевантность. Также часто включают ключевые слова между парными тегами . Многие допускают ошибку, загромождая заголовок ключевыми словами.

Такой подход имеет, как минимум, три больших минуса: во-первых, исходный размер HTML-файла заметно увеличивается, во-вторых, при выдаче результатов поисковики выводят данные, указанные в заголовке (), что делает название найденных документов малопривлекательными, в-третьих, пользователю будет довольно сложно поместить страницу с таким длинным заголовком в папку Favorites/Bookmarks. Кроме этого, на релевантность документов влияет наличие выделенных фрагментов текста (теги форматирования h1, h2, strong, b, em, u, i и др.) и внесение ключевых слов в комментарии, поле альтернативного текста и мета-теги (им будет посвящена отдельная часть статьи). Комментарии обособляются символами и могут включать абсолютно любую информацию (она в окне браузера не отображается), например:

Поле альтернативного текста , предназначенное для появления подсказок к графическим элементам при наведении на них курсора, тоже имеет большой вес, когда речь заходит о релевантности страниц. Для сравнения приведу следующий пример: на странице абстрактного предприятия«Фирма» размещена кнопка about.gif размером 5 Кб со ссылкой, ведущей в раздел, рассказывающий об истории возникновения предприятия. Три варианта использования поля альтернативного текста :

about.gif, 5 Кб
Об истории
История возникновения ООО Фирма

Релевантность страниц согласно порядку применения поля будет изменяться от первого варианта к последнему: документ, где кнопке присвоено поле«История возникновения ООО Фирма», будет иметь более высокую релевантность, чем тот, чья кнопка имеет значение тега«about.gif, 5 Кб».


Мета-теги

 
Мета-теги по сути имеют два основных атрибута – HTTP-EQUIV и NAME. Первый можно отождествить с HTTP-заголовками, и мета-теги с этим атрибутом на ряде серверов могут быть автоматически преобразованы в HTTP-заголовки. Нас больше интересует атрибут NAME, а точнее – его значения«keywords»,«description» и«robots», как влияющие на индексирование поисковыми спайдерами.

  • META NAME=«keywords» CONTENT=«.........»

    Здесь в значении атрибута CONTENT следует указывать ключевые слова и словосочетания. Делается это через запятую. Сюда можно добавить слова, которые не встречаются в документе (или встречаются крайне мало), но имеют отношение к тематике сайта (что снова повысит релевантность). Не стоит избегать указания словосочетаний: во-первых, многие пользовательские запросы состоят из нескольких слов, а во-вторых, документ с указанием в качестве keywords целой фразы, будет иметь большую релевантность, чем страница, где вместо ключевой фразы определены ее отдельные слова (например,«электронные магазины» или«электронные» и«магазины»). В среднем допускается указывать до 150-200 символов в качестве ключевых слов.
     
  • META NAME=«description» CONTENT=«.........»

    Значение атрибута CONTENT в данном случае уместно использовать, если в самом документе нет (или очень мало) тематического описания вашего сайта. Дело в том, что большинство поисковых систем в результирующем списке рядом с заголовком выводит 70-150 символов, относящихся к характеристике найденного документа. Если робот не обнаружит данного значения, его внимание будет обращено к проверке страницы с целью нахождения текста, характеризующего документ, и дальнейшего вывода этого текста в результирующем списке. Оптимальным решением является параллельное использование значений ключевых слов и описания (возможно дублировать ключевые слова в конструкции META NAME=«description» CONTENT=«...»).
     
  • META NAME=«robots» CONTENT=«.........»

    Эта конструкция предназначена для того, чтобы указать поисковому роботу, индексирующему ваш сайт, что надо добавлять в индексы, а что нет. Последний случай не является редким, т.к. существует множество ситуаций, когда просто необходимо запретить индексирование: чаты, баннерные показы и пр. Есть шесть возможных значений атрибута CONTENT для данной конструкции:

    • ALL (разрешение индексации документа со всеми присутствующими в нем гиперсвязями);
       
    • NONE (запрет индексации документа со всеми присутствующими в нем гиперсвязями);
       
    • INDEX (разрешение индексации документа);
       
    • NOINDEX (запрет индексации документа);
       
    • FOLLOW (разрешение индексации присутствующих гиперсвязей);
       
    • NOFOLLOW (запрет индексации присутствующих гиперсвязей);

Если этот мета-тег пропущен или не указано значение атрибута CONTENT, то поисковый робот понимает их отсутствие как конструкцию CONTENT=«INDEX, FOLLOW» (эти два значения – INDEX и FOLLOW аналогичны ALL).

Проблемы индексирования страниц
 
Однако в процессе подготовки страниц к индексированию роботами пользователь может столкнуться с целым рядом затруднений (или значительно позже, что еще хуже):

  • Страницы с фреймами

    В Сети огромное количество сайтов, созданных с применением многооконной структуры (фреймов), а большинство поисковых систем не умеют с ними работать. Что же делать пользователю, который хочет, чтобы его ресурс был проиндексирован? Оказывается, выход есть. Если вы когда-нибудь работали с фреймами, то знаете, что подобно роботам некоторые браузеры их не поддерживают, для чего в документе, определяющем адреса загрузки составных страниц, ставится парный тег . В нем обычно пишут что-то вроде«Ваш браузер не поддерживает фреймы», дается ссылка на последнюю версию MSIE или NN, а в лучшем случае – линк на безфреймовый вариант сайта. Разумеется, информация, заключенная в данный тег, не отображается браузерами, имеющими поддержку фреймовых структур. Посему туда можно поместить подробное описание вашего сайта, указать ключевые слова и словосочетания. И потом нельзя забывать заголовок начальной страницы (TITLE), в котором тоже следует определить ключевые слова.
     
  • Невозможность индексирования

    Причин затруднениям индексирования может быть несколько: некоторые поисковые роботы индексируют страницы, расположенные только в зоне .RU и соответствующих ей городских зонах, посему, если ваш сайт размещен на зарубежном сервере, в индексы он не попадет; некоторые спайдеры имеют ограничение на занесение в индексы не более какого-то числа ресурсов с одного домена; в конце концов, возможно, что вы случайно вместо значения INDEX мета-тега указали NOINDEX или сделали синтаксическую ошибку в составлении конструкции тегов мета-данных, влияющих на процесс индексирования веб-документов.


Источник: http://www.alpet.spb.ru/


x