Група кампаній Webcom Media: Мінск, вул. Скрыганава, 6а, 4 паверх.

Што павінен ведаць пра Яндэкс кожны. Частка 2

Таццяна Зуёнак
Імкненне ўтрымліваць пазіцыі лідара сярод лепшых пашукавікоў у рускамоўным інтэрнэце прымушае Яндэкс увесь час удасканальваць алгарытм разліку рэлевантнасці старонак, пераймаючы перадавыя ідэі ў машын з сусветнымі іменемі. Апошнія змены, укаранёныя Яндэксам, былі найбольш кардынальнымі.
 
На сённяшні дзень стала зразумела, што пошук не можа быць эфектыўным і карэктным, калі ён не заснаваны на аналізе тэксту дакументаў, так як пазатэкставыя фактары могуць мець не меншае значэнне, чым сам тэкст. Пошукавая машына павінна ўлічваць размяшчэнне старонкі на сайце, аўтарытэтнасць крыніцы, частату абнаўлення, працэнт цытавання старонкі. Спалучэнне гэтых фактараў можа даць больш паўнавартаснае ўяўленне пра дзейнасць рэсурса і яго ўспрымання сеткавай грамадскасцю, чым аналіз толькі тэкставага зместу. Таму Яндэкс паступова ўкараняе ў сваю практыку аналіз уплыву падобных фактараў на рэлевантнасць запыту карыстальніка.

Пры аналізе тэкставых крытэраў рэлевантнасці Яндэкс улічвае:
•    пазіцыю знойдзеных слоў у тытульнай фразе;
•    «вагу» слова і яго блізкасць да пачатку дакумента;
•    наяўнасць знойдзеных слоў у загалоўках і фрагментах вылучанага тэксту;
•    кампактнасць цытаты, гэта значыць улік размяшчэння знойдзеных слоў адносна адно аднаго.

Нетэкставыя крытэры, якія ўлічвае Яндэкс, можна ўмоўна падзяліць  на 3 разнавіднасці:
•    каталожныя;
•    спасылкава-разліковыя;
•    спасылкава-тэкставыя.

Да першага тыпу крытэраў адносіцца тэматычны індэкс цытавання (ІЦ) Яндэкса, які вызначаецца як сукупнасць усіх старонак, што спасылаюцца на дадзеную (уключаючы і старонкі дадзенага сайта) На Яндэксе ІЦ даследваемага рэсурса можна даведацца па адрасе http://yandex.ru/info/cy.html#cycounter.

Індэкс цытавання Яндэкс разлічваецца для тых рэсурсаў, спасылкі на якія былі знойдзены ім у рускім інтэрнэце, пры ўмове, што выніковае значэнне тэматычнага ІЦ для іх не меншы за 10. Пры ўліку ІЦ Яндэкс наверсе вынікаў пошуку па запыце выдае некалькі спасылак на сайты, зарэгістраваныя ў адным каталозе.

Пры падліку ІЦ не бяруцца пад увагу спасылкі з форумаў, электронных дошак, канферэнцый. Акрамя таго, Яндэкс не ўлічвае спасылкі з сайтаў, якія не былі ім праіндэнсаваны.

Улік пры разліку рэлевантнасці ІЦ быў вельмі папулярны ў замежных пошукавых сістэмах прыкладна да 1998 года. Аднак праз тое, што гэты паказчык вельмі схільны да накруткі і не ўлічвае якасць саміх крыніц, дадаткова ўвялі яго больш дасканалыя версіі – тэматычны і ўзважаны індэксы цытавання (тІЦ і уІЦ адпаведна). Гэтыя два паказчыкі па ўказанай вышэй класіфікацыі нятэкставых крытэраў разліку рэлевантнасці адносяцца да спасылкава-разліковых.

Для хуткага аналізу індэкса цытавання можна выкарыстоўваць спецыяльны плагін Яндекс.Бар для Internet Explorer 5-6. Модуль, які можна спампаваць па адрасе  http://bar.yandex.ru/, утварае ў браўзеры дадатковую панель інструментаў. Пры гэтам пашыраюцца магчымасці пошуку і прагляду старонкі, а галоўнае, адлюстроўваецца ўзважаны індэкс цытавання. Індыкатар паказвае «важкасць» і «аўтарытэтнасць» сайта, які праглядаецца ў дадзены момант браўзерам, дазваляе даведацца пра раздзел каталога Яндэкса, у якім зарэгістраваы рэсурс, і спіс сайтаў, якія на яго спасылаюцца.
 
На пачатку 2000 года ўлік пошукавымі алгарытмамі якасці спасылкавай палітыкі сайта быў узяты за аснову пры мадыфікацыі найбольш папулярных замежных пошукавых сістэм, што ўдакладнілі методыку ранжыравання вынікаў. Яндэкс, ідучы ўслед за агульнасусветнай тэндэнцыяй, таксама навучыўся ўлічваць не толькі колькасць спасылак, але  і іх якасць. У сувязі з гэтым ім разлічваюцца 3 тыпы індэкса цытавання: ІЦ, тІЦ і уІЦ (узважаны з улікам тэматыкі).
 
Так як усе спасылкі на пэўны рэсурс нельга прызнаць роўнымі, выкарыстоўваецца ранжыраванне іх каштоўнасці, гэта значыць, якасць. Такім чынам уІЦ сайта вызначаецца не колькасцю спасылак на яго, а сумай іх вагі.
 
Тэматычны індэкс цытавання разлічваецца па спецыяльным алгарытме, у якім галоўную ролю адыгрывае блізкасць тэматыкі аналізуемага рэсурсу і сайтаў, што на яго спасылаюцца. Пры разліку выкарыстоўваецца колькасць спасылак на сайт і іх тэматычная вага.

Пры аналізе рэсурсаў на ступень падабенства тэматыкі даследуецца іх узаемнае размяшчэнне ў каталозе Яндэкса. Напрыклад, сайты, размешчаныя ў адной рубрыцы каталога, лічацца блізкімі па тэматыцы. Аднак толькі гэтага фактара недастаткова, каб паўнавартасна разлічыць тІЦ рэсурса. Каб вырашыць гэтую праблему, Яндэкс пераняў у Гугла ўжо адпрацаваную «чалавечую» тэхналогію выкарыстання асесараў – спецыялістаў, якія выносяць вердыкт па рэлевантнасці старонкі.

Некаторыя замежныя пашукавікі ўжо даўно прымяняюць практыку выкарыстання чалавека для ацэньвання рэлевантнасці вынікаў пошуку. Прыход новай методыкі працы асесараў на Яндэксе павенен часткова замяніць улік ацэнкі інтэрвалу паміж клікамі аднаго і таго ж карыстальніка на розных пазіцыях у выніках пошуку. Аналіз клікаў цяпер выкарыстоўваецца Яндэксам для іншых мэтаў, напрыклад, для інтэгральнай ацэнкі якасці пошуку. Непасрэдна для наладжвання якасці пошуку гэтыя дадзеныя не падыходзяць, так як карыстальнікі робяць выбар толькі па цытатах з дакументаў і па адрасах старонак. Асесары ж працуюць па больш паўнавартаснай методыцы. Аднак Яндэкс не адмовіўся ад старога спосабу, а проста ўдала сумясціў яго з новым, атрымаўшы такім чынам сінергетычны эфект. Дзякуючы працы асесараў, пошукавы механізм Яндэкса аддзяляе тэматычныя спасылкі, гэта значыць сайты адной тэматыкі, ад любых іншых. Такім чынам, для ацэнкі якасці пошуку Яндэксам сумяшчаюцца як аўтаматычныя, так і ручныя метады ацэнкі.

Спасылкава-тэкставыя крытэры, якія ўлічвае Яндэкс пры вызначэннні рэлевантнасці старонак, заснаваны на аналізе тэксту спасылак. Пры гэтым, калі змест запыту супадае са зместам тэга спасылкі, у выніку пошуку выдаецца адрас, пазначаны ў тэгу. А ў выніках пошуку такая старонка выводзіцца Яндэксам без тытула і суправаджаецца тэкстам «адрас, знойдзены па спасылцы».

Такім чынам, для высокіх пазіцый у Яндэксе аптымізуемы сайт павінен мець як мага большую колькасць уваходных спасылак, якія павялічваюць ІЦ, уІЦ і тІЦ, размешчаных на рэсурсах, блізкіх па тэматыцы сыходнаму.

Пры ранжыраванні вынікаў пошуку па запыце карыстальніка Яндэкс улічвае не толькі наяўнасць спасылак на гэтую старонку з іншых старонак, але і іх тэкст. Таму пры вёрстцы html-коду рэкамендуецца спасылацца на разнастайныя старонкі сайта з выкарыстаннем характэрных ключавых слоў і словазлучэнняў. А таксама імкнуцца да вылучэння некалькіх старонак, якія будуць прысвечаны высокаканкурэнтным тэмам, і ставіць на іх спасылкі як мага часцей.

Аднак гонка за высокімі паказчыкамі спасылкавых крытэраў прыводзіць да пэўных цяжкасцей. Аптымізаваная спасылкавая структура сайта не павіннна абцяжарваць поўную індэксацыю сайта пошукавай сістэмай. Для гэтага пажадана змяншаць лік узроўняў іерархіі, г.зн. колькасці спасылак, якія павенен прайсці робат Яндэкса, каб праіндэксаваць самую глыбокую старонку сайта. Калі ж структура сайта не мае больш за 3 – 4 узроўні пажадана вынесці найбольш істотныя ўнутраныя спасылкі на асобную старонку.

Для таго, каб правільна задаць тэматычную канцэпцыю рэсурса, што ўтрымлівае разнародную інфармацыю, неабходна  пры праектаванні размяркоўваць старонкі сайта па раздзелах, прысвечаным асобным тэмам, і правільна звязваць паміж сабой старонкі кожнага з раздзелаў. Галоўная старонка або карта сайта, у сваю чаргу, павінны спасылацца на адну са старонак кожнага раздзела. Такім чынам, пры аптымізацыі сайта пад Яндэкс неабходна прытрымлівацца тэматычнай цэласнасці рэсурсу.

Як бачна з выкладзенага вышэй матэрыялу Яндэкс увесь час уносіць карэктывы ў методыку разліку рэлевантнасці старонак. Аднымі гэта ўспрымаецца як чарговы рэбус для аптымізатараў, іншымі – як блага. Аднак у цэлым якасць пошуку паляпшаецца, чым задаволены ўсе. Сёння Яндэкс заслугоўвае асаблівай увагі, таму веды пра яго магчымасці, а таксама метады паляпшэння паказчыкаў, якія бяруцца ім пры разліку рэлевантнасці старонак, неабходна для любога карыстальніка.

x