Група кампаній Webcom Media: Мінск, вул. Скрыганава, 6а, 4 паверх.

Што павінен ведаць пра Яндэкс кожны. Частка 1

Таццяна Зуёнак
Назва самай папулярнай пошукавай сістэмы па рускамоўным інтэрнэце, г.зн. Яндэкса, азначае «Моўны index» (рус. «Языковой index»), а таксама мае некалькі іншых падобных трактовак, агульны сэнс якіх выражаны слоганам «Знойдзецца ўсё».

Канкурэнцыя сярод пошукавых машын усё павялічваецца, а значыць з’яўляецца неабходнасць крытычна ставіцца да такіх абяцанняў, так як мала знайсці ўсё, трэба ўмець знайсці самае галоўнае. Аднак пошукавая сістэма Яндэкс дастаткова паспяхова спраўляецца, чым апраўдвае права называцца сёння самым папулярным рэсурсам Рунета.

Афіцыйна пошукавая сістэма Яндэкс была прадстаўлена ў верасні 1998 года і адразу ж пачала пераможнае ўзыходжанне да вяршыню славы. Перыядам найбуйнейшага развіцця Яндэкса быў 1999 год, які характарызаваўся маланкавым павелічэннем Рунета як па аб’ёмах тэкстаў, так і па колькасці карыстальнікаў амаль на парадак.

Напрыканцы 2002 года Яндэкс выйшаў на самаакупальнасць, г.зн. дасягнуў перавышэння прыбыткаў над выдаткамі. На дадзены момант больш за 60% даходаў Яндэкс атрымлівае ад кантэкснай рэкламы і каля 20% - за пераходы карыстальнікаў у электронныя крамы. Вядомасць прынесла не толькі славу, але і цяжкасці, якія выліліся ў чэргі на пакупку рэкламных месцаў на партале.

Сёння Яндэкс – гэта найбуйнейшы партал, які прапануе, акрамя пошукавага сэрвісу і каталога, вялікую колькасць разнастайных вэб-службаў: навіны, энцыклапедыі, слоўнікі, каталогі тавараў, бясплатную пошту, хостынг, плацёжную сістэму і шмат іншага.

Штодзённа партал паведвае каля 2 мільёнаў чалавек з улікам замежных гасцей. Пры гэтым з усіх расійскіх карыстальнікаў, якія заходзяць у сетку цягам дня, па сярэдніх  паказчыках, 75% наведваюць і сайт Яндэкса.

За апошнія паўгады Яндэкс асабліва ўзмацніў свае пазіцыі, што адбілася на павелічэнні ўзроўню наведвання прыкладна на 60% і дасягненні лічбы ў амаль 10 мільёнаў чалавек у месяц (каля 80% прыходзяць з Рунета). На дадзены момант Яндэкс у два разы больш папулярны за Рамблер і настолькі ж больш папулярны за астатнія пошукавыя сістэмы рускамоўнага інтэрнэту разам узятыя. Пошук застаецца самай запатрабаванай функцыяй партала, які апрацоўвае ў месяц каля 150 млн запытанняў.
 
Яндэкс валодае найбольш поўным і актуальным індэксам старонак рускамоўнага інтэрнэту. Якасны пошук забяспечваецца дасканалай лінгвістычнай і тэхнічнай прапрацоўкай тэкстаў. Алгарытм пошуку, а таксама якасны марфалагічны і сінтаксічны аналіз дазваляюць Яндэксу разумець запыты на натуральнай мове. Таму карыстальнікі-навічкі, каб не абцяжарваць сябе правіламі выкарыстання службовых слоў пры пабудове пошукавых запытаў, могуць іх фармуляваць, напрыклад, так: «дзе арэндаваць офіс у цэнтры Мінска». Сярэдняя даўжыня запыту на Яндэксе прыкладна роўная 2,8 слова, а ў 1997 годзе яна склала 1,2 слова. Прыведзеныя лічбы адлюстроўваюць тэндэнцыю павышэння ўзроўню валодання інтэрнэт-карыстальнікамі магчымасцей інфармацыйнага пошуку.

Яндэкс цудоўна разумее рускую мову і можа ўтвараць і разумець любыя словаформы. Напрыклад, калі уведзены запыт на слова «думаць», то машына выдае вынікі пошуку таксама і па словах «думаў», «думаючы» і нават «розум».
 
Павук Яндэкса індэксуе ўсе дакументы ў рускамоўнай частцы інтэрнэта, у тым ліку і ў краінах СНД. Нашы беларускія карыстальнікі аддаюць пераважную большасць запытаў на пошук інфармацыі менавіта Яндэксу, пакідаючы далёка за сабой мясцовыя пашукавікі. Для пошуку па Байнеце пажадана ўсталяваць ў наладках абмежаванне па рэгіёне (http://www.yandex.ru/regions.html).

Штодзённа Яндэкс вырашае на карысць карыстальнікаў такія ж важныя праблемы, як і любы іншы вядомы пашукавік: карэктнае ранжываранне, абнаўленне і сінхранізацыя індэкса, праца з разнастайнымі мовамі і кадыроўкамі, дубліраванне інфармацыі, падтрымка навізны базы дадзеных і г.д.
 
Памер індэкснай базы, як і якасць пошуку з’яўляецца адным з асноўных паказчыкаў для характарыстыкі пошукавай сістэмы. Прыкладам служыць маланкавы рост папулярнасці такіх машын як Google и Fast, які ідзе прапарцыянальна развіццю аб’ёму іх індэкса. Рост базы Яндэкса, акрамя тэхнічных праблем, якія ён паспяхова апрацоўвае дзякуючы кластэрнай структуры (г.зн. размяшчэнню індэкса на некалькіх серверах), сутыкаецца з неабходнасцю адсейваць паўторныя дакументы, разнастайныя па паходжання. Адзін і той жа дакумент можна ўявіць у разнастайных кадыроўках і фарматах, ён можа ўтрымліваць нязначныя ўключэнні ў выглядзе даты публікацыі, рэкламы або рэмарак іншага аўтара. Актыўнаму капіраванню і рэдагаванню ўвесь час падвержаны навіны, юрыдачныя дакументы, прайс-лісты, артыкулы.

Пошукавай машыне нявыгадна захоўваць дубліраваныя дакументы ў базе, а таксама забруджваць выдачу амаль аднолькавымі дакументамі. Методыка Яндэкса па выяўленні дублікатаў увесь час удасканальваецца. Яе неабходна ўлічваць, кіруючыся наступнымі правіламі.  Калі сайт мае некалькі люстэркаў, то першым індэксацыю ў Яндэксе павінна прайсці галоўнае з іх, так як астатнія ідэнтычныя сайты ігнаруюцца. Напрыклад, калі на сайце размешчаны перадрукаваныя з іншых рэсурсаў артыкулы, то, каб пазбегнуць траплення старонкі ў дублікат і выключэння з вынікаў пошуку, можна разбіць тэкст артыкула на некалькі частак або выкарыстоўваць больш пабочнага тэксту (рэмарак рэдактара, перакрыжаваных спасылак на матэрыялы падобнай тэматыцы гэтага ж сайта і г.д.). І наадварот, калі рэсурс прасоўваецца за кошт публікуемых на ім артыкулаў, каб пасля перадрукоўкі на іншыя сайты артыкулы не былі ідэнтыфікаваны Яндэксам у якасці дубліката, не рэкамендуецца ставіць з гэтай старонкі спасылкі на перадрукаваныя варыянты, а наадварот, са старонак – дублёраў спасылацца на арыгінал.

Яндэкс, як магутная пошукавая сістэма, абыходзіць Сетку за некалькі дзён. Аднак па меры росту сістэмы асноўная нагрузка ўскладаецца ўжо не на індэксавальнага робата, а на пошук і выдачу вынікаў. У бліжэйшы час плануецца актыўнае ўкараненне на Яндэксе традыцыйных для многіх сістэм з сусветным іменем тэхналогій эшаланіравання і прунінгу. Сутнасць першай методыкі заключаецца ў падзеле індэкса на 2 часткі: больш і менш рэлевантную. Спачатку пошук ажыццяўляецца ў першай і, калі вынік не задавальняе па колькасці, пошукавая машына звяртаецца да другой часткі індэкса.
Тэхналогія прунінгу (ад англ. pruning – адсячэнне, скарачэнне) дазваляе дынамічна прыпыняць апрацоўку запыту пры накапленні дастатковай колькасці рэлевантнай інфармацыі. Гэтая тэхналогія значна скарачае час пошуку і нагрузку на пашукавік, тым больш, загадзя вядома, што большасць карыстальнікаў пры праглядзе вынікаў часцей за ўсё не заходзяць далей 3 старонкі вынікаў.

Галоўны крытэр прыёму сайта Яндэксам - гэта тэкст, напісаны на рускай мове. Пошукавая сістэма мае дастаткова хуткага пошукавага робата, які дазваляе старонцы ўжо пры першаснай індэксацыі  праз 2 – 4 гадзіны з’явіцца ў выніках пошуку. Далей старонка становіцца сітэмай у чаргу на поўную індэксацыю, пасля якой яна зрэдку можа знікнуць з вынікаў пошуку, калі будзе расцэнена як спам, або праз нейкія тэхнічныя праблемы. Таму пазіцыю старонкі варта адсочваць на працягу некалькіх дзён, пакуль Яндэкс не правядзе поўную індэксацыю. Акрамя таго, спіс вынікаў, які выдае Яндэкс, можа змяняцца ў залежнасці ад загружанасці сервераў. Пасля індэксацыі галоўнай старонкі, астатнія звычайна хутка ўключаюцца ў індэкс прыкладна праз 3 тыдні.

Яндэкс, выяўляючы новую або змененую старонку, індэксуе яе, разбівае документ на элементы: тэкст, загаловак, подпісы, малюнкі, змест тэга апісання, тэкст спасылак і некаторыя іншыя. Пры гэтым улічваюцца пазіцыі слоў, г.зн. іх размяшчэнне ў дакуменце або яго элеменце. Сам дакумент Яндэкс не захоўвае, таму і стварае кампактны індэкс. Робат рэгіструе дату апошняга абыходу кожнай старонкі, дату яе змянення, дасланую серверам, і дату ўнясення апошніх зменаў у базу. Яндэкс аптымізуе абыход Сеткі такім чынам, каб найчасцей наведваліся больш зменлівыя рэсурсы. Звычайна пераіндэксацыя адбываецца раз на 2 – 3 тыдні. Змены, унесеныя ва ўжо праіндэксаваныя старонкі, робат адслежвае  самастойна пры наступным заходжанні на сайт.

У робата Яндэкса свой графік дзейнасці і змяніць яго, напрыклад, як у іншых пашукавіках, немагчыма, так як Яндэкс ігнаруе тэг.

Каб зразумець, ці праіндэксаваў Яндэкс сайт, трэба на старонцы www.yandex.ru/addurl.html увесці ў поле рэгістрацыйнай формы адрас сайта і прааналізаваць вынікі. Калі будзе выдадзена паведамленне, што «Ваш URL быў толькі што ўнесены ў базу дадзеных», то гэта значыць, што сайт будзе праіндэксаваны ў самы бліжэйшы час. Калі атрымана паведамленне «Ваш URL ужо праіндэксаваны. Вы можаце пагледзець, якія старонкі Вашага сайта праіндэксаваны ў Яndex.Ru на сучасны момант», то, націснуўшы на спасылку «праіндэксаваны ў Яndex.Ru», можна атрымаць увесь спіс дакументаў рэсурса, якія былі прапрацаваны пашукавіком. Калі рэгіструемы сайт знік з вынікаў пошуку (часцей за ўсё па тэхнічных прычынах самой машыны), можна скарыстаць апісаны вышэй спосаб, каб упэўніцца, што сайт усё ж такі прапісаны ў індэксе.  Звычайна пры гэтым выдаецца паведамленне пра тое, што «Ваш URL ужо вядомы робату. Дадзены рэсурс будзе праіндэксаваны ў бліжэйшы час».

Яндэкс удасканальвае пошукавы механізм. Апошнія змены аказаліся найбольш кардынальнымі і прыўнеслі навізну не толькі ў спосаб фарміравання вынікаў выдачы, але і значна пашырылі магчымасці пошуку. Каб скласці пра Яндэкс поўнае ўражанне, неабходна абавязковым чынам разгледзець фактары, якія ўплываюць на пошукавую рэлевантнасць старонак  па ўведенаму запыту. А пра гэта будзе расказана ў наступным артыкуле.

x