ATAXO - hlavní stránka

Fulltextový vyhledávač na Seznamu

Jan Bednář | | SEO | Seznam

Fulltextové vyhledávání na internetu je jednou z věcí, kterou používá snad každý, kdo je alespoň někdy online. 6. listopadu jsme měli možnost díky přednášce Štěpána Škroba na FELu v Dejvicích nahlédnout pod pokličku vyhledávání Seznamu. Pro ty, které tolik nezajímá hardwarová stránka věci (neboli kolik železa a na co je třeba), byl asi nejzajímavější částí přednášky princip vyhledávání a určování relevance výsledků vyhledávání.

Indexování stránek a zpracování dotazu

Vzhledem k velikosti internetu není samozřejmě možné vyhledávání provádět prohledáváním internetu přímo v okamžik dotazu. Proto obsah internetu soustavně prochází roboti (v případu Seznamu „Seznambot“), kteří hledají nové stránky, nebo se dívají, zda se dotyčné stránky změnily. Obsah stránek je pak indexován a při zpracovávání dotazu se použije právě tento index. To v praxi znamená, že je potřeba určit, které slovo na stránce je relevantní pro určitý dotaz (klíčové slovo). Seznam používá metodu lemmatizace. U každého slova, které robot na stránce najde, se určí jeho lemma (základ) a slovo se indexuje ve prospěch tohoto lemmatu. Například základ slova „tancích“ může být slovo tank nebo slovo tanec. Seznam indexuje slova ve prospěch všech lemmat, která přichází v úvahu. Pro samotnou lemmatizaci používá lemmatizátor od Lingey.

Vzhledem k možné nejednoznačnosti, co je lemmatem určitého slova (tancích: tank nebo tanec?), se při samotném zpracování dotazu provede zpřesnění na základě statistiky výskytu spojení. Jestliže někdo hledá Slovanské tance, budou z výsledku vyhledávání pravděpodobně vyřazeny stránky pojednávající o bojových pásových vozidlech, neboť spojení „slovanský tank“ bude spíše řídké.

Alternativou k tomuto způsobu je automatizované vyhledávání založené na statistickém zpracování jazykových korpusů. Mně osobně se zdá, že lemmatizace může poskytnout lepší výsledky. Jako omezení fulltextového vyhledávání pomocí lemmatizace však Štěpán Škrob označil fakt, že při každém rozšíření na další jazyk by bylo potřeba získat další příslušný program (lemmatizátor). Znamená to snad, že Seznam chystá rozšíření svého fulltextového vyhledávání na další jazyky?

Hodnocení relevance stránek

Při hodnocení relevance stránek bere Seznam v úvahu tři faktory: výskyt hledaného slova na stránce, citační analýzu a pagerank.

Pro výskyt hledaného slova na stránce se vyhodnocuje titulek stránky, její obsah a URL. Důležitost dobrého titulku patří k základům SEO, přesto je na webu spousta stránek (spíš většina), které to příliš nereflektují. Titulek by měl obsahovat rozumný počet relevantních klíčových slov a měl by být pokud možno unikátní (tedy jiný pro každou stránku v rámci určitého webu). Nejzajímavější informací nebyl samotný fakt důležitosti titulku, který asi zná každý, ale výraz tváře Štěpána Škroba, když to několikrát zopakoval. Titulek je pro Seznam asi hodně, hodně důležitý.

Citační analýza je založená na tom, na jaké slovo na dotyčnou stránku odkazují ostatní stránky, přičemž se Seznam snaží vyhodnotit okolí dotazu, protože v samotném anchor textu často najdeme taková významuplná slova jako zde a tady. Zajímavé je to, že hledané slovo se musí na stránce alespoň jednou vyskytovat. Tímto způsobem se Seznam brání tzv. Google bombám, kdy se určitá skupina lidí pokusí dostat nějakou stránku do výsledku vyhledávání na slovo, které s ní ve skutečnosti nijak přímo nesouvisí. Bohužel to na druhou stranu může ochudit výsledky vyhledávání, zvláště u takových stránek, kde by citační analýza byla jediným možným vodítkem (například stránky vytvořené ve flashi).

Související

Sdílet na Facebooku T Sdílet na Twitteru linkuj.cz pošli na vybrali.sme.sk