Fulltext pro VŠE
description
Transcript of Fulltext pro VŠE
![Page 1: Fulltext pro VŠE](https://reader033.fdocuments.net/reader033/viewer/2022061513/56815170550346895dbfa50c/html5/thumbnails/1.jpg)
Fulltext pro VŠE
www.seznam.cz … najdu tam, co neznám !
Jakub Černý, Ph.D.
VŠE Praha, 24.11.2009
![Page 2: Fulltext pro VŠE](https://reader033.fdocuments.net/reader033/viewer/2022061513/56815170550346895dbfa50c/html5/thumbnails/2.jpg)
www.seznam.cz … najdu tam, co neznám !
Co dnes servírujeme?
• Jak měřit kvalitu fulltextu?Jak se srovnávat s konkurencí?Jak nastavovat parametry algoritmu hledání?
• Jak funguje textový signál relevance?
• SEO pro běžné uživatele z pohledu lidí, co píší fulltext
Co byste chtěli slyšet vy?
![Page 3: Fulltext pro VŠE](https://reader033.fdocuments.net/reader033/viewer/2022061513/56815170550346895dbfa50c/html5/thumbnails/3.jpg)
www.seznam.cz … najdu tam, co neznám !
Jak tečou uživatelé internetem?
• Internet a odkazy jsou jako dálnice – co dělá běžný uživatel z pohledu mimozemšťana?
• Kde každý začíná?– homepage, fulltext, znám adresu
• Máte webový portál, kde sehnat návštěvníky?– postavit lepší přípojku z dálnice (SEO)– reklama
![Page 4: Fulltext pro VŠE](https://reader033.fdocuments.net/reader033/viewer/2022061513/56815170550346895dbfa50c/html5/thumbnails/4.jpg)
www.seznam.cz … najdu tam, co neznám !
Znovu objevení kola
![Page 5: Fulltext pro VŠE](https://reader033.fdocuments.net/reader033/viewer/2022061513/56815170550346895dbfa50c/html5/thumbnails/5.jpg)
www.seznam.cz … najdu tam, co neznám !
Seznam vs. Google
Proč Seznam vydrží?
![Page 6: Fulltext pro VŠE](https://reader033.fdocuments.net/reader033/viewer/2022061513/56815170550346895dbfa50c/html5/thumbnails/6.jpg)
www.seznam.cz … najdu tam, co neznám !
Příprava
Hledání
Internet
Robot
Opakování: Jak funguje Fulltext
![Page 7: Fulltext pro VŠE](https://reader033.fdocuments.net/reader033/viewer/2022061513/56815170550346895dbfa50c/html5/thumbnails/7.jpg)
www.seznam.cz … najdu tam, co neznám !
Jak měřit úspěch?
![Page 8: Fulltext pro VŠE](https://reader033.fdocuments.net/reader033/viewer/2022061513/56815170550346895dbfa50c/html5/thumbnails/8.jpg)
www.seznam.cz … najdu tam, co neznám !
Proč? Co chceme?
• Měření kvality vyhledávačů
• Srovnání Seznamu s konkurencí– Kdo je lepší? – Na kterých kategoriích?– Na kterých dotazech?– Jak popsat skupinu dotazů, kde se to děje?
• Dostaneme tip, co zlepšovat
• Měřitelnost toho, jak jsme se zlepšili
![Page 9: Fulltext pro VŠE](https://reader033.fdocuments.net/reader033/viewer/2022061513/56815170550346895dbfa50c/html5/thumbnails/9.jpg)
www.seznam.cz … najdu tam, co neznám !
Otázka pro vás:
Jak měřit kvalitu výsledků fulltextovéhohledání?
• Čistě výsledky, ne rychlost hledání, kvalitu webovky, snippetů
![Page 10: Fulltext pro VŠE](https://reader033.fdocuments.net/reader033/viewer/2022061513/56815170550346895dbfa50c/html5/thumbnails/10.jpg)
www.seznam.cz … najdu tam, co neznám !
Kalibrace
![Page 11: Fulltext pro VŠE](https://reader033.fdocuments.net/reader033/viewer/2022061513/56815170550346895dbfa50c/html5/thumbnails/11.jpg)
www.seznam.cz … najdu tam, co neznám !
Kalibrace
(navigační výsledek) Dotaz má jasnou interpretaci a stránka je oficiální stránkou (jedinečnost). q=youtube … youtube.cz
(užitečný výsledek). Stránka je hodně uspokojující, vyčerpávající výklad, vysoká kvalita,důvěryhodný zdroj. q=houby … atlashub.cz
(dobrý výsledek). q=harry potter … knihy.cz/prodej/harry-potter
(blbý výsledek). Sice je to k tématu, ale není užitečné (málo informací, staré info, příliš obecné). q=praha … zoopraha.cz
(výsledek mimo mísu). Výsledek obsahuje hledaná slova, ale tématicky je mimo. q=houby … „je to na houby“
(užitečný výsledek) Stránka je hodně uspokojující, vyčerpávající výklad, vysoká kvalita,důvěryhodný zdroj. q=houby … atlashub.cz
(dobrý výsledek) q=harry potter … knihy.cz/prodej/harry-potter
(blbý výsledek) Sice je to k tématu, ale není užitečné (málo informací, staré info, příliš obecné). q=praha … zoopraha.cz
(výsledek mimo mísu) Výsledek obsahuje hledaná slova, ale tématicky je mimo. q=houby … „je to na houby“
![Page 12: Fulltext pro VŠE](https://reader033.fdocuments.net/reader033/viewer/2022061513/56815170550346895dbfa50c/html5/thumbnails/12.jpg)
www.seznam.cz … najdu tam, co neznám !
Kalibrace
Výběr dotazů
Sociodemo kalibrátorů
•Porozumění dotazu •Kvalifikace pro zhodnocení kvality•Muži vs. ženy (fotbal x parfémy)•Puberťáci vs. důchodci (q=hudba)
![Page 13: Fulltext pro VŠE](https://reader033.fdocuments.net/reader033/viewer/2022061513/56815170550346895dbfa50c/html5/thumbnails/13.jpg)
![Page 14: Fulltext pro VŠE](https://reader033.fdocuments.net/reader033/viewer/2022061513/56815170550346895dbfa50c/html5/thumbnails/14.jpg)
![Page 15: Fulltext pro VŠE](https://reader033.fdocuments.net/reader033/viewer/2022061513/56815170550346895dbfa50c/html5/thumbnails/15.jpg)
![Page 16: Fulltext pro VŠE](https://reader033.fdocuments.net/reader033/viewer/2022061513/56815170550346895dbfa50c/html5/thumbnails/16.jpg)
www.seznam.cz … najdu tam, co neznám !
Přínosy• Zrychlení a flexibilita v nastavování parametrů
fulltextu
• Rozhodování se na základě reálných dat
• Rychlejší vývoj a testování změn relevance fulltextu (prototypy úprav).
• Přenesení práce na externí kalibrátory
• Bonzování, co jsou nepovedené dotazy a jejich následné sledování -- víme na co se zaměřit
• Včas zjistíme, jak se zlepšila konkurence, co provedli -- můžeme je včas dohnat
![Page 17: Fulltext pro VŠE](https://reader033.fdocuments.net/reader033/viewer/2022061513/56815170550346895dbfa50c/html5/thumbnails/17.jpg)
www.seznam.cz … najdu tam, co neznám !
Závěr k měření kvality
• Rozhodování se podle faktů ne názorů
• Je to první důležitý krok, další musí následovat
• Potřebujeme naslouchat všem uživatelům a ne jen pár vyvoleným (kalibrátorům)
![Page 18: Fulltext pro VŠE](https://reader033.fdocuments.net/reader033/viewer/2022061513/56815170550346895dbfa50c/html5/thumbnails/18.jpg)
www.seznam.cz … najdu tam, co neznám !
Automatické ladění parametrů fulltextu
![Page 19: Fulltext pro VŠE](https://reader033.fdocuments.net/reader033/viewer/2022061513/56815170550346895dbfa50c/html5/thumbnails/19.jpg)
www.seznam.cz … najdu tam, co neznám !
Jak nastavit parametry na optimum?
Výdej výsledků
Data
Data
Data
Data
parametry
![Page 20: Fulltext pro VŠE](https://reader033.fdocuments.net/reader033/viewer/2022061513/56815170550346895dbfa50c/html5/thumbnails/20.jpg)
www.seznam.cz … najdu tam, co neznám !
Historie ladění parametrů v Seznamu
• Od oka – nějak nastavit parametry a pak to nějak zkoumat– ve více lidech od oka, pak se hádáme– každý dodá dotazy, kde jsme lepší, horší, beze změny
• Využití kalibrací a měření kvality fulltextu– Ručně nastavovat, ale hned vidím kvalitu (i dotazy, na
kterých to drhne)
• Automatické nastavování vah
![Page 21: Fulltext pro VŠE](https://reader033.fdocuments.net/reader033/viewer/2022061513/56815170550346895dbfa50c/html5/thumbnails/21.jpg)
www.seznam.cz … najdu tam, co neznám !
Nastavovače vah
![Page 22: Fulltext pro VŠE](https://reader033.fdocuments.net/reader033/viewer/2022061513/56815170550346895dbfa50c/html5/thumbnails/22.jpg)
www.seznam.cz … najdu tam, co neznám !
Nastavovače vah
![Page 23: Fulltext pro VŠE](https://reader033.fdocuments.net/reader033/viewer/2022061513/56815170550346895dbfa50c/html5/thumbnails/23.jpg)
www.seznam.cz … najdu tam, co neznám !
Otázka pro vás:
Jak odstranit bottle neck?
Nastavování vah je pomalé, protožekdyž změníme parametry, tak se musímepro všechny nakalibrované dotazy zeptatfulltextu na nové pořadí výsledků.
Fulltext
Nastavovač
User
80 strojů
![Page 24: Fulltext pro VŠE](https://reader033.fdocuments.net/reader033/viewer/2022061513/56815170550346895dbfa50c/html5/thumbnails/24.jpg)
www.seznam.cz … najdu tam, co neznám !
Textový signál relevance
![Page 25: Fulltext pro VŠE](https://reader033.fdocuments.net/reader033/viewer/2022061513/56815170550346895dbfa50c/html5/thumbnails/25.jpg)
www.seznam.cz … najdu tam, co neznám !
Textový signál relevance
• Je to názorná ukázka evoluce 1 signálu
• Uslyšíte, jak to funguje hledání v textech na vašich stránkách (to můžete ovlivnit)
![Page 26: Fulltext pro VŠE](https://reader033.fdocuments.net/reader033/viewer/2022061513/56815170550346895dbfa50c/html5/thumbnails/26.jpg)
www.seznam.cz … najdu tam, co neznám !
Vývojové generace TXT signálu
• Jen slova z dotazu, přesná shoda tvaru– Jen 50% relevantních dokumentů obsahuje slova z
dotazu.
![Page 27: Fulltext pro VŠE](https://reader033.fdocuments.net/reader033/viewer/2022061513/56815170550346895dbfa50c/html5/thumbnails/27.jpg)
www.seznam.cz … najdu tam, co neznám !
Vývojové generace TXT signálu
• Přidání lemmatizace slov
• Různé váhy slov podle výskytiště (H1, URL, Title, odstavec, bold, …)
• Příklady vtipné lematizace:– Stát, ženu, lov lína, barum, jizdní rady, dog
![Page 28: Fulltext pro VŠE](https://reader033.fdocuments.net/reader033/viewer/2022061513/56815170550346895dbfa50c/html5/thumbnails/28.jpg)
www.seznam.cz … najdu tam, co neznám !
Vývojové generace TXT signálu
• Různé váhy slov podle jejich korpusové četnosti– tf x idf– vynechávání slov
Příklad dotazů: Petr a Pavel, Jak se odstraňuje vosí hnízdo?
![Page 29: Fulltext pro VŠE](https://reader033.fdocuments.net/reader033/viewer/2022061513/56815170550346895dbfa50c/html5/thumbnails/29.jpg)
www.seznam.cz … najdu tam, co neznám !
Otázka pro vás:• Máte 3-slovný dotaz. Je lepší, když
se slova z dotazu najdou blíže u sebea nebo je to jedno?
![Page 30: Fulltext pro VŠE](https://reader033.fdocuments.net/reader033/viewer/2022061513/56815170550346895dbfa50c/html5/thumbnails/30.jpg)
www.seznam.cz … najdu tam, co neznám !
Vývojové generace TXT signálu
• Proximita a pořadí slov z dotazu
• Příklady:– Jakub Černý x Černý Jakub– Václav Klaus video– Já do lesa nepojedu, já do lesa nepůjdu
• Kolokace– Velký vůz, černý petr, Česká republika
![Page 31: Fulltext pro VŠE](https://reader033.fdocuments.net/reader033/viewer/2022061513/56815170550346895dbfa50c/html5/thumbnails/31.jpg)
www.seznam.cz … najdu tam, co neznám !
Vývojové generace TXT signálu
• Předzpracování dotazu– Poslechnu si uživatele a přeložím to do jazyka, ve
kterém fulltext umí vyhledávat.– Nastavení proximity, …
• Příklady:– VŠE, MŽP, IE8 (ale i naopak)– Kdy vyhořelo Národní divadlo?– (běžné otázky jako na kamaráda)
![Page 32: Fulltext pro VŠE](https://reader033.fdocuments.net/reader033/viewer/2022061513/56815170550346895dbfa50c/html5/thumbnails/32.jpg)
www.seznam.cz … najdu tam, co neznám !
Vývojové generace TXT signálu
• Doplňování slov odjinud– ze zpětných odkazů (bazén podolí)– anonymní termy
• jméno, datum, místo, video• pro odpovědi na otázky: Kdo? Kdy? Kde?
• Příklady:– Václav Klaus video– Kdy vyhořelo Národní divadlo?
![Page 33: Fulltext pro VŠE](https://reader033.fdocuments.net/reader033/viewer/2022061513/56815170550346895dbfa50c/html5/thumbnails/33.jpg)
www.seznam.cz … najdu tam, co neznám !
Další okolnosti kolem TXT signálu
• Body text extraction (BTE)• Site-wide texty (SWT)
– rozpoznání důležitosti slov podle vzhledu site– odstranění neopodstatněných nároků na důležitost
• Všechny texty v H1 apod.
• Různé chování pro různé kategorie dotazů:– Navigační– Informační– Transakční
![Page 34: Fulltext pro VŠE](https://reader033.fdocuments.net/reader033/viewer/2022061513/56815170550346895dbfa50c/html5/thumbnails/34.jpg)
www.seznam.cz … najdu tam, co neznám !
Další okolnosti kolem TXT signálu
• Desambigulace– Vyloučení nejednoznačnosti
– Řekněte mi něco o německých tancích?– Hrách vs. (o počítačových) hrách
![Page 35: Fulltext pro VŠE](https://reader033.fdocuments.net/reader033/viewer/2022061513/56815170550346895dbfa50c/html5/thumbnails/35.jpg)
www.seznam.cz … najdu tam, co neznám !
SEO
![Page 36: Fulltext pro VŠE](https://reader033.fdocuments.net/reader033/viewer/2022061513/56815170550346895dbfa50c/html5/thumbnails/36.jpg)
www.seznam.cz … najdu tam, co neznám !
Jak to funguje ve fulltextu
Uvidíte, že SEOptimalizátoři někdy vaří z vody a tvrdí blbosti. (ale hlavně že zákazník zaplatí).
Úkoly SEO:
• Pořadí výsledků – být v první 10ce výsledků
• Snippety– kvalitní popisek u výsledku– ovlivňuje to CTR výsledku
• Robot a rychlá indexace
Pozor na náklady!
Krásný web neznamená nalezitelný web! Stroje mají jiné oči.
![Page 37: Fulltext pro VŠE](https://reader033.fdocuments.net/reader033/viewer/2022061513/56815170550346895dbfa50c/html5/thumbnails/37.jpg)
www.seznam.cz … najdu tam, co neznám !
Pořadí výsledků
Mixování signálů relevance:
Kdo je lepší? Jak to míchat?
![Page 38: Fulltext pro VŠE](https://reader033.fdocuments.net/reader033/viewer/2022061513/56815170550346895dbfa50c/html5/thumbnails/38.jpg)
www.seznam.cz … najdu tam, co neznám !
Signály relevance
On page Off page User
obecnéDoména, historie, struktura stránky
Page Rank ???
tématické (k dotazu) TXT ZO ???
![Page 39: Fulltext pro VŠE](https://reader033.fdocuments.net/reader033/viewer/2022061513/56815170550346895dbfa50c/html5/thumbnails/39.jpg)
www.seznam.cz … najdu tam, co neznám !
Úspěch záleží i na samotných uživatelých
• Sice je nalákáte na svůj web, ale když se jim tam nebude líbit, tak utečou.– Relevantvní obsah– Jasná navigace– Výzva k akci– Identifikace webu: kontaktní údaje
Doporučení: • Steve Krug: Web design: Nenuťte uživatele přemýšlet!
![Page 40: Fulltext pro VŠE](https://reader033.fdocuments.net/reader033/viewer/2022061513/56815170550346895dbfa50c/html5/thumbnails/40.jpg)
www.seznam.cz … najdu tam, co neznám !
SEO - Rada
Všeho s mírou. Každá rada jde přehnat a zprasit.
Pak je to často naškodu.
Pište dobrý a užitečný web, vykašlete se na podvody. (Uznejte, že někdo může být lepší).
Rozdíl mezi SEO a praSEo.
![Page 41: Fulltext pro VŠE](https://reader033.fdocuments.net/reader033/viewer/2022061513/56815170550346895dbfa50c/html5/thumbnails/41.jpg)
www.seznam.cz … najdu tam, co neznám !
SEO – On page faktory
• Volba klíčových slov– Nástroje pro analýzu klíčových slov
(Sklik, AdWords, …)– Statistiky Seznamu– Long tail
• Copywriting
• Titulek, URL, nadpisy, alt
• Meta description, katalogový popisek
![Page 42: Fulltext pro VŠE](https://reader033.fdocuments.net/reader033/viewer/2022061513/56815170550346895dbfa50c/html5/thumbnails/42.jpg)
www.seznam.cz … najdu tam, co neznám !
SEO – Off page faktory
• Zpětné odkazy– Interní x externí– Důležitý je text odkazu, zohledňuje se i okolí– Tématická podobnost odkazované stránky
• Odkazová síť– Page rank
![Page 43: Fulltext pro VŠE](https://reader033.fdocuments.net/reader033/viewer/2022061513/56815170550346895dbfa50c/html5/thumbnails/43.jpg)
www.seznam.cz … najdu tam, co neznám !
SEO - Snippety
• Ovlivňují proklikovost výsledku
• Jejich cíl: – Ve dvou větách ukázat, o čem je váš web– Ukázat v jakých souvislostech se nalezla slova
z dotazu
• Kde se berou texty snippetu?– Title, URL– Meta description– Text stránky
![Page 44: Fulltext pro VŠE](https://reader033.fdocuments.net/reader033/viewer/2022061513/56815170550346895dbfa50c/html5/thumbnails/44.jpg)
www.seznam.cz … najdu tam, co neznám !
SEO - Robot
• 1. krok je, aby se vaše stránka dostala do indexu.
• Přidání URL do hledání (na webu fulltextu)
• Jak pomoci robotům?– Sitemap.xml
• Jak jim něco povolit a něco zakázat?– Robots.txt
• Redirekty, 404, …
![Page 45: Fulltext pro VŠE](https://reader033.fdocuments.net/reader033/viewer/2022061513/56815170550346895dbfa50c/html5/thumbnails/45.jpg)
www.seznam.cz … najdu tam, co neznám !
Black hat SEO
Za účelem podvádět (spam)– Skryté odkazy a texty– MFA– Doorway pages– Link farmy– Krádeže obsahu– Další
Hrozí penalizace.
![Page 46: Fulltext pro VŠE](https://reader033.fdocuments.net/reader033/viewer/2022061513/56815170550346895dbfa50c/html5/thumbnails/46.jpg)
www.seznam.cz … najdu tam, co neznám !
SEO - báchorky
• Důležitost domény, URL
• Vyšší Srank znamená vyšší pozici ve výsledcích
• Validní stránky mají vyšší pozici
• …
• A co dál? Ptejte se.
![Page 47: Fulltext pro VŠE](https://reader033.fdocuments.net/reader033/viewer/2022061513/56815170550346895dbfa50c/html5/thumbnails/47.jpg)
www.seznam.cz … najdu tam, co neznám !
Děkuji za pozornost.