Алгоритм Hilltop
Transcript of Алгоритм Hilltop
http://www10.org/cdrom/papers/pdf/p474.pdf Using Non-Affiliated Experts to Rank Popular Topics
http://www.websiteboosting.com/amaghti/Reengineering.pdf Reengineering Google ́s Hilltop Algorithm
http://wseob.ru/seo/hilltop Перевод на русский
Источники
История7 • В 2001 первая публикация и патент
• В 2003 Google выкатил Hilltop в обновлении "Florida"
• По значимости такой же резонансный, как Panda в 2011 и Penguin в 2012
Недостатки RageRank• Считает запросонезависимый рейтинг сайта
• Не выделяет авторитетов в конкретной тематике
• Легко накручивается сеошниками
Новостник (PR > 6) d Туры в Египет
Донор может не являться авторитетом в турах и тем более в Египет.
анкорная ссылка
Topic Distillation• Ссылочный граф формируют только тематические документы
• Подобно PageRank расчитывается авторитет
• Учитывается, насколько хорош источник ссылки
• Сам анкор ссылки не учитывается
• Авторитетный документ может не попасть в начальное множество
• Сложно считать рейтинг в реальном времени
Hilltop• Гипотеза 1: Тематические документы ссылаются друг на друга
• Гипотеза 2: Авторитетные страницы ссылаются на другие авторитетные страницы
• По сравнению с Topic Distillation рассматриваются толькомнения "экспертов".
• Рейтинг документа зависит от коллективного мнения лучших экспертов по теме.
• При отсутствии экспертов по запросу, Hilltop не дает результатов.
Группа тематических сайтов
d1
d2 Авторитетные страницы ссылаются на другие авторитетные страницы
х
PR=10
Экспертные документы• Эксперты ссылаются минимум на k (k=5) других
неаффилированных сайтов по теме
• Сначала формируется список из N (N=200) экспертов, наиболее релевантных запросу
• Вычисляется значимость эксперта
S(i) = SUM( LevelScore(p) * FullnessFactor(p, q) )фразы p с k-i словами
LevelScore <TITLE> = 16 LevelScore <H1> = 6 LevelScore <a> = 1
Тайтл в 3 раза важней заголовка и намного важней текста
FullnessFactor - количество раскрытых терминовm - кол-во терминов в p, которых нет в q plen - длина p в словах
Предпочитаются эксперты, содержащие все слова из запроса
учитываются только 3 компонента
Что считается аффилиатом• Сайты в той же подсети (одинаковые 3 октета в IP-адресе)
• Сайты с одинаковым именем домена
travel.ru = travel.com = travel.co.uk
• Если сайт А является аффилиатом сайта В, а В является аффилиатом сайта С, то считается, что А и С - аффилиаты,даже если между ними нет никакой связи
Target ScoreEdge_Score(E,T) = Expert_Score(E) * Sum{query keywords w} occ(k, T)
Target_Score = SUM ( Edge_Scores )
occ(w, T) - количество разных фраз на E, содержащих слово wи соответствуют условиям
Выводы для сеошников• В ранжировании участвуют только тематические ссылки
• Если вы продвигаете "Туры", то донор должен быть экспертом по турам
• Если экспертов по запросу недостаточно, то алгоритм не включается
• 100 тематических ссылок из одной подсети это один эксперт
• Встречаемость запроса в тайтле намного значимей, чем в заголовках
• Окружающий текст (в этой модификации Hilltop) не помогает повысить значимость ссылки
• Чем больше слов запроса в заголовках, тайтлах и ссылках, тем лучше