Хиврин - Алгоритмы выявления Seo ссылок
-
Upload
seo-conference -
Category
Internet
-
view
65 -
download
2
Transcript of Хиврин - Алгоритмы выявления Seo ссылок
![Page 1: Хиврин - Алгоритмы выявления Seo ссылок](https://reader031.fdocuments.net/reader031/viewer/2022030207/58a91b681a28ab6f508b4889/html5/thumbnails/1.jpg)
Николай Хиврин, CEO MegaIndex
Алгоритмы выявления SEO-ссылок
![Page 2: Хиврин - Алгоритмы выявления Seo ссылок](https://reader031.fdocuments.net/reader031/viewer/2022030207/58a91b681a28ab6f508b4889/html5/thumbnails/2.jpg)
Актуальность проблемы
- Минимизация учета SEO-ссылок - Минусинск
![Page 3: Хиврин - Алгоритмы выявления Seo ссылок](https://reader031.fdocuments.net/reader031/viewer/2022030207/58a91b681a28ab6f508b4889/html5/thumbnails/3.jpg)
Актуальные проблемы
- классификация сайтов - определение тематики - классификация документов - анализ документа - анализ графа ссылок - анализ внешних показателей - зеркала
![Page 4: Хиврин - Алгоритмы выявления Seo ссылок](https://reader031.fdocuments.net/reader031/viewer/2022030207/58a91b681a28ab6f508b4889/html5/thumbnails/4.jpg)
![Page 5: Хиврин - Алгоритмы выявления Seo ссылок](https://reader031.fdocuments.net/reader031/viewer/2022030207/58a91b681a28ab6f508b4889/html5/thumbnails/5.jpg)
Deep learning
- набор алгоритмов машинного обучения, которые пытаются моделировать высокоуровневые абстракции в данных, используя архитектуры, состоящие из множества нелинейных трансформаций
![Page 6: Хиврин - Алгоритмы выявления Seo ссылок](https://reader031.fdocuments.net/reader031/viewer/2022030207/58a91b681a28ab6f508b4889/html5/thumbnails/6.jpg)
Применение
- распознавание изображений- распознавание смысла текста- определение коммерческих факторов- расширение запроса- подсказкии т.д.
![Page 7: Хиврин - Алгоритмы выявления Seo ссылок](https://reader031.fdocuments.net/reader031/viewer/2022030207/58a91b681a28ab6f508b4889/html5/thumbnails/7.jpg)
Векторные представления слов (word embeddings)
W: words -> Rn
W(“пластиковые”) = (0.1,0.3,-0.2,0.7,…)W(“окна”) = (0.0,0.1,0.5,0.1,…)Обычно, функция определяется матрицей
![Page 8: Хиврин - Алгоритмы выявления Seo ссылок](https://reader031.fdocuments.net/reader031/viewer/2022030207/58a91b681a28ab6f508b4889/html5/thumbnails/8.jpg)
Функция корректности N-грамм
![Page 9: Хиврин - Алгоритмы выявления Seo ссылок](https://reader031.fdocuments.net/reader031/viewer/2022030207/58a91b681a28ab6f508b4889/html5/thumbnails/9.jpg)
Word2vec
- вычисление расстояний между словами
https://code.google.com/archive/p/word2vec/
![Page 10: Хиврин - Алгоритмы выявления Seo ссылок](https://reader031.fdocuments.net/reader031/viewer/2022030207/58a91b681a28ab6f508b4889/html5/thumbnails/10.jpg)
Word2vec
![Page 11: Хиврин - Алгоритмы выявления Seo ссылок](https://reader031.fdocuments.net/reader031/viewer/2022030207/58a91b681a28ab6f508b4889/html5/thumbnails/11.jpg)
Word2vec
![Page 12: Хиврин - Алгоритмы выявления Seo ссылок](https://reader031.fdocuments.net/reader031/viewer/2022030207/58a91b681a28ab6f508b4889/html5/thumbnails/12.jpg)
Новые подходы к проверке орфографии
- обучение на текстах с высоким уровнем доверия- автоматическая подстройка алгоритма
![Page 13: Хиврин - Алгоритмы выявления Seo ссылок](https://reader031.fdocuments.net/reader031/viewer/2022030207/58a91b681a28ab6f508b4889/html5/thumbnails/13.jpg)
Векторное представление документов
Векторная модель (vector space model) представление коллекции документов векторами из одного общего для всей коллекции векторного пространства
![Page 14: Хиврин - Алгоритмы выявления Seo ссылок](https://reader031.fdocuments.net/reader031/viewer/2022030207/58a91b681a28ab6f508b4889/html5/thumbnails/14.jpg)
Классификация сайтов
1.Каталоги сайтов2.Порталы и работе, отзывах3.Новостные порталы4.Форумы5.Блоги6.Контент-проекты7.Бизнес-сайты
![Page 15: Хиврин - Алгоритмы выявления Seo ссылок](https://reader031.fdocuments.net/reader031/viewer/2022030207/58a91b681a28ab6f508b4889/html5/thumbnails/15.jpg)
GBRT (Gradient Boosted Regression Trees)
![Page 16: Хиврин - Алгоритмы выявления Seo ссылок](https://reader031.fdocuments.net/reader031/viewer/2022030207/58a91b681a28ab6f508b4889/html5/thumbnails/16.jpg)
Стандартные алгоритмы
1.PageRank2.HITS (Hyperlink Induced Topic Search)3.LSI (Latent Semantic Indexing)4.LDA (Latent Dirichlet Allocation)5.Обучаемые нейронные сети
![Page 17: Хиврин - Алгоритмы выявления Seo ссылок](https://reader031.fdocuments.net/reader031/viewer/2022030207/58a91b681a28ab6f508b4889/html5/thumbnails/17.jpg)
Алгоритм LDA
![Page 18: Хиврин - Алгоритмы выявления Seo ссылок](https://reader031.fdocuments.net/reader031/viewer/2022030207/58a91b681a28ab6f508b4889/html5/thumbnails/18.jpg)
Применение LDA:
- определение тематики сайта/документа - выявление коммерческих/некоммерческих сайтов
![Page 19: Хиврин - Алгоритмы выявления Seo ссылок](https://reader031.fdocuments.net/reader031/viewer/2022030207/58a91b681a28ab6f508b4889/html5/thumbnails/19.jpg)
![Page 20: Хиврин - Алгоритмы выявления Seo ссылок](https://reader031.fdocuments.net/reader031/viewer/2022030207/58a91b681a28ab6f508b4889/html5/thumbnails/20.jpg)
https://ru.megaindex.com/a/tcategories
![Page 21: Хиврин - Алгоритмы выявления Seo ссылок](https://reader031.fdocuments.net/reader031/viewer/2022030207/58a91b681a28ab6f508b4889/html5/thumbnails/21.jpg)
Page Rank и Trust Rank
![Page 22: Хиврин - Алгоритмы выявления Seo ссылок](https://reader031.fdocuments.net/reader031/viewer/2022030207/58a91b681a28ab6f508b4889/html5/thumbnails/22.jpg)
Анализ ссылок по ТОПам
![Page 23: Хиврин - Алгоритмы выявления Seo ссылок](https://reader031.fdocuments.net/reader031/viewer/2022030207/58a91b681a28ab6f508b4889/html5/thumbnails/23.jpg)
![Page 24: Хиврин - Алгоритмы выявления Seo ссылок](https://reader031.fdocuments.net/reader031/viewer/2022030207/58a91b681a28ab6f508b4889/html5/thumbnails/24.jpg)
Проблемы ссылочных доноров
- плохой контент - плохой профиль внешних ссылок - спам в исходящих ссылках
![Page 25: Хиврин - Алгоритмы выявления Seo ссылок](https://reader031.fdocuments.net/reader031/viewer/2022030207/58a91b681a28ab6f508b4889/html5/thumbnails/25.jpg)
Контент
- наличие блоков рекламных сетей - малый трафик - неуникальный контент
![Page 26: Хиврин - Алгоритмы выявления Seo ссылок](https://reader031.fdocuments.net/reader031/viewer/2022030207/58a91b681a28ab6f508b4889/html5/thumbnails/26.jpg)
Поиск зеркал и неуникального контента
- хеширование шинглов - использование MinHash, SimHash
![Page 27: Хиврин - Алгоритмы выявления Seo ссылок](https://reader031.fdocuments.net/reader031/viewer/2022030207/58a91b681a28ab6f508b4889/html5/thumbnails/27.jpg)
Вычисление Hash
![Page 28: Хиврин - Алгоритмы выявления Seo ссылок](https://reader031.fdocuments.net/reader031/viewer/2022030207/58a91b681a28ab6f508b4889/html5/thumbnails/28.jpg)
MinHash
![Page 29: Хиврин - Алгоритмы выявления Seo ссылок](https://reader031.fdocuments.net/reader031/viewer/2022030207/58a91b681a28ab6f508b4889/html5/thumbnails/29.jpg)
MinHash
![Page 30: Хиврин - Алгоритмы выявления Seo ссылок](https://reader031.fdocuments.net/reader031/viewer/2022030207/58a91b681a28ab6f508b4889/html5/thumbnails/30.jpg)
Спам в исходящих ссылках
- текучка исходящих ссылок - распределение тематик сайтов акцепторов - распределение по анкорам - расположение ссылок в документах - отношение числа уникальных ссылок и акцепторов к числу страниц
![Page 31: Хиврин - Алгоритмы выявления Seo ссылок](https://reader031.fdocuments.net/reader031/viewer/2022030207/58a91b681a28ab6f508b4889/html5/thumbnails/31.jpg)
Плохой профиль внешних ссылок
- отношение ссылающихся IP к числу подсетей - отношение Trust Rank и Page Rank - динамика внешних ссылок
![Page 32: Хиврин - Алгоритмы выявления Seo ссылок](https://reader031.fdocuments.net/reader031/viewer/2022030207/58a91b681a28ab6f508b4889/html5/thumbnails/32.jpg)
Вопросы
Николай ХивринCEO MegaIndex (https://megaindex.com/)
https://facebook.com/khivrin