Урок 9: Биграммы, пассажи - Леонид Гроховский
-
Upload
- -
Category
Technology
-
view
1.709 -
download
1
description
Transcript of Урок 9: Биграммы, пассажи - Леонид Гроховский
Биграммы, пассажиЛеонид Гроховский, руководитель учебного центра ТопЭксперт
Часть 1
Леонид Гроховский
Леонид Гроховский В SEO с 2005 года
Опыт работы – более 500 проектов, среди которых panasonic.ru, championat.com, komandirovka.ru, cian.ru, automobile.ru, rabota.ru, aforex.ru.
Работая в агентстве ArrowMedia, создал с нуля отдел SEO и вывел компанию в топ-5 рейтинга качества продвижения от SeoNews по оценке клиентов
Леонид Гроховский
ТопЭксперт – это Учебный центр по SEO с
эффективной программой обучения.
Образовательный сайт, содержащий справочную информацию.
Группа экспертов, оказывающих услуги аудита, консультаций и продвижения сайтов.
Леонид Гроховский
Миссия
Повышать квалификацию участников отрасли интернет-маркетинга, соединяя специалистов, экспертов и работодателей в образовательную среду и упорядочивая и структурируя информацию в доступные масштабируемые образовательные продукты, адаптированные для дистанционного обучения.
• Для специалистов: предоставить возможность получения доступного дистанционного профессионального образования в сфере IT.
• Для компаний: поставлять квалифицированные кадры, обучать сотрудников.
• Для экспертов: предоставить возможность экспертам быть понятыми и услышанными, способствовать повышению дохода и востребованности.
• Для технологий: создать среду для роста специалистов, способных создавать новые технологии.
Леонид Гроховский
Дать актуальную информацию о некоторых способах обработки текста
Цели вебинара
Леонид Гроховский
Биграмма
Интерпретация каждой пары последовательных терминов как фразы, представление пар как термина словаря
Леонид Гроховский
Частота биграммы
Леонид Гроховский
Область применения
- Борьба с текстовым спамом- Ранжирование документов- Статистика устойчивости словосочетаний в тексте
Леонид Гроховский
Пассажи
Пассаж – это последовательность слов заданной величины. Пассаж может быть ограничен количеством слов, знаками препинания, элементами <HTML> и даже количеством символов.
Леонид Гроховский
Применение пассажей
- Поиск информации- Определение уникальности контента- Формирование сниппетов
Леонид Гроховский
Шинглы
Шинглы (англ) — чешуйки, выделенные из статьи подпоследовательности слов. Необходимо из сравниваемых текстов выделить подпоследовательности слов, идущих друг за другом по 10 штук (длина шингла). Выборка происходит внахлест, а не встык. Таким образом, разбивая текст на подпоследовательности, мы получим набор шинглов в количестве равному количеству слов минус длина шингла плюс один (кол_во_слов — длина_шингла + 1).
Леонид Гроховский
Алгоритм шинглов
1. Канонизация текста2. Разбиение на шинглы3. Вычисление хэшей шинглов4. Случайная выборка 84 значений контрольных сумм5. Сравнение, определение результата
Леонид Гроховский
Применение шинглов
- Определение уникальности контента
Леонид Гроховский
Изучайте, внедряйте, зарабатывайте!»
Леонид Гроховский, руководитель учебного центра ТопЭксперт
• skype:grohovskiy
• http://гроховский.рф/
«