Олег Саламаха. Текстовая аналитика

Текстовая аналитика
Саламаха Олег
Serpstat

Главный вопрос смерти, жизни и всего такого...
1. Сколько нужно раз поспамить фразой
2. Как спамить, чтобы не заспамить
3. Какой размер текста нужно разместить на странице
4. Как найти LSI фразы
5. Как проверить воду в тексте

Статистический подход к ответу на вопросы
1) Построить распределение метрик своих конкурентов в выдаче.
2) Исключить аномалии отсечением хвостов по "правилу трех сигм"
(анализируя тем самым 68%, 95% или 99% процентов выборки, "three-sigma
rule" или "68–95–99 rule" и тем самым уберем из рекомендации "Титанов",
которые могут позволить себе слабую релевантность или же переспам)
3) Составить рекомендационную базу, содержащую:
* диапазон релевантности ключу
* диапазон приемлемой длины текста
* список LSI-слов и вероятностей их употреблений у конкурентов

Подход к измерению релевантности

Релевантность
● Нужно контролировать переспам
● Контролировать страницы с низкой релевантностью
● Число в любой из формул ничего не значит, нужно сравнивать с
конкурентами
● Из-за большого количества факторов, невозможно провести reverse
engineering
● Нужны "веса слов"

Насколько релевантны страницы в ТОП?
Регион: США
Количество страниц:10к+
ВЧ-СЧ фразы
Цель: Найти дисперсию текстовой релевантности в ТОП 10
Что сделали: Посчитали среднюю релевантность в ТОП10 по каждой фразе
и разницу между средним значением и значением каждой страницы

Распределение релевантности по коммерческим
запросам

Распределение релевантности по
информационны запросам

Выводы
Релевантность в ТОПе сконцентрирована возле среднего значения, в рунете
- намного больше аномалий
Сколько нужно вхождений : +- 30% от средней релевантности в топе
Сделить за переспамом можно с помощью % отклоненея от среднего в ТОПе
В информационной тематике дисперсия релевантности больше, чем в
коммерческой, т.е. следить стоит больше за коммерческими запросами

Аномалии в релевантности
Количество страниц:10к+
ВЧ-СЧ фразы
Цель: найти сайты в топе с низкой текстовый релевантностью

Страницы в ТОП с низкой релевантностью
● Youtube/wiki/quora
● Трастовые большие ресурсы bbc/forbes/amazon/newegg.com
● Каталоги
● Категория товаров без текста https://losangeles.craigslist.org/search/mcy

Топ 10 нерелевантных доменов

Как наполнить страницу релевантной семантикой,
и как понять что нужно изменить странице?
Ответ: Статистический Анализ Конкурентов (ведь они попали в топ)
Проблемы:
* Как спарсить “чистый” текст со всех страниц из топа (без "шапок",
комментов и пр.)
* Нужно ли использовать все страницы в выдаче для анализа (Поиск
своей тематики и анализ конкурентов из этой группы)
* Какие именно слова советовать (Какие слова важны? СПОЙЛЕР:
простой фильтр стоп слов не поможет)

Поиск рекомендуемых слов
Значимые слова у конкурентов
-
Слова которые уже есть у нас
=
Рекомендации

В чем сложность
● Шум: Брендовые фразы, стоп-слова
● В SERP несколько интентов
● Страницы в одном кластере на разных языках
● Страницы разных тематик в одном кластере
● Анализ только текстовой составляющей [без навигации, хлебных крошек
и пр.]

Решение: CF-TF-IDF ранжирование
CF - как часто слово встречается в тематике,
TF - встречаемость в каждом тексте из тематики
IDF - информативность слова [контролирует стоп слова]

Слова Определяющие Тематику - LSI слова
TF - Cлова:
your - 141
the - 117
to - 93
and - 81
you - 69
a - 59
of - 55
on - 37
with - 36
be - 36
TF - без стоп-слов:
back - 22
body - 13
fat - 13
legs - 12
down - 11
who - 11
abs - 10
ups - 9
start - 8
hand - 7
TF-IDF-CDF:
abs - 8.8
muscles - 7.19
back - 7.17
legs - 6.87
fat - 6.7
body - 6.66
exercise - 5.19
diet - 4.74
weight - 4.69
training - 4.36
Лемматизация - приведение слова к нормальной форме.
Ссылка: https://github.com/nltk/nltk

Строим выводы на основе Статистического
Анализа Конкурентов: LSI - Chance - Status
LSI - % значимость, Chance - % конкурентов в выдаче, Status - вхождение
https://static.tildacdn.com/tild6437-3430-4137-b130-666434343865__chrome_201

Выборка
Разделили кластеры, на два типа :
1. для обучения
2. для проверки
Проверили сколько рекомендованных слов содержит вторая выборка

Покрытие значимыми словами ТОПа
(Коммерческие)
51% конкурентов покрыт словами из нашей ТА > больше чем на 90%

Покрытие значимыми словами ТОПа
(Информационные)
54% конкурентов покрыт словами из нашей ТА > больше чем на 90%

Размеры контента
Ссылка: https://github.com/buriy/python-readability

Данные выборок
Количество сайтов:10к+
Коммерческие фразы
Цель: Найти среднюю длину текстового блока на коммерческих страницах

Размер текста по коммерческим запросам
avg: 440 слов
med: 270 слов
2 sigma: от 60 - до 690 слов
от 400 - до 2500 Символов

Размер текста по инфо. запросам
avg: 950
med: 420
2 sigma: 110 - до 1580 слов
от 700 - до 6000 символов

Полезные либы для работы с текстами
Парсинг текста - breadability - https://github.com/bookieio/breadability
классификатор языка
https://github.com/saffsd/langid.py
лемматизаторы
английский - http://www.clips.ua.ac.be/pages/pattern-en

Вопросы?
Олег Саламаха
Facebook
Serpstat.com

Олег Саламаха. Текстовая аналитика

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Олег Саламаха. Текстовая аналитика

Similar to Олег Саламаха. Текстовая аналитика (20)

More from Дмитрий Шахов

More from Дмитрий Шахов (17)

Олег Саламаха. Текстовая аналитика