3. Главный вопрос смерти, жизни и всего такого...
1. Сколько нужно раз поспамить фразой
2. Как спамить, чтобы не заспамить
3. Какой размер текста нужно разместить на странице
4. Как найти LSI фразы
5. Как проверить воду в тексте
4. Статистический подход к ответу на вопросы
1) Построить распределение метрик своих конкурентов в выдаче.
2) Исключить аномалии отсечением хвостов по "правилу трех сигм"
(анализируя тем самым 68%, 95% или 99% процентов выборки, "three-sigma
rule" или "68–95–99 rule" и тем самым уберем из рекомендации "Титанов",
которые могут позволить себе слабую релевантность или же переспам)
3) Составить рекомендационную базу, содержащую:
* диапазон релевантности ключу
* диапазон приемлемой длины текста
* список LSI-слов и вероятностей их употреблений у конкурентов
6. Релевантность
● Нужно контролировать переспам
● Контролировать страницы с низкой релевантностью
● Число в любой из формул ничего не значит, нужно сравнивать с
конкурентами
● Из-за большого количества факторов, невозможно провести reverse
engineering
● Нужны "веса слов"
7. Насколько релевантны страницы в ТОП?
Регион: США
Количество страниц:10к+
ВЧ-СЧ фразы
Цель: Найти дисперсию текстовой релевантности в ТОП 10
Что сделали: Посчитали среднюю релевантность в ТОП10 по каждой фразе
и разницу между средним значением и значением каждой страницы
10. Выводы
Релевантность в ТОПе сконцентрирована возле среднего значения, в рунете
- намного больше аномалий
Сколько нужно вхождений : +- 30% от средней релевантности в топе
Сделить за переспамом можно с помощью % отклоненея от среднего в ТОПе
В информационной тематике дисперсия релевантности больше, чем в
коммерческой, т.е. следить стоит больше за коммерческими запросами
11. Аномалии в релевантности
Регион: США
Количество страниц:10к+
ВЧ-СЧ фразы
Цель: найти сайты в топе с низкой текстовый релевантностью
12. Страницы в ТОП с низкой релевантностью
● Youtube/wiki/quora
● Трастовые большие ресурсы bbc/forbes/amazon/newegg.com
● Каталоги
● Категория товаров без текста https://losangeles.craigslist.org/search/mcy
14. Как наполнить страницу релевантной семантикой,
и как понять что нужно изменить странице?
Ответ: Статистический Анализ Конкурентов (ведь они попали в топ)
Проблемы:
* Как спарсить “чистый” текст со всех страниц из топа (без "шапок",
комментов и пр.)
* Нужно ли использовать все страницы в выдаче для анализа (Поиск
своей тематики и анализ конкурентов из этой группы)
* Какие именно слова советовать (Какие слова важны? СПОЙЛЕР:
простой фильтр стоп слов не поможет)
16. В чем сложность
● Шум: Брендовые фразы, стоп-слова
● В SERP несколько интентов
● Страницы в одном кластере на разных языках
● Страницы разных тематик в одном кластере
● Анализ только текстовой составляющей [без навигации, хлебных крошек
и пр.]
17. Решение: CF-TF-IDF ранжирование
CF - как часто слово встречается в тематике,
TF - встречаемость в каждом тексте из тематики
IDF - информативность слова [контролирует стоп слова]
18. Слова Определяющие Тематику - LSI слова
TF - Cлова:
your - 141
the - 117
to - 93
and - 81
you - 69
a - 59
of - 55
on - 37
with - 36
be - 36
TF - без стоп-слов:
back - 22
body - 13
fat - 13
legs - 12
down - 11
who - 11
abs - 10
ups - 9
start - 8
hand - 7
TF-IDF-CDF:
abs - 8.8
muscles - 7.19
back - 7.17
legs - 6.87
fat - 6.7
body - 6.66
exercise - 5.19
diet - 4.74
weight - 4.69
training - 4.36
Лемматизация - приведение слова к нормальной форме.
Ссылка: https://github.com/nltk/nltk
19. Строим выводы на основе Статистического
Анализа Конкурентов: LSI - Chance - Status
LSI - % значимость, Chance - % конкурентов в выдаче, Status - вхождение
https://static.tildacdn.com/tild6437-3430-4137-b130-666434343865__chrome_201
20. Выборка
Разделили кластеры, на два типа :
1. для обучения
2. для проверки
Проверили сколько рекомендованных слов содержит вторая выборка
21. Покрытие значимыми словами ТОПа
(Коммерческие)
51% конкурентов покрыт словами из нашей ТА > больше чем на 90%
22. Покрытие значимыми словами ТОПа
(Информационные)
54% конкурентов покрыт словами из нашей ТА > больше чем на 90%
25. Размер текста по коммерческим запросам
avg: 440 слов
med: 270 слов
2 sigma: от 60 - до 690 слов
от 400 - до 2500 Символов
26. Размер текста по инфо. запросам
avg: 950
med: 420
2 sigma: 110 - до 1580 слов
от 700 - до 6000 символов
27. Полезные либы для работы с текстами
Парсинг текста - breadability - https://github.com/bookieio/breadability
классификатор языка
https://github.com/saffsd/langid.py
лемматизаторы
английский - http://www.clips.ua.ac.be/pages/pattern-en