SlideShare a Scribd company logo
1 of 28
Download to read offline
Текстовая аналитика
Саламаха Олег
Serpstat
ТА в Serpstat
Главный вопрос смерти, жизни и всего такого...
1. Сколько нужно раз поспамить фразой
2. Как спамить, чтобы не заспамить
3. Какой размер текста нужно разместить на странице
4. Как найти LSI фразы
5. Как проверить воду в тексте
Статистический подход к ответу на вопросы
1) Построить распределение метрик своих конкурентов в выдаче.
2) Исключить аномалии отсечением хвостов по "правилу трех сигм"
(анализируя тем самым 68%, 95% или 99% процентов выборки, "three-sigma
rule" или "68–95–99 rule" и тем самым уберем из рекомендации "Титанов",
которые могут позволить себе слабую релевантность или же переспам)
3) Составить рекомендационную базу, содержащую:
* диапазон релевантности ключу
* диапазон приемлемой длины текста
* список LSI-слов и вероятностей их употреблений у конкурентов
Подход к измерению релевантности
Релевантность
● Нужно контролировать переспам
● Контролировать страницы с низкой релевантностью
● Число в любой из формул ничего не значит, нужно сравнивать с
конкурентами
● Из-за большого количества факторов, невозможно провести reverse
engineering
● Нужны "веса слов"
Насколько релевантны страницы в ТОП?
Регион: США
Количество страниц:10к+
ВЧ-СЧ фразы
Цель: Найти дисперсию текстовой релевантности в ТОП 10
Что сделали: Посчитали среднюю релевантность в ТОП10 по каждой фразе
и разницу между средним значением и значением каждой страницы
Распределение релевантности по коммерческим
запросам
Распределение релевантности по
информационны запросам
Выводы
Релевантность в ТОПе сконцентрирована возле среднего значения, в рунете
- намного больше аномалий
Сколько нужно вхождений : +- 30% от средней релевантности в топе
Сделить за переспамом можно с помощью % отклоненея от среднего в ТОПе
В информационной тематике дисперсия релевантности больше, чем в
коммерческой, т.е. следить стоит больше за коммерческими запросами
Аномалии в релевантности
Регион: США
Количество страниц:10к+
ВЧ-СЧ фразы
Цель: найти сайты в топе с низкой текстовый релевантностью
Страницы в ТОП с низкой релевантностью
● Youtube/wiki/quora
● Трастовые большие ресурсы bbc/forbes/amazon/newegg.com
● Каталоги
● Категория товаров без текста https://losangeles.craigslist.org/search/mcy
Топ 10 нерелевантных доменов
Как наполнить страницу релевантной семантикой,
и как понять что нужно изменить странице?
Ответ: Статистический Анализ Конкурентов (ведь они попали в топ)
Проблемы:
* Как спарсить “чистый” текст со всех страниц из топа (без "шапок",
комментов и пр.)
* Нужно ли использовать все страницы в выдаче для анализа (Поиск
своей тематики и анализ конкурентов из этой группы)
* Какие именно слова советовать (Какие слова важны? СПОЙЛЕР:
простой фильтр стоп слов не поможет)
Поиск рекомендуемых слов
Значимые слова у конкурентов
-
Слова которые уже есть у нас
=
Рекомендации
В чем сложность
● Шум: Брендовые фразы, стоп-слова
● В SERP несколько интентов
● Страницы в одном кластере на разных языках
● Страницы разных тематик в одном кластере
● Анализ только текстовой составляющей [без навигации, хлебных крошек
и пр.]
Решение: CF-TF-IDF ранжирование
CF - как часто слово встречается в тематике,
TF - встречаемость в каждом тексте из тематики
IDF - информативность слова [контролирует стоп слова]
Слова Определяющие Тематику - LSI слова
TF - Cлова:
your - 141
the - 117
to - 93
and - 81
you - 69
a - 59
of - 55
on - 37
with - 36
be - 36
TF - без стоп-слов:
back - 22
body - 13
fat - 13
legs - 12
down - 11
who - 11
abs - 10
ups - 9
start - 8
hand - 7
TF-IDF-CDF:
abs - 8.8
muscles - 7.19
back - 7.17
legs - 6.87
fat - 6.7
body - 6.66
exercise - 5.19
diet - 4.74
weight - 4.69
training - 4.36
Лемматизация - приведение слова к нормальной форме.
Ссылка: https://github.com/nltk/nltk
Строим выводы на основе Статистического
Анализа Конкурентов: LSI - Chance - Status
LSI - % значимость, Chance - % конкурентов в выдаче, Status - вхождение
https://static.tildacdn.com/tild6437-3430-4137-b130-666434343865__chrome_201
Выборка
Разделили кластеры, на два типа :
1. для обучения
2. для проверки
Проверили сколько рекомендованных слов содержит вторая выборка
Покрытие значимыми словами ТОПа
(Коммерческие)
51% конкурентов покрыт словами из нашей ТА > больше чем на 90%
Покрытие значимыми словами ТОПа
(Информационные)
54% конкурентов покрыт словами из нашей ТА > больше чем на 90%
Размеры контента
Ссылка: https://github.com/buriy/python-readability
Данные выборок
Регион: США
Количество сайтов:10к+
Коммерческие фразы
Цель: Найти среднюю длину текстового блока на коммерческих страницах
Размер текста по коммерческим запросам
avg: 440 слов
med: 270 слов
2 sigma: от 60 - до 690 слов
от 400 - до 2500 Символов
Размер текста по инфо. запросам
avg: 950
med: 420
2 sigma: 110 - до 1580 слов
от 700 - до 6000 символов
Полезные либы для работы с текстами
Парсинг текста - breadability - https://github.com/bookieio/breadability
классификатор языка
https://github.com/saffsd/langid.py
лемматизаторы
английский - http://www.clips.ua.ac.be/pages/pattern-en
Вопросы?
Олег Саламаха
Facebook
Serpstat.com

More Related Content

What's hot

Константин Солодянников. Управление Seo без головной боли
Константин Солодянников. Управление Seo без головной болиКонстантин Солодянников. Управление Seo без головной боли
Константин Солодянников. Управление Seo без головной болиДмитрий Шахов
 
Инсайты из Яндекс.Метрики - AllintopConf 2017
Инсайты из Яндекс.Метрики - AllintopConf 2017Инсайты из Яндекс.Метрики - AllintopConf 2017
Инсайты из Яндекс.Метрики - AllintopConf 2017Alexey Trudov
 
Ленар Амирханов. 8 экспериментов и исследований в SEO
Ленар Амирханов. 8 экспериментов и исследований в SEOЛенар Амирханов. 8 экспериментов и исследований в SEO
Ленар Амирханов. 8 экспериментов и исследований в SEOДмитрий Шахов
 
Топ SEO стратегии 2021: Набор полезных фишек по выбору стратегии
Топ SEO стратегии 2021: Набор полезных фишек по выбору стратегииТоп SEO стратегии 2021: Набор полезных фишек по выбору стратегии
Топ SEO стратегии 2021: Набор полезных фишек по выбору стратегииNaZapad
 
Как находить правильные сайты для анализа в любой нише
Как находить правильные сайты для анализа в любой нишеКак находить правильные сайты для анализа в любой нише
Как находить правильные сайты для анализа в любой нишеNaZapad
 
Q/A по PBN и западное SEO
Q/A по PBN и западное SEOQ/A по PBN и западное SEO
Q/A по PBN и западное SEONaZapad
 
Олег Шестаков. Лайфхаки и фишки в современном seo
Олег Шестаков. Лайфхаки и фишки в современном seoОлег Шестаков. Лайфхаки и фишки в современном seo
Олег Шестаков. Лайфхаки и фишки в современном seoДмитрий Шахов
 
Продвижение порталов и инфосайтов. Дмитрий Шахов
Продвижение порталов и инфосайтов. Дмитрий ШаховПродвижение порталов и инфосайтов. Дмитрий Шахов
Продвижение порталов и инфосайтов. Дмитрий ШаховДмитрий Шахов
 
Александр Корнилов. Про SEO в бурже
Александр Корнилов. Про SEO в буржеАлександр Корнилов. Про SEO в бурже
Александр Корнилов. Про SEO в буржеДмитрий Шахов
 
Ожгибесов Александр. Исследование качества сервисов кластеризации по поисково...
Ожгибесов Александр. Исследование качества сервисов кластеризации по поисково...Ожгибесов Александр. Исследование качества сервисов кластеризации по поисково...
Ожгибесов Александр. Исследование качества сервисов кластеризации по поисково...Дмитрий Шахов
 
Как собрать трафик из Google с минимальными усилиями
Как собрать трафик из Google с минимальными усилиямиКак собрать трафик из Google с минимальными усилиями
Как собрать трафик из Google с минимальными усилиямиAlexey Trudov
 
Евгений Костин. Широкомасштабное продвижение сайтов
Евгений Костин. Широкомасштабное продвижение сайтовЕвгений Костин. Широкомасштабное продвижение сайтов
Евгений Костин. Широкомасштабное продвижение сайтовДмитрий Шахов
 
Рутинные операции в SEO, о которых забывают и спрашивают снова и снова
Рутинные операции в SEO, о которых забывают и спрашивают снова и сноваРутинные операции в SEO, о которых забывают и спрашивают снова и снова
Рутинные операции в SEO, о которых забывают и спрашивают снова и сноваДмитрий Шахов
 
Презентация SEO - все что нужно знать про поисковую оптимизацию сайта
Презентация SEO - все что нужно знать про поисковую оптимизацию сайтаПрезентация SEO - все что нужно знать про поисковую оптимизацию сайта
Презентация SEO - все что нужно знать про поисковую оптимизацию сайтаAndrew PersonBh
 
Продвижение интернет проектов: типичные ошибки стартапов
Продвижение интернет проектов: типичные ошибки стартаповПродвижение интернет проектов: типичные ошибки стартапов
Продвижение интернет проектов: типичные ошибки стартаповAlexey Trudov
 
Поисковая аналитика DDS-2 (2016)
Поисковая аналитика DDS-2 (2016)Поисковая аналитика DDS-2 (2016)
Поисковая аналитика DDS-2 (2016)Стас Поломарь
 
Особенности поисковой оптимизации Медиапроектов Mail.Ru Group
Особенности поисковой оптимизации Медиапроектов Mail.Ru GroupОсобенности поисковой оптимизации Медиапроектов Mail.Ru Group
Особенности поисковой оптимизации Медиапроектов Mail.Ru GroupMediaprojects Mail.Ru Group
 
Станислав Поломарь, Webit,
Станислав Поломарь,  Webit,Станислав Поломарь,  Webit,
Станислав Поломарь, Webit,Movebo
 
Работают ли SEO-ссылки. Исследование.
Работают ли SEO-ссылки. Исследование.Работают ли SEO-ссылки. Исследование.
Работают ли SEO-ссылки. Исследование.Дмитрий Шахов
 
«SEO CONF 2015» 20 актуальных работ по SEO в 2015 году
«SEO CONF 2015»  20 актуальных работ по SEO в 2015 году«SEO CONF 2015»  20 актуальных работ по SEO в 2015 году
«SEO CONF 2015» 20 актуальных работ по SEO в 2015 годуSergey Yurkov
 

What's hot (20)

Константин Солодянников. Управление Seo без головной боли
Константин Солодянников. Управление Seo без головной болиКонстантин Солодянников. Управление Seo без головной боли
Константин Солодянников. Управление Seo без головной боли
 
Инсайты из Яндекс.Метрики - AllintopConf 2017
Инсайты из Яндекс.Метрики - AllintopConf 2017Инсайты из Яндекс.Метрики - AllintopConf 2017
Инсайты из Яндекс.Метрики - AllintopConf 2017
 
Ленар Амирханов. 8 экспериментов и исследований в SEO
Ленар Амирханов. 8 экспериментов и исследований в SEOЛенар Амирханов. 8 экспериментов и исследований в SEO
Ленар Амирханов. 8 экспериментов и исследований в SEO
 
Топ SEO стратегии 2021: Набор полезных фишек по выбору стратегии
Топ SEO стратегии 2021: Набор полезных фишек по выбору стратегииТоп SEO стратегии 2021: Набор полезных фишек по выбору стратегии
Топ SEO стратегии 2021: Набор полезных фишек по выбору стратегии
 
Как находить правильные сайты для анализа в любой нише
Как находить правильные сайты для анализа в любой нишеКак находить правильные сайты для анализа в любой нише
Как находить правильные сайты для анализа в любой нише
 
Q/A по PBN и западное SEO
Q/A по PBN и западное SEOQ/A по PBN и западное SEO
Q/A по PBN и западное SEO
 
Олег Шестаков. Лайфхаки и фишки в современном seo
Олег Шестаков. Лайфхаки и фишки в современном seoОлег Шестаков. Лайфхаки и фишки в современном seo
Олег Шестаков. Лайфхаки и фишки в современном seo
 
Продвижение порталов и инфосайтов. Дмитрий Шахов
Продвижение порталов и инфосайтов. Дмитрий ШаховПродвижение порталов и инфосайтов. Дмитрий Шахов
Продвижение порталов и инфосайтов. Дмитрий Шахов
 
Александр Корнилов. Про SEO в бурже
Александр Корнилов. Про SEO в буржеАлександр Корнилов. Про SEO в бурже
Александр Корнилов. Про SEO в бурже
 
Ожгибесов Александр. Исследование качества сервисов кластеризации по поисково...
Ожгибесов Александр. Исследование качества сервисов кластеризации по поисково...Ожгибесов Александр. Исследование качества сервисов кластеризации по поисково...
Ожгибесов Александр. Исследование качества сервисов кластеризации по поисково...
 
Как собрать трафик из Google с минимальными усилиями
Как собрать трафик из Google с минимальными усилиямиКак собрать трафик из Google с минимальными усилиями
Как собрать трафик из Google с минимальными усилиями
 
Евгений Костин. Широкомасштабное продвижение сайтов
Евгений Костин. Широкомасштабное продвижение сайтовЕвгений Костин. Широкомасштабное продвижение сайтов
Евгений Костин. Широкомасштабное продвижение сайтов
 
Рутинные операции в SEO, о которых забывают и спрашивают снова и снова
Рутинные операции в SEO, о которых забывают и спрашивают снова и сноваРутинные операции в SEO, о которых забывают и спрашивают снова и снова
Рутинные операции в SEO, о которых забывают и спрашивают снова и снова
 
Презентация SEO - все что нужно знать про поисковую оптимизацию сайта
Презентация SEO - все что нужно знать про поисковую оптимизацию сайтаПрезентация SEO - все что нужно знать про поисковую оптимизацию сайта
Презентация SEO - все что нужно знать про поисковую оптимизацию сайта
 
Продвижение интернет проектов: типичные ошибки стартапов
Продвижение интернет проектов: типичные ошибки стартаповПродвижение интернет проектов: типичные ошибки стартапов
Продвижение интернет проектов: типичные ошибки стартапов
 
Поисковая аналитика DDS-2 (2016)
Поисковая аналитика DDS-2 (2016)Поисковая аналитика DDS-2 (2016)
Поисковая аналитика DDS-2 (2016)
 
Особенности поисковой оптимизации Медиапроектов Mail.Ru Group
Особенности поисковой оптимизации Медиапроектов Mail.Ru GroupОсобенности поисковой оптимизации Медиапроектов Mail.Ru Group
Особенности поисковой оптимизации Медиапроектов Mail.Ru Group
 
Станислав Поломарь, Webit,
Станислав Поломарь,  Webit,Станислав Поломарь,  Webit,
Станислав Поломарь, Webit,
 
Работают ли SEO-ссылки. Исследование.
Работают ли SEO-ссылки. Исследование.Работают ли SEO-ссылки. Исследование.
Работают ли SEO-ссылки. Исследование.
 
«SEO CONF 2015» 20 актуальных работ по SEO в 2015 году
«SEO CONF 2015»  20 актуальных работ по SEO в 2015 году«SEO CONF 2015»  20 актуальных работ по SEO в 2015 году
«SEO CONF 2015» 20 актуальных работ по SEO в 2015 году
 

Similar to Олег Саламаха. Текстовая аналитика

Особенности текстовой оптимизации в 2017 году
Особенности текстовой оптимизации в 2017 годуОсобенности текстовой оптимизации в 2017 году
Особенности текстовой оптимизации в 2017 годуSergey Yurkov
 
Seo для брендов или как собрать сообщество. Кейс svitmam.ua
Seo для брендов или как собрать сообщество. Кейс svitmam.uaSeo для брендов или как собрать сообщество. Кейс svitmam.ua
Seo для брендов или как собрать сообщество. Кейс svitmam.uaАртём Гидин
 
Артур Латыпов. SEO-взгляд изнутри, где притаились проблемы?
Артур Латыпов. SEO-взгляд изнутри, где притаились проблемы?Артур Латыпов. SEO-взгляд изнутри, где притаились проблемы?
Артур Латыпов. SEO-взгляд изнутри, где притаились проблемы?Webcom Group
 
26.03.19 Collaborator.pro Webinar Эффективные паттерны выбора доноров
26.03.19 Collaborator.pro Webinar Эффективные паттерны выбора доноров26.03.19 Collaborator.pro Webinar Эффективные паттерны выбора доноров
26.03.19 Collaborator.pro Webinar Эффективные паттерны выбора доноровVladislav Morgun
 
SEO-Коучинг 4.0_Day1
SEO-Коучинг 4.0_Day1SEO-Коучинг 4.0_Day1
SEO-Коучинг 4.0_Day1seo-intellect
 
Внутренняя оптимизация: ответы на «острые» вопросы
Внутренняя оптимизация: ответы на «острые» вопросыВнутренняя оптимизация: ответы на «острые» вопросы
Внутренняя оптимизация: ответы на «острые» вопросыDigital.Tools
 
Неочевидные фишки анализа конкурентов в поиске
Неочевидные фишки анализа конкурентов в поискеНеочевидные фишки анализа конкурентов в поиске
Неочевидные фишки анализа конкурентов в поискеNetpeak
 
Аудит Anti stress.top
Аудит Anti stress.topАудит Anti stress.top
Аудит Anti stress.topkostetskiy
 
33 важных блога по веб-аналитике
33 важных блога по веб-аналитике33 важных блога по веб-аналитике
33 важных блога по веб-аналитикеНетология
 
Практический курс SEO для Bewebby, введение в SEO, семантика для сайта
Практический курс SEO для Bewebby, введение в SEO, семантика для сайтаПрактический курс SEO для Bewebby, введение в SEO, семантика для сайта
Практический курс SEO для Bewebby, введение в SEO, семантика для сайтаSEO-Интеллект
 
Илья Василенко. SEO здорового проекта: проведение аудита, составление стратег...
Илья Василенко. SEO здорового проекта: проведение аудита, составление стратег...Илья Василенко. SEO здорового проекта: проведение аудита, составление стратег...
Илья Василенко. SEO здорового проекта: проведение аудита, составление стратег...Octopus Events
 
Обратные ссылки или внутренняя оптимизация: какому потоку отдать приоритет?
Обратные ссылки или внутренняя оптимизация: какому потоку отдать приоритет?Обратные ссылки или внутренняя оптимизация: какому потоку отдать приоритет?
Обратные ссылки или внутренняя оптимизация: какому потоку отдать приоритет?NaZapad
 
Практический курс SEO для Bewebby: группировка ключевых запросов, разбивка за...
Практический курс SEO для Bewebby: группировка ключевых запросов, разбивка за...Практический курс SEO для Bewebby: группировка ключевых запросов, разбивка за...
Практический курс SEO для Bewebby: группировка ключевых запросов, разбивка за...SEO-Интеллект
 
Как делать ресерч так, чтобы с максимальной вероятностью сделать ТОП
Как делать ресерч так, чтобы с максимальной вероятностью сделать ТОПКак делать ресерч так, чтобы с максимальной вероятностью сделать ТОП
Как делать ресерч так, чтобы с максимальной вероятностью сделать ТОПNaZapad
 
Главные тренды в работе с семантикой весны 2017 (ТопЭксперт 17 марта 2017, Дм...
Главные тренды в работе с семантикой весны 2017 (ТопЭксперт 17 марта 2017, Дм...Главные тренды в работе с семантикой весны 2017 (ТопЭксперт 17 марта 2017, Дм...
Главные тренды в работе с семантикой весны 2017 (ТопЭксперт 17 марта 2017, Дм...Semantist.ru
 

Similar to Олег Саламаха. Текстовая аналитика (20)

Комплексный подход к SEO-копирайтингу в 2018 году
Комплексный подход к SEO-копирайтингу в 2018 году Комплексный подход к SEO-копирайтингу в 2018 году
Комплексный подход к SEO-копирайтингу в 2018 году
 
Особенности текстовой оптимизации в 2017 году
Особенности текстовой оптимизации в 2017 годуОсобенности текстовой оптимизации в 2017 году
Особенности текстовой оптимизации в 2017 году
 
Seo для брендов или как собрать сообщество. Кейс svitmam.ua
Seo для брендов или как собрать сообщество. Кейс svitmam.uaSeo для брендов или как собрать сообщество. Кейс svitmam.ua
Seo для брендов или как собрать сообщество. Кейс svitmam.ua
 
Артур Латыпов. SEO-взгляд изнутри, где притаились проблемы?
Артур Латыпов. SEO-взгляд изнутри, где притаились проблемы?Артур Латыпов. SEO-взгляд изнутри, где притаились проблемы?
Артур Латыпов. SEO-взгляд изнутри, где притаились проблемы?
 
8 экспериментов в SEO
8 экспериментов в SEO8 экспериментов в SEO
8 экспериментов в SEO
 
26.03.19 Collaborator.pro Webinar Эффективные паттерны выбора доноров
26.03.19 Collaborator.pro Webinar Эффективные паттерны выбора доноров26.03.19 Collaborator.pro Webinar Эффективные паттерны выбора доноров
26.03.19 Collaborator.pro Webinar Эффективные паттерны выбора доноров
 
megaindex
megaindex megaindex
megaindex
 
SEO-Коучинг 4.0_Day1
SEO-Коучинг 4.0_Day1SEO-Коучинг 4.0_Day1
SEO-Коучинг 4.0_Day1
 
Внутренняя оптимизация: ответы на «острые» вопросы
Внутренняя оптимизация: ответы на «острые» вопросыВнутренняя оптимизация: ответы на «острые» вопросы
Внутренняя оптимизация: ответы на «острые» вопросы
 
Неочевидные фишки анализа конкурентов в поиске
Неочевидные фишки анализа конкурентов в поискеНеочевидные фишки анализа конкурентов в поиске
Неочевидные фишки анализа конкурентов в поиске
 
Elkamskaya 100330045814-phpapp02
Elkamskaya 100330045814-phpapp02Elkamskaya 100330045814-phpapp02
Elkamskaya 100330045814-phpapp02
 
XXV Elena Kamskaya
XXV Elena KamskayaXXV Elena Kamskaya
XXV Elena Kamskaya
 
Аудит Anti stress.top
Аудит Anti stress.topАудит Anti stress.top
Аудит Anti stress.top
 
33 важных блога по веб-аналитике
33 важных блога по веб-аналитике33 важных блога по веб-аналитике
33 важных блога по веб-аналитике
 
Практический курс SEO для Bewebby, введение в SEO, семантика для сайта
Практический курс SEO для Bewebby, введение в SEO, семантика для сайтаПрактический курс SEO для Bewebby, введение в SEO, семантика для сайта
Практический курс SEO для Bewebby, введение в SEO, семантика для сайта
 
Илья Василенко. SEO здорового проекта: проведение аудита, составление стратег...
Илья Василенко. SEO здорового проекта: проведение аудита, составление стратег...Илья Василенко. SEO здорового проекта: проведение аудита, составление стратег...
Илья Василенко. SEO здорового проекта: проведение аудита, составление стратег...
 
Обратные ссылки или внутренняя оптимизация: какому потоку отдать приоритет?
Обратные ссылки или внутренняя оптимизация: какому потоку отдать приоритет?Обратные ссылки или внутренняя оптимизация: какому потоку отдать приоритет?
Обратные ссылки или внутренняя оптимизация: какому потоку отдать приоритет?
 
Практический курс SEO для Bewebby: группировка ключевых запросов, разбивка за...
Практический курс SEO для Bewebby: группировка ключевых запросов, разбивка за...Практический курс SEO для Bewebby: группировка ключевых запросов, разбивка за...
Практический курс SEO для Bewebby: группировка ключевых запросов, разбивка за...
 
Как делать ресерч так, чтобы с максимальной вероятностью сделать ТОП
Как делать ресерч так, чтобы с максимальной вероятностью сделать ТОПКак делать ресерч так, чтобы с максимальной вероятностью сделать ТОП
Как делать ресерч так, чтобы с максимальной вероятностью сделать ТОП
 
Главные тренды в работе с семантикой весны 2017 (ТопЭксперт 17 марта 2017, Дм...
Главные тренды в работе с семантикой весны 2017 (ТопЭксперт 17 марта 2017, Дм...Главные тренды в работе с семантикой весны 2017 (ТопЭксперт 17 марта 2017, Дм...
Главные тренды в работе с семантикой весны 2017 (ТопЭксперт 17 марта 2017, Дм...
 

More from Дмитрий Шахов

Шакин Михаил. Условно-бесплатные способы получения непоискового трафика под сша
Шакин Михаил. Условно-бесплатные способы получения непоискового трафика под сшаШакин Михаил. Условно-бесплатные способы получения непоискового трафика под сша
Шакин Михаил. Условно-бесплатные способы получения непоискового трафика под сшаДмитрий Шахов
 
Кучушев Тимур. Как запустить свой бизнес по настройке аналитики на западе
Кучушев Тимур. Как запустить свой бизнес по настройке аналитики на западеКучушев Тимур. Как запустить свой бизнес по настройке аналитики на западе
Кучушев Тимур. Как запустить свой бизнес по настройке аналитики на западеДмитрий Шахов
 
Коноплянников Николай. Видео для e-commerce (дешево и сердито)
Коноплянников Николай. Видео для e-commerce (дешево и сердито)Коноплянников Николай. Видео для e-commerce (дешево и сердито)
Коноплянников Николай. Видео для e-commerce (дешево и сердито)Дмитрий Шахов
 
Скрябин Родион. Как правильно покупать нативную рекламу
Скрябин Родион. Как правильно покупать нативную рекламуСкрябин Родион. Как правильно покупать нативную рекламу
Скрябин Родион. Как правильно покупать нативную рекламуДмитрий Шахов
 
Хаит Юрий. Выключайте ваш ремаркетинг: микроконверсии vs. количество контакто...
Хаит Юрий. Выключайте ваш ремаркетинг: микроконверсии vs. количество контакто...Хаит Юрий. Выключайте ваш ремаркетинг: микроконверсии vs. количество контакто...
Хаит Юрий. Выключайте ваш ремаркетинг: микроконверсии vs. количество контакто...Дмитрий Шахов
 
Петренко Дмитрий. Как построить серверное обеспечение для pbn без футпринтов ...
Петренко Дмитрий. Как построить серверное обеспечение для pbn без футпринтов ...Петренко Дмитрий. Как построить серверное обеспечение для pbn без футпринтов ...
Петренко Дмитрий. Как построить серверное обеспечение для pbn без футпринтов ...Дмитрий Шахов
 
Чечукевич Алексей. Расширение семантики методами машинного обучения
Чечукевич Алексей. Расширение семантики методами машинного обученияЧечукевич Алексей. Расширение семантики методами машинного обучения
Чечукевич Алексей. Расширение семантики методами машинного обученияДмитрий Шахов
 
Чекушин Алексей. Нейросети в поисковых системах
Чекушин Алексей. Нейросети в поисковых системахЧекушин Алексей. Нейросети в поисковых системах
Чекушин Алексей. Нейросети в поисковых системахДмитрий Шахов
 
Найчуков Константин. Как бороться с недобросовестной конкуренцией в контекстн...
Найчуков Константин. Как бороться с недобросовестной конкуренцией в контекстн...Найчуков Константин. Как бороться с недобросовестной конкуренцией в контекстн...
Найчуков Константин. Как бороться с недобросовестной конкуренцией в контекстн...Дмитрий Шахов
 
Марков Пётр. Как внедрить процессы в отдел маркетинга. Делать больше теми же ...
Марков Пётр. Как внедрить процессы в отдел маркетинга. Делать больше теми же ...Марков Пётр. Как внедрить процессы в отдел маркетинга. Делать больше теми же ...
Марков Пётр. Как внедрить процессы в отдел маркетинга. Делать больше теми же ...Дмитрий Шахов
 
Исерсон Илья. Золотая маска: как увеличить продажи, когда топ уже ваш
Исерсон Илья. Золотая маска: как увеличить продажи, когда топ уже вашИсерсон Илья. Золотая маска: как увеличить продажи, когда топ уже ваш
Исерсон Илья. Золотая маска: как увеличить продажи, когда топ уже вашДмитрий Шахов
 
Виктор Каргин. Методы работы в telegram для специалиста
Виктор Каргин. Методы работы в telegram для специалистаВиктор Каргин. Методы работы в telegram для специалиста
Виктор Каргин. Методы работы в telegram для специалистаДмитрий Шахов
 
Катерина Ерошина. Контент-планы.
Катерина Ерошина. Контент-планы.Катерина Ерошина. Контент-планы.
Катерина Ерошина. Контент-планы.Дмитрий Шахов
 
Роман Морозов. Антияндекс
Роман Морозов. АнтияндексРоман Морозов. Антияндекс
Роман Морозов. АнтияндексДмитрий Шахов
 
Александра Кулачикова. Яндекс-метрика: о жизни, запусках, цифрах и полезном
Александра Кулачикова. Яндекс-метрика: о жизни, запусках, цифрах и полезномАлександра Кулачикова. Яндекс-метрика: о жизни, запусках, цифрах и полезном
Александра Кулачикова. Яндекс-метрика: о жизни, запусках, цифрах и полезномДмитрий Шахов
 
Практика контент-маркетинга: как развернуть эту услугу в интернет-агентстве
Практика контент-маркетинга: как развернуть эту услугу в интернет-агентствеПрактика контент-маркетинга: как развернуть эту услугу в интернет-агентстве
Практика контент-маркетинга: как развернуть эту услугу в интернет-агентствеДмитрий Шахов
 
Светлана Демина. Как не убить свою email-базу хорошим контентом
Светлана Демина. Как не убить свою email-базу хорошим контентомСветлана Демина. Как не убить свою email-базу хорошим контентом
Светлана Демина. Как не убить свою email-базу хорошим контентомДмитрий Шахов
 

More from Дмитрий Шахов (17)

Шакин Михаил. Условно-бесплатные способы получения непоискового трафика под сша
Шакин Михаил. Условно-бесплатные способы получения непоискового трафика под сшаШакин Михаил. Условно-бесплатные способы получения непоискового трафика под сша
Шакин Михаил. Условно-бесплатные способы получения непоискового трафика под сша
 
Кучушев Тимур. Как запустить свой бизнес по настройке аналитики на западе
Кучушев Тимур. Как запустить свой бизнес по настройке аналитики на западеКучушев Тимур. Как запустить свой бизнес по настройке аналитики на западе
Кучушев Тимур. Как запустить свой бизнес по настройке аналитики на западе
 
Коноплянников Николай. Видео для e-commerce (дешево и сердито)
Коноплянников Николай. Видео для e-commerce (дешево и сердито)Коноплянников Николай. Видео для e-commerce (дешево и сердито)
Коноплянников Николай. Видео для e-commerce (дешево и сердито)
 
Скрябин Родион. Как правильно покупать нативную рекламу
Скрябин Родион. Как правильно покупать нативную рекламуСкрябин Родион. Как правильно покупать нативную рекламу
Скрябин Родион. Как правильно покупать нативную рекламу
 
Хаит Юрий. Выключайте ваш ремаркетинг: микроконверсии vs. количество контакто...
Хаит Юрий. Выключайте ваш ремаркетинг: микроконверсии vs. количество контакто...Хаит Юрий. Выключайте ваш ремаркетинг: микроконверсии vs. количество контакто...
Хаит Юрий. Выключайте ваш ремаркетинг: микроконверсии vs. количество контакто...
 
Петренко Дмитрий. Как построить серверное обеспечение для pbn без футпринтов ...
Петренко Дмитрий. Как построить серверное обеспечение для pbn без футпринтов ...Петренко Дмитрий. Как построить серверное обеспечение для pbn без футпринтов ...
Петренко Дмитрий. Как построить серверное обеспечение для pbn без футпринтов ...
 
Чечукевич Алексей. Расширение семантики методами машинного обучения
Чечукевич Алексей. Расширение семантики методами машинного обученияЧечукевич Алексей. Расширение семантики методами машинного обучения
Чечукевич Алексей. Расширение семантики методами машинного обучения
 
Чекушин Алексей. Нейросети в поисковых системах
Чекушин Алексей. Нейросети в поисковых системахЧекушин Алексей. Нейросети в поисковых системах
Чекушин Алексей. Нейросети в поисковых системах
 
Найчуков Константин. Как бороться с недобросовестной конкуренцией в контекстн...
Найчуков Константин. Как бороться с недобросовестной конкуренцией в контекстн...Найчуков Константин. Как бороться с недобросовестной конкуренцией в контекстн...
Найчуков Константин. Как бороться с недобросовестной конкуренцией в контекстн...
 
Марков Пётр. Как внедрить процессы в отдел маркетинга. Делать больше теми же ...
Марков Пётр. Как внедрить процессы в отдел маркетинга. Делать больше теми же ...Марков Пётр. Как внедрить процессы в отдел маркетинга. Делать больше теми же ...
Марков Пётр. Как внедрить процессы в отдел маркетинга. Делать больше теми же ...
 
Исерсон Илья. Золотая маска: как увеличить продажи, когда топ уже ваш
Исерсон Илья. Золотая маска: как увеличить продажи, когда топ уже вашИсерсон Илья. Золотая маска: как увеличить продажи, когда топ уже ваш
Исерсон Илья. Золотая маска: как увеличить продажи, когда топ уже ваш
 
Виктор Каргин. Методы работы в telegram для специалиста
Виктор Каргин. Методы работы в telegram для специалистаВиктор Каргин. Методы работы в telegram для специалиста
Виктор Каргин. Методы работы в telegram для специалиста
 
Катерина Ерошина. Контент-планы.
Катерина Ерошина. Контент-планы.Катерина Ерошина. Контент-планы.
Катерина Ерошина. Контент-планы.
 
Роман Морозов. Антияндекс
Роман Морозов. АнтияндексРоман Морозов. Антияндекс
Роман Морозов. Антияндекс
 
Александра Кулачикова. Яндекс-метрика: о жизни, запусках, цифрах и полезном
Александра Кулачикова. Яндекс-метрика: о жизни, запусках, цифрах и полезномАлександра Кулачикова. Яндекс-метрика: о жизни, запусках, цифрах и полезном
Александра Кулачикова. Яндекс-метрика: о жизни, запусках, цифрах и полезном
 
Практика контент-маркетинга: как развернуть эту услугу в интернет-агентстве
Практика контент-маркетинга: как развернуть эту услугу в интернет-агентствеПрактика контент-маркетинга: как развернуть эту услугу в интернет-агентстве
Практика контент-маркетинга: как развернуть эту услугу в интернет-агентстве
 
Светлана Демина. Как не убить свою email-базу хорошим контентом
Светлана Демина. Как не убить свою email-базу хорошим контентомСветлана Демина. Как не убить свою email-базу хорошим контентом
Светлана Демина. Как не убить свою email-базу хорошим контентом
 

Олег Саламаха. Текстовая аналитика

  • 3. Главный вопрос смерти, жизни и всего такого... 1. Сколько нужно раз поспамить фразой 2. Как спамить, чтобы не заспамить 3. Какой размер текста нужно разместить на странице 4. Как найти LSI фразы 5. Как проверить воду в тексте
  • 4. Статистический подход к ответу на вопросы 1) Построить распределение метрик своих конкурентов в выдаче. 2) Исключить аномалии отсечением хвостов по "правилу трех сигм" (анализируя тем самым 68%, 95% или 99% процентов выборки, "three-sigma rule" или "68–95–99 rule" и тем самым уберем из рекомендации "Титанов", которые могут позволить себе слабую релевантность или же переспам) 3) Составить рекомендационную базу, содержащую: * диапазон релевантности ключу * диапазон приемлемой длины текста * список LSI-слов и вероятностей их употреблений у конкурентов
  • 5. Подход к измерению релевантности
  • 6. Релевантность ● Нужно контролировать переспам ● Контролировать страницы с низкой релевантностью ● Число в любой из формул ничего не значит, нужно сравнивать с конкурентами ● Из-за большого количества факторов, невозможно провести reverse engineering ● Нужны "веса слов"
  • 7. Насколько релевантны страницы в ТОП? Регион: США Количество страниц:10к+ ВЧ-СЧ фразы Цель: Найти дисперсию текстовой релевантности в ТОП 10 Что сделали: Посчитали среднюю релевантность в ТОП10 по каждой фразе и разницу между средним значением и значением каждой страницы
  • 8. Распределение релевантности по коммерческим запросам
  • 10. Выводы Релевантность в ТОПе сконцентрирована возле среднего значения, в рунете - намного больше аномалий Сколько нужно вхождений : +- 30% от средней релевантности в топе Сделить за переспамом можно с помощью % отклоненея от среднего в ТОПе В информационной тематике дисперсия релевантности больше, чем в коммерческой, т.е. следить стоит больше за коммерческими запросами
  • 11. Аномалии в релевантности Регион: США Количество страниц:10к+ ВЧ-СЧ фразы Цель: найти сайты в топе с низкой текстовый релевантностью
  • 12. Страницы в ТОП с низкой релевантностью ● Youtube/wiki/quora ● Трастовые большие ресурсы bbc/forbes/amazon/newegg.com ● Каталоги ● Категория товаров без текста https://losangeles.craigslist.org/search/mcy
  • 14. Как наполнить страницу релевантной семантикой, и как понять что нужно изменить странице? Ответ: Статистический Анализ Конкурентов (ведь они попали в топ) Проблемы: * Как спарсить “чистый” текст со всех страниц из топа (без "шапок", комментов и пр.) * Нужно ли использовать все страницы в выдаче для анализа (Поиск своей тематики и анализ конкурентов из этой группы) * Какие именно слова советовать (Какие слова важны? СПОЙЛЕР: простой фильтр стоп слов не поможет)
  • 15. Поиск рекомендуемых слов Значимые слова у конкурентов - Слова которые уже есть у нас = Рекомендации
  • 16. В чем сложность ● Шум: Брендовые фразы, стоп-слова ● В SERP несколько интентов ● Страницы в одном кластере на разных языках ● Страницы разных тематик в одном кластере ● Анализ только текстовой составляющей [без навигации, хлебных крошек и пр.]
  • 17. Решение: CF-TF-IDF ранжирование CF - как часто слово встречается в тематике, TF - встречаемость в каждом тексте из тематики IDF - информативность слова [контролирует стоп слова]
  • 18. Слова Определяющие Тематику - LSI слова TF - Cлова: your - 141 the - 117 to - 93 and - 81 you - 69 a - 59 of - 55 on - 37 with - 36 be - 36 TF - без стоп-слов: back - 22 body - 13 fat - 13 legs - 12 down - 11 who - 11 abs - 10 ups - 9 start - 8 hand - 7 TF-IDF-CDF: abs - 8.8 muscles - 7.19 back - 7.17 legs - 6.87 fat - 6.7 body - 6.66 exercise - 5.19 diet - 4.74 weight - 4.69 training - 4.36 Лемматизация - приведение слова к нормальной форме. Ссылка: https://github.com/nltk/nltk
  • 19. Строим выводы на основе Статистического Анализа Конкурентов: LSI - Chance - Status LSI - % значимость, Chance - % конкурентов в выдаче, Status - вхождение https://static.tildacdn.com/tild6437-3430-4137-b130-666434343865__chrome_201
  • 20. Выборка Разделили кластеры, на два типа : 1. для обучения 2. для проверки Проверили сколько рекомендованных слов содержит вторая выборка
  • 21. Покрытие значимыми словами ТОПа (Коммерческие) 51% конкурентов покрыт словами из нашей ТА > больше чем на 90%
  • 22. Покрытие значимыми словами ТОПа (Информационные) 54% конкурентов покрыт словами из нашей ТА > больше чем на 90%
  • 24. Данные выборок Регион: США Количество сайтов:10к+ Коммерческие фразы Цель: Найти среднюю длину текстового блока на коммерческих страницах
  • 25. Размер текста по коммерческим запросам avg: 440 слов med: 270 слов 2 sigma: от 60 - до 690 слов от 400 - до 2500 Символов
  • 26. Размер текста по инфо. запросам avg: 950 med: 420 2 sigma: 110 - до 1580 слов от 700 - до 6000 символов
  • 27. Полезные либы для работы с текстами Парсинг текста - breadability - https://github.com/bookieio/breadability классификатор языка https://github.com/saffsd/langid.py лемматизаторы английский - http://www.clips.ua.ac.be/pages/pattern-en