Se ha denunciado esta presentación.
Utilizamos tu perfil de LinkedIn y tus datos de actividad para personalizar los anuncios y mostrarte publicidad más relevante. Puedes cambiar tus preferencias de publicidad en cualquier momento.

Гайд по текстовому антиспаму

2.646 visualizaciones

Publicado el

Текстовые санкции от ПС - что это такое и как с ними бороться. Рассматриваются сайты гугла и яндекса, а также инструменты по улучшению текстов.

Publicado en: Datos y análisis
  • Спасибо зав доклад, Алексей! Мощно!
       Responder 
    ¿Estás seguro?    No
    Tu mensaje aparecerá aquí

Гайд по текстовому антиспаму

  1. 1. САНКЦИИ ЗАТЕКСТЫ Мини-гайд от АлексеяЧекушина
  2. 2. Что будет рассмотрено? - Основные фильтры и логика их применения. - Методы распознавания спама/некачественных текстов поисковыми системами. - Как распознать наложенные санкции поиска. - Как избежать наложения санкций.
  3. 3. Основные фильтры ■ Доменный спам-фильтр от Яндекса. ■ АГС от Яндекса. ■ «Панда» от Гугла. ■ Фильтрация дублей. ■ Документные фильтры от обеих ПС.
  4. 4. Что такое некачественный текст? ■ Создан для накрутки текстовых факторов ранжирования. ■ Является сгенерированным ■ Или просто «некачественным» ■ Содержит
  5. 5. Методы выделения спама «Статистические» Вычисление метрик текста и сравнение их с неким «эталоном» «Лингвистические» Разбор текста согласно законам языка, выявление неестественных языковых конструкций.
  6. 6. Статистические ■ Основа метода – сравнение статистических метрик текста с «эталоном» ■ Примеры статистических метрик: - Средняя длина/диспесия длины слов/предложений. - Доля/дисперсия по предложениям частей речи. - N-граммные вероятности. - Закон ципфа И.т.д. Важно! Ни одна из метрик не может быть использована отдельно.
  7. 7. Лингвистические Основная метрика – выявление неестественных лингвистических конструкций. Такие конструкции порождаются ошибками шаблонизации «купить телевизор» – ок. «купить стиральная машина» – не ок. И попытками впихнуть неестественные вхождения «телефоны самсунг цена»
  8. 8. Санкции ■ Понижение в ранжировании документа. ■ Понижение в ранжировании хоста целиком. ■ «Карантин» (предназначен для отбивания охоты искать порог спама)
  9. 9. Документные санкции Основные признаки: - Понижение позиций по всем запросам (иногда включая цитатный поиск). - Документ становится не релевант Важно не путать санкцию с выпадением из «окна» хороших для ранжирования значений.
  10. 10. Хостовые санкции
  11. 11. Google Panda За что накладывается: - Некачественные/спамные тексты на сайте. - Дубликаты с других доменов или внутри сайта. Особенности: - Пенальти на весь хост. - Возможно как резкое, так и плавное снижение позиций/трафика. Как определить: - “PanguinTool” - Падение не связано со ссылками или индексацией.
  12. 12. Хостовое пенальти от Яндекса За что накладывается: - Некачественные/спамные тексты на сайте. Особенности: - Пенальти на весь хост, даже если спам-текстов несколько. - «Карантин» - от 1го месяца. Как определить: - Единомоментная (в 1 апдейт) просадка трафика (в 2 и более раза) (а также проседание по всем позициям, за исключением витальных.Чем больше конкурентность запроса – тем больше проседание. - Платон подтверждает.
  13. 13. АГС ■ Фильтр создан преимущественно для «отстрела» ссылочных доноров. ■ Однако, содержит текстовые метрики. ■ Сайт может попасть под «АГС» за тексты даже не имея платных внешних ссылок. ■ Основной текстовый критерий – «качество».
  14. 14. Как не попасть? ■ Отсутствие дубликатов. Как внутри домена, так и вне его. ■ Отсутствие дубликатов
  15. 15. Проверка на дубликаты Основной метод – проверка по шинглам. + Хорошие результаты по обнаружению заимствованных фрагментов. - Необходимость делать много запросов. - Невозможность удалить предлоги.
  16. 16. Согласованность текста Генерацию шаблонов выполняем с использованием числа и падежа вхождения (Осторожно при использовании автоматических склоняторов. Бывают баги). Тексты проверяем на согласованность силами любого текстового редактора (например – MicrosoftWord)
  17. 17. Антивода Основной метод – выделение «водных» частей речи и проверка по словарям «водных» слов. + Быстро + Позволяет выделять совсем плохие тексты - Не анализирует тематичность. - - Выделение по частям речи имеют ограничения (например, наречия обычно бывают «водными», но «недорого» - не вода).
  18. 18. Частотный словарь по топ-10? + Достаточно просто. + Возможность выловить некоторые тематические слова. - Выловим также всю воду в топе, ибо: Не факт, что основой формирования топа стали тексты. Ситуации, когда «спам-фильтр отвернулся»
  19. 19. Пример текста из топа
  20. 20. Антивода 2.0 Языковые модели для пословной оценки тематичности слов текста. + Гораздо более качественно + Оценивается каждое (!) слово. + Оценка не абстрактна, а в привязке к запросу. - Мы ограничены качеством текстов в коллекции по теме. - Проверка требует несколько запросов на каждое слово. - Качество оценки падает на однословных и 4+ словных запросах.
  21. 21. «Акварель» Гибридная униграммная языковая модель. (Три запроса на каждое слово). Доступна на Just-Magic.org Промо-код на лимитиы «Акварели» aquafox (действует только сегодня)
  22. 22. Вот и сказочке конец…А кто слушал… Может задать вопрос!

×