SlideShare una empresa de Scribd logo
1 de 19
Descargar para leer sin conexión
Автоматическая
геоклассификация вебсайтов

Иван Бегтин
DPLabs
Зачем это нужно?
   Области применения
Области применения

1. Региональный поиск
2. Обогащение интернет каталогов
3. Дополнительные данные для
   других алгоритмов
   классификации*
* Например, при выявлении SEO ссылок или определения геопривязки email
адресов.
Основы
геоклассификации
   Термины и онтология
Основы геоклассификации

1. Геометки - тематическая привязка сайта к
  определенному географическому положению
2. Геосправочники – справочники и
  классификаторы для выявления геометок
3. Геопризнаки – информационные объекты
  связанные с веб-сайтом содержащие
  информацию о его географическом положении
Виды геометок

1. Местонахождение - где находится домен/
  IP адрес хостинга
2. Владение - где находится владелец
3. Аудитория – откуда приходят посетители,
  какие посетители привлекаются
4. Тематика – какой теме посвящен веб-сайт
Местонахождение
        Как используется
•   Отвечает на вопрос: Где расположен
    сайт?
•   Определяется по принадлежности домена
    и IP адреса хостинга
        Ограничения
•   Не применимо к бесплатным хостингам
•   Не применимо к сайтам скрытым за CDN
Владение
         Как используется
•   Отвечает на вопрос: Где находится владелец сайта?
•   Определяется по контактным данным владельца:
     – в WHOIS
     – на страницах веб-сайта
         Ограничения
•   WHOIS данные недоступны для большинства доменов
    3-го уровня
•   Контактные данные неизвлекаемы для сайтов на Flash
    и публикующими контакты в виде изображений
Аудитория
        Как используется
•   Отвечает на вопрос: Где находятся посетители сайта?
•   Определяется по :
     – по геопривязке IP адресов посетителей сайта
     – по регистрационным данным в онлайн каталогах
     – по языку веб сайта (в случае национальных языков РФ)
        Ограничения
•   Требуется доступ к счетчикам сайта с геопривязкой – GA, LI.ru
•   Небольшое число сайтов в онлайн каталогах
Тематика
      Как используется
• Отвечает на вопрос: О чем написано на веб сайте?
• Определяется по ключевым словам в тексте страниц
  сайта

      Ограничения
• Значительная ресурсоѐмкость если не ограничивать
  число проверяемых страниц
• Разные типы сайтов могут иметь более одной
  геопривязки
Подготовка к
классификации
 Работа со справочниками
Справочники и классификаторы
•   База LIRов (IPGeobase)
•   База почтовых индексов РФ
•   Телефонные коды городов (ABC коды)
•   Телефонные коды сотовых операторов (DEF коды)
•   Справочник СОУН (база налоговых органов)
•   База юридических лиц РФ
•   База кредитных учреждений РФ
•   База ключевых слов/фраз/регулярных выражений геотематики
•   Классификация доменов
    – По географическим доменам
    – По ключевым словам в названиях
    – По типовым шаблонам в названиях доменов
• множество других…
Нормализация справочников
• Нормализация справочников проводится для
  сайтов относящихся только к Рунету
• Все справочнику приводятся к единому
  рубрикатору на базе КЛАДР
• Обязательный уровень детализации – субъект
  РФ
• Допустимый уровень детализации –
  муниципальные образования и города
  регионального значения
Геопризнаки
Работа со справочниками
Виды геопризнаков
•   Адреса, включая почтовые индексы
•   Телефонные номера – городские и мобильные
•   Ключевые слова в тексте
•   Аббревиатуры и сокращения
•   Коды ИНН, КПП, ОГРН
•   Коды расчетных счетов + БИК
Классификация
 Работа со справочниками
Текущий статус
• Алгоритм создан в 2008 году Иваном Бегтиным в
  рамках DPLabs в рамках исследований по
  географической и тематической классификации
  сайтов
• Классифицировано около 20 000 сайтов
• Ведется работа по построению онтологии
  геоклассификации
Как это работает
1. Веб-сайт анализируется на наличие различных геопризнаков
   на его страницах и связанных с ним информационных
   объектах: WHOIS домена, IP адресах
2. Геопризнаки согласно специальным правилам проверяются по
   справочникам и приводятся к геометкам
3. Правила обладают приязкой к месту нахождения геометки и
   объекту, а также имеют разный вес.
4. Результат состоит из двух отчетов:
   – детальный отчет со всеми правилами и метками
   – суммарный отчет по совокупности числа правил и меток
     учитывая их вес
Вопросы?

      Иван Бегтин
      Email: ibegtin@dplabs.ru
      Сайт: http://ivan.begtin.name

Más contenido relacionado

La actualidad más candente

Сообщество жителей и КСК. Проект сайтов строений
Сообщество жителей и КСК. Проект сайтов строенийСообщество жителей и КСК. Проект сайтов строений
Сообщество жителей и КСК. Проект сайтов строенийDPR
 
Неделя Байнета 2016. Сергей Людкевич: «Особенности регионального ранжирования...
Неделя Байнета 2016. Сергей Людкевич: «Особенности регионального ранжирования...Неделя Байнета 2016. Сергей Людкевич: «Особенности регионального ранжирования...
Неделя Байнета 2016. Сергей Людкевич: «Особенности регионального ранжирования...Webcom Group
 
Seo ecommerce mart-2014
Seo ecommerce mart-2014Seo ecommerce mart-2014
Seo ecommerce mart-2014borovoystudio
 
Алгоритмы автоматизированного составления и группировки семантических ядер (Н...
Алгоритмы автоматизированного составления и группировки семантических ядер (Н...Алгоритмы автоматизированного составления и группировки семантических ядер (Н...
Алгоритмы автоматизированного составления и группировки семантических ядер (Н...Nikolay Khivrin
 
К.Якунин статистика международных отправлений и состав игроков на рынке Cross...
К.Якунин статистика международных отправлений и состав игроков на рынке Cross...К.Якунин статистика международных отправлений и состав игроков на рынке Cross...
К.Якунин статистика международных отправлений и состав игроков на рынке Cross...InSales
 
Александр Шестаков. Влияют ли безанкорные ссылки?
Александр Шестаков. Влияют ли безанкорные ссылки?Александр Шестаков. Влияют ли безанкорные ссылки?
Александр Шестаков. Влияют ли безанкорные ссылки?Дмитрий Шахов
 
Интернет-маркетинг для предприятий, занимающихся внешнеэкономической деятельн...
Интернет-маркетинг для предприятий, занимающихся внешнеэкономической деятельн...Интернет-маркетинг для предприятий, занимающихся внешнеэкономической деятельн...
Интернет-маркетинг для предприятий, занимающихся внешнеэкономической деятельн...Галина Кузнецова
 
Практика SEO: выпуск 6. Поведенческие факторы
Практика SEO: выпуск 6. Поведенческие факторыПрактика SEO: выпуск 6. Поведенческие факторы
Практика SEO: выпуск 6. Поведенческие факторыДмитрий Севальнев
 
Аналитика и конкурентная разведка
Аналитика и конкурентная разведкаАналитика и конкурентная разведка
Аналитика и конкурентная разведкаЕвгений Храмов
 
AllinTopConf: отмена ссылочных факторов в Яндексе [Севальнев]
AllinTopConf: отмена ссылочных факторов в Яндексе [Севальнев]AllinTopConf: отмена ссылочных факторов в Яндексе [Севальнев]
AllinTopConf: отмена ссылочных факторов в Яндексе [Севальнев]Дмитрий Севальнев
 
Optimisation by людкевич
Optimisation by людкевичOptimisation by людкевич
Optimisation by людкевичositnikova
 
РИФ+КИБ 2014 [Севальнев] - Плюсы и подводные камни для SEO при использовании CDN
РИФ+КИБ 2014 [Севальнев] - Плюсы и подводные камни для SEO при использовании CDNРИФ+КИБ 2014 [Севальнев] - Плюсы и подводные камни для SEO при использовании CDN
РИФ+КИБ 2014 [Севальнев] - Плюсы и подводные камни для SEO при использовании CDNДмитрий Севальнев
 

La actualidad más candente (14)

Тренд - seo-аналитика
Тренд - seo-аналитикаТренд - seo-аналитика
Тренд - seo-аналитика
 
Сообщество жителей и КСК. Проект сайтов строений
Сообщество жителей и КСК. Проект сайтов строенийСообщество жителей и КСК. Проект сайтов строений
Сообщество жителей и КСК. Проект сайтов строений
 
Неделя Байнета 2016. Сергей Людкевич: «Особенности регионального ранжирования...
Неделя Байнета 2016. Сергей Людкевич: «Особенности регионального ранжирования...Неделя Байнета 2016. Сергей Людкевич: «Особенности регионального ранжирования...
Неделя Байнета 2016. Сергей Людкевич: «Особенности регионального ранжирования...
 
Ludkiewicz
LudkiewiczLudkiewicz
Ludkiewicz
 
Seo ecommerce mart-2014
Seo ecommerce mart-2014Seo ecommerce mart-2014
Seo ecommerce mart-2014
 
Алгоритмы автоматизированного составления и группировки семантических ядер (Н...
Алгоритмы автоматизированного составления и группировки семантических ядер (Н...Алгоритмы автоматизированного составления и группировки семантических ядер (Н...
Алгоритмы автоматизированного составления и группировки семантических ядер (Н...
 
К.Якунин статистика международных отправлений и состав игроков на рынке Cross...
К.Якунин статистика международных отправлений и состав игроков на рынке Cross...К.Якунин статистика международных отправлений и состав игроков на рынке Cross...
К.Якунин статистика международных отправлений и состав игроков на рынке Cross...
 
Александр Шестаков. Влияют ли безанкорные ссылки?
Александр Шестаков. Влияют ли безанкорные ссылки?Александр Шестаков. Влияют ли безанкорные ссылки?
Александр Шестаков. Влияют ли безанкорные ссылки?
 
Интернет-маркетинг для предприятий, занимающихся внешнеэкономической деятельн...
Интернет-маркетинг для предприятий, занимающихся внешнеэкономической деятельн...Интернет-маркетинг для предприятий, занимающихся внешнеэкономической деятельн...
Интернет-маркетинг для предприятий, занимающихся внешнеэкономической деятельн...
 
Практика SEO: выпуск 6. Поведенческие факторы
Практика SEO: выпуск 6. Поведенческие факторыПрактика SEO: выпуск 6. Поведенческие факторы
Практика SEO: выпуск 6. Поведенческие факторы
 
Аналитика и конкурентная разведка
Аналитика и конкурентная разведкаАналитика и конкурентная разведка
Аналитика и конкурентная разведка
 
AllinTopConf: отмена ссылочных факторов в Яндексе [Севальнев]
AllinTopConf: отмена ссылочных факторов в Яндексе [Севальнев]AllinTopConf: отмена ссылочных факторов в Яндексе [Севальнев]
AllinTopConf: отмена ссылочных факторов в Яндексе [Севальнев]
 
Optimisation by людкевич
Optimisation by людкевичOptimisation by людкевич
Optimisation by людкевич
 
РИФ+КИБ 2014 [Севальнев] - Плюсы и подводные камни для SEO при использовании CDN
РИФ+КИБ 2014 [Севальнев] - Плюсы и подводные камни для SEO при использовании CDNРИФ+КИБ 2014 [Севальнев] - Плюсы и подводные камни для SEO при использовании CDN
РИФ+КИБ 2014 [Севальнев] - Плюсы и подводные камни для SEO при использовании CDN
 

Similar a Website Geotargeting (russian)

SEO продвижение
SEO продвижениеSEO продвижение
SEO продвижениеimpools29
 
Практические рекомендации для SEO-специалиста 2016 [Стачка, Севальнев]
Практические рекомендации для SEO-специалиста 2016 [Стачка, Севальнев]Практические рекомендации для SEO-специалиста 2016 [Стачка, Севальнев]
Практические рекомендации для SEO-специалиста 2016 [Стачка, Севальнев]Дмитрий Севальнев
 
Продвинутый курс по SEO
Продвинутый курс по SEOПродвинутый курс по SEO
Продвинутый курс по SEOЛеонид Лукин
 
Региональное продвижение сайтов, продвижение сайтов в разных регионах России ...
Региональное продвижение сайтов, продвижение сайтов в разных регионах России ...Региональное продвижение сайтов, продвижение сайтов в разных регионах России ...
Региональное продвижение сайтов, продвижение сайтов в разных регионах России ...SEO-Интеллект
 
Семинар по продвижению - Optimization 2011, нулевой день
Семинар по продвижению - Optimization 2011, нулевой деньСеминар по продвижению - Optimization 2011, нулевой день
Семинар по продвижению - Optimization 2011, нулевой деньSerg Koshkin
 
Принципы работы поисковых систем
Принципы работы поисковых системПринципы работы поисковых систем
Принципы работы поисковых системСергей Кокшаров
 
Выбор эффективной стратегии продвижения
Выбор эффективной стратегии продвиженияВыбор эффективной стратегии продвижения
Выбор эффективной стратегии продвиженияSerg K
 
Маркетинг в поисковых системах - секреты, фишки, подводные камни
Маркетинг в поисковых системах - секреты, фишки, подводные камниМаркетинг в поисковых системах - секреты, фишки, подводные камни
Маркетинг в поисковых системах - секреты, фишки, подводные камниsharperenko
 
Техническая внутренняя оптимизация больших сайтов
Техническая внутренняя оптимизация больших сайтовТехническая внутренняя оптимизация больших сайтов
Техническая внутренняя оптимизация больших сайтовIhor Bankovskyi
 
Максим Сергеев, ТитанСофт, Руководитель SEO
Максим Сергеев, ТитанСофт, Руководитель SEOМаксим Сергеев, ТитанСофт, Руководитель SEO
Максим Сергеев, ТитанСофт, Руководитель SEOweb2win
 
SEO-Калининград, Севальнев, Аналитический взгляд на ссылки
SEO-Калининград, Севальнев, Аналитический взгляд на ссылкиSEO-Калининград, Севальнев, Аналитический взгляд на ссылки
SEO-Калининград, Севальнев, Аналитический взгляд на ссылкиДмитрий Севальнев
 

Similar a Website Geotargeting (russian) (20)

megaindex
megaindex megaindex
megaindex
 
Введение в SEO
Введение в SEOВведение в SEO
Введение в SEO
 
SEO продвижение
SEO продвижениеSEO продвижение
SEO продвижение
 
Практические рекомендации для SEO-специалиста 2016 [Стачка, Севальнев]
Практические рекомендации для SEO-специалиста 2016 [Стачка, Севальнев]Практические рекомендации для SEO-специалиста 2016 [Стачка, Севальнев]
Практические рекомендации для SEO-специалиста 2016 [Стачка, Севальнев]
 
Продвинутый курс по SEO
Продвинутый курс по SEOПродвинутый курс по SEO
Продвинутый курс по SEO
 
Аудит сайта своими силами
Аудит сайта своими силамиАудит сайта своими силами
Аудит сайта своими силами
 
Региональное продвижение сайтов, продвижение сайтов в разных регионах России ...
Региональное продвижение сайтов, продвижение сайтов в разных регионах России ...Региональное продвижение сайтов, продвижение сайтов в разных регионах России ...
Региональное продвижение сайтов, продвижение сайтов в разных регионах России ...
 
Практика SEO: часть 3 на MegaIndex.TV
Практика SEO: часть 3 на MegaIndex.TVПрактика SEO: часть 3 на MegaIndex.TV
Практика SEO: часть 3 на MegaIndex.TV
 
SeoНеонатология
SeoНеонатологияSeoНеонатология
SeoНеонатология
 
Семинар по продвижению - Optimization 2011, нулевой день
Семинар по продвижению - Optimization 2011, нулевой деньСеминар по продвижению - Optimization 2011, нулевой день
Семинар по продвижению - Optimization 2011, нулевой день
 
Принципы работы поисковых систем
Принципы работы поисковых системПринципы работы поисковых систем
Принципы работы поисковых систем
 
Выбор эффективной стратегии продвижения
Выбор эффективной стратегии продвиженияВыбор эффективной стратегии продвижения
Выбор эффективной стратегии продвижения
 
Маркетинг в поисковых системах - секреты, фишки, подводные камни
Маркетинг в поисковых системах - секреты, фишки, подводные камниМаркетинг в поисковых системах - секреты, фишки, подводные камни
Маркетинг в поисковых системах - секреты, фишки, подводные камни
 
Оптимизация навечно
Оптимизация навечноОптимизация навечно
Оптимизация навечно
 
Техническая внутренняя оптимизация больших сайтов
Техническая внутренняя оптимизация больших сайтовТехническая внутренняя оптимизация больших сайтов
Техническая внутренняя оптимизация больших сайтов
 
Тэгирование сайтов
Тэгирование сайтовТэгирование сайтов
Тэгирование сайтов
 
Максим Сергеев, ТитанСофт, Руководитель SEO
Максим Сергеев, ТитанСофт, Руководитель SEOМаксим Сергеев, ТитанСофт, Руководитель SEO
Максим Сергеев, ТитанСофт, Руководитель SEO
 
SEO-Калининград, Севальнев, Аналитический взгляд на ссылки
SEO-Калининград, Севальнев, Аналитический взгляд на ссылкиSEO-Калининград, Севальнев, Аналитический взгляд на ссылки
SEO-Калининград, Севальнев, Аналитический взгляд на ссылки
 
Продвижение Y+G
Продвижение Y+GПродвижение Y+G
Продвижение Y+G
 
Продвижение по трафику
Продвижение по трафикуПродвижение по трафику
Продвижение по трафику
 

Más de Ivan Begtin

Сервисы инфраструктуры данных для исследователей
Сервисы инфраструктуры данных для исследователейСервисы инфраструктуры данных для исследователей
Сервисы инфраструктуры данных для исследователейIvan Begtin
 
Alternative data by Ivan Begtin
Alternative data by Ivan BegtinAlternative data by Ivan Begtin
Alternative data by Ivan BegtinIvan Begtin
 
Дата расследования в России.
Дата расследования в России.Дата расследования в России.
Дата расследования в России.Ivan Begtin
 
API в проектах Инфокультуры
API в проектах ИнфокультурыAPI в проектах Инфокультуры
API в проектах ИнфокультурыIvan Begtin
 
Цифровое культурное наследие
Цифровое культурное наследиеЦифровое культурное наследие
Цифровое культурное наследиеIvan Begtin
 
Основные источники информации о госфинансах в России (обзор систем)
Основные источники информации о госфинансах в России (обзор систем)Основные источники информации о госфинансах в России (обзор систем)
Основные источники информации о госфинансах в России (обзор систем)Ivan Begtin
 
Как не запутаться в справочниках и классификаторах бюджетной системы
Как не запутаться в справочниках и классификаторах бюджетной системыКак не запутаться в справочниках и классификаторах бюджетной системы
Как не запутаться в справочниках и классификаторах бюджетной системыIvan Begtin
 
Как устроена бюджетная система России (обзор данных и структуры)
Как устроена бюджетная система России (обзор данных и структуры)Как устроена бюджетная система России (обзор данных и структуры)
Как устроена бюджетная система России (обзор данных и структуры)Ivan Begtin
 
Проекты на данных криминальной статистики в России и в мире
Проекты на данных криминальной статистики в России и в миреПроекты на данных криминальной статистики в России и в мире
Проекты на данных криминальной статистики в России и в миреIvan Begtin
 
Простой и понятный русский язык (plainrussian.ru)
Простой и понятный русский язык (plainrussian.ru)Простой и понятный русский язык (plainrussian.ru)
Простой и понятный русский язык (plainrussian.ru)Ivan Begtin
 
Бизнес модели на открытых данных
Бизнес модели на открытых данныхБизнес модели на открытых данных
Бизнес модели на открытых данныхIvan Begtin
 
Государство как платформа. Обзор и практика
Государство как платформа. Обзор и практикаГосударство как платформа. Обзор и практика
Государство как платформа. Обзор и практикаIvan Begtin
 
Открытые государственные финансовые исторические данные
Открытые государственные финансовые исторические данныеОткрытые государственные финансовые исторические данные
Открытые государственные финансовые исторические данныеIvan Begtin
 
Государственные субсидии (федеральный уровень)
Государственные субсидии (федеральный уровень) Государственные субсидии (федеральный уровень)
Государственные субсидии (федеральный уровень) Ivan Begtin
 
Международные проекты по открытости расходов государства
Международные проекты по открытости расходов государстваМеждународные проекты по открытости расходов государства
Международные проекты по открытости расходов государстваIvan Begtin
 
Открытые финансовые данные: потребность, доступность, использование
Открытые финансовые данные: потребность, доступность, использованиеОткрытые финансовые данные: потребность, доступность, использование
Открытые финансовые данные: потребность, доступность, использованиеIvan Begtin
 
Где взять данные дата-журналисту?
Где взять данные дата-журналисту?Где взять данные дата-журналисту?
Где взять данные дата-журналисту?Ivan Begtin
 
Иван Бегтин "Цифровые архивы"
Иван Бегтин "Цифровые архивы"Иван Бегтин "Цифровые архивы"
Иван Бегтин "Цифровые архивы"Ivan Begtin
 
Умное государство. Миф или антиутопия?
Умное государство. Миф или антиутопия?Умное государство. Миф или антиутопия?
Умное государство. Миф или антиутопия?Ivan Begtin
 
Открытые и большие государственные данные и их практическая применимость
Открытые и большие государственные данные и их практическая применимостьОткрытые и большие государственные данные и их практическая применимость
Открытые и большие государственные данные и их практическая применимостьIvan Begtin
 

Más de Ivan Begtin (20)

Сервисы инфраструктуры данных для исследователей
Сервисы инфраструктуры данных для исследователейСервисы инфраструктуры данных для исследователей
Сервисы инфраструктуры данных для исследователей
 
Alternative data by Ivan Begtin
Alternative data by Ivan BegtinAlternative data by Ivan Begtin
Alternative data by Ivan Begtin
 
Дата расследования в России.
Дата расследования в России.Дата расследования в России.
Дата расследования в России.
 
API в проектах Инфокультуры
API в проектах ИнфокультурыAPI в проектах Инфокультуры
API в проектах Инфокультуры
 
Цифровое культурное наследие
Цифровое культурное наследиеЦифровое культурное наследие
Цифровое культурное наследие
 
Основные источники информации о госфинансах в России (обзор систем)
Основные источники информации о госфинансах в России (обзор систем)Основные источники информации о госфинансах в России (обзор систем)
Основные источники информации о госфинансах в России (обзор систем)
 
Как не запутаться в справочниках и классификаторах бюджетной системы
Как не запутаться в справочниках и классификаторах бюджетной системыКак не запутаться в справочниках и классификаторах бюджетной системы
Как не запутаться в справочниках и классификаторах бюджетной системы
 
Как устроена бюджетная система России (обзор данных и структуры)
Как устроена бюджетная система России (обзор данных и структуры)Как устроена бюджетная система России (обзор данных и структуры)
Как устроена бюджетная система России (обзор данных и структуры)
 
Проекты на данных криминальной статистики в России и в мире
Проекты на данных криминальной статистики в России и в миреПроекты на данных криминальной статистики в России и в мире
Проекты на данных криминальной статистики в России и в мире
 
Простой и понятный русский язык (plainrussian.ru)
Простой и понятный русский язык (plainrussian.ru)Простой и понятный русский язык (plainrussian.ru)
Простой и понятный русский язык (plainrussian.ru)
 
Бизнес модели на открытых данных
Бизнес модели на открытых данныхБизнес модели на открытых данных
Бизнес модели на открытых данных
 
Государство как платформа. Обзор и практика
Государство как платформа. Обзор и практикаГосударство как платформа. Обзор и практика
Государство как платформа. Обзор и практика
 
Открытые государственные финансовые исторические данные
Открытые государственные финансовые исторические данныеОткрытые государственные финансовые исторические данные
Открытые государственные финансовые исторические данные
 
Государственные субсидии (федеральный уровень)
Государственные субсидии (федеральный уровень) Государственные субсидии (федеральный уровень)
Государственные субсидии (федеральный уровень)
 
Международные проекты по открытости расходов государства
Международные проекты по открытости расходов государстваМеждународные проекты по открытости расходов государства
Международные проекты по открытости расходов государства
 
Открытые финансовые данные: потребность, доступность, использование
Открытые финансовые данные: потребность, доступность, использованиеОткрытые финансовые данные: потребность, доступность, использование
Открытые финансовые данные: потребность, доступность, использование
 
Где взять данные дата-журналисту?
Где взять данные дата-журналисту?Где взять данные дата-журналисту?
Где взять данные дата-журналисту?
 
Иван Бегтин "Цифровые архивы"
Иван Бегтин "Цифровые архивы"Иван Бегтин "Цифровые архивы"
Иван Бегтин "Цифровые архивы"
 
Умное государство. Миф или антиутопия?
Умное государство. Миф или антиутопия?Умное государство. Миф или антиутопия?
Умное государство. Миф или антиутопия?
 
Открытые и большие государственные данные и их практическая применимость
Открытые и большие государственные данные и их практическая применимостьОткрытые и большие государственные данные и их практическая применимость
Открытые и большие государственные данные и их практическая применимость
 

Website Geotargeting (russian)

  • 2. Зачем это нужно? Области применения
  • 3. Области применения 1. Региональный поиск 2. Обогащение интернет каталогов 3. Дополнительные данные для других алгоритмов классификации* * Например, при выявлении SEO ссылок или определения геопривязки email адресов.
  • 4. Основы геоклассификации Термины и онтология
  • 5. Основы геоклассификации 1. Геометки - тематическая привязка сайта к определенному географическому положению 2. Геосправочники – справочники и классификаторы для выявления геометок 3. Геопризнаки – информационные объекты связанные с веб-сайтом содержащие информацию о его географическом положении
  • 6. Виды геометок 1. Местонахождение - где находится домен/ IP адрес хостинга 2. Владение - где находится владелец 3. Аудитория – откуда приходят посетители, какие посетители привлекаются 4. Тематика – какой теме посвящен веб-сайт
  • 7. Местонахождение Как используется • Отвечает на вопрос: Где расположен сайт? • Определяется по принадлежности домена и IP адреса хостинга Ограничения • Не применимо к бесплатным хостингам • Не применимо к сайтам скрытым за CDN
  • 8. Владение Как используется • Отвечает на вопрос: Где находится владелец сайта? • Определяется по контактным данным владельца: – в WHOIS – на страницах веб-сайта Ограничения • WHOIS данные недоступны для большинства доменов 3-го уровня • Контактные данные неизвлекаемы для сайтов на Flash и публикующими контакты в виде изображений
  • 9. Аудитория Как используется • Отвечает на вопрос: Где находятся посетители сайта? • Определяется по : – по геопривязке IP адресов посетителей сайта – по регистрационным данным в онлайн каталогах – по языку веб сайта (в случае национальных языков РФ) Ограничения • Требуется доступ к счетчикам сайта с геопривязкой – GA, LI.ru • Небольшое число сайтов в онлайн каталогах
  • 10. Тематика Как используется • Отвечает на вопрос: О чем написано на веб сайте? • Определяется по ключевым словам в тексте страниц сайта Ограничения • Значительная ресурсоѐмкость если не ограничивать число проверяемых страниц • Разные типы сайтов могут иметь более одной геопривязки
  • 12. Справочники и классификаторы • База LIRов (IPGeobase) • База почтовых индексов РФ • Телефонные коды городов (ABC коды) • Телефонные коды сотовых операторов (DEF коды) • Справочник СОУН (база налоговых органов) • База юридических лиц РФ • База кредитных учреждений РФ • База ключевых слов/фраз/регулярных выражений геотематики • Классификация доменов – По географическим доменам – По ключевым словам в названиях – По типовым шаблонам в названиях доменов • множество других…
  • 13. Нормализация справочников • Нормализация справочников проводится для сайтов относящихся только к Рунету • Все справочнику приводятся к единому рубрикатору на базе КЛАДР • Обязательный уровень детализации – субъект РФ • Допустимый уровень детализации – муниципальные образования и города регионального значения
  • 15. Виды геопризнаков • Адреса, включая почтовые индексы • Телефонные номера – городские и мобильные • Ключевые слова в тексте • Аббревиатуры и сокращения • Коды ИНН, КПП, ОГРН • Коды расчетных счетов + БИК
  • 16. Классификация Работа со справочниками
  • 17. Текущий статус • Алгоритм создан в 2008 году Иваном Бегтиным в рамках DPLabs в рамках исследований по географической и тематической классификации сайтов • Классифицировано около 20 000 сайтов • Ведется работа по построению онтологии геоклассификации
  • 18. Как это работает 1. Веб-сайт анализируется на наличие различных геопризнаков на его страницах и связанных с ним информационных объектах: WHOIS домена, IP адресах 2. Геопризнаки согласно специальным правилам проверяются по справочникам и приводятся к геометкам 3. Правила обладают приязкой к месту нахождения геометки и объекту, а также имеют разный вес. 4. Результат состоит из двух отчетов: – детальный отчет со всеми правилами и метками – суммарный отчет по совокупности числа правил и меток учитывая их вес
  • 19. Вопросы? Иван Бегтин Email: ibegtin@dplabs.ru Сайт: http://ivan.begtin.name