3. Области применения
1. Региональный поиск
2. Обогащение интернет каталогов
3. Дополнительные данные для
других алгоритмов
классификации*
* Например, при выявлении SEO ссылок или определения геопривязки email
адресов.
5. Основы геоклассификации
1. Геометки - тематическая привязка сайта к
определенному географическому положению
2. Геосправочники – справочники и
классификаторы для выявления геометок
3. Геопризнаки – информационные объекты
связанные с веб-сайтом содержащие
информацию о его географическом положении
6. Виды геометок
1. Местонахождение - где находится домен/
IP адрес хостинга
2. Владение - где находится владелец
3. Аудитория – откуда приходят посетители,
какие посетители привлекаются
4. Тематика – какой теме посвящен веб-сайт
7. Местонахождение
Как используется
• Отвечает на вопрос: Где расположен
сайт?
• Определяется по принадлежности домена
и IP адреса хостинга
Ограничения
• Не применимо к бесплатным хостингам
• Не применимо к сайтам скрытым за CDN
8. Владение
Как используется
• Отвечает на вопрос: Где находится владелец сайта?
• Определяется по контактным данным владельца:
– в WHOIS
– на страницах веб-сайта
Ограничения
• WHOIS данные недоступны для большинства доменов
3-го уровня
• Контактные данные неизвлекаемы для сайтов на Flash
и публикующими контакты в виде изображений
9. Аудитория
Как используется
• Отвечает на вопрос: Где находятся посетители сайта?
• Определяется по :
– по геопривязке IP адресов посетителей сайта
– по регистрационным данным в онлайн каталогах
– по языку веб сайта (в случае национальных языков РФ)
Ограничения
• Требуется доступ к счетчикам сайта с геопривязкой – GA, LI.ru
• Небольшое число сайтов в онлайн каталогах
10. Тематика
Как используется
• Отвечает на вопрос: О чем написано на веб сайте?
• Определяется по ключевым словам в тексте страниц
сайта
Ограничения
• Значительная ресурсоѐмкость если не ограничивать
число проверяемых страниц
• Разные типы сайтов могут иметь более одной
геопривязки
12. Справочники и классификаторы
• База LIRов (IPGeobase)
• База почтовых индексов РФ
• Телефонные коды городов (ABC коды)
• Телефонные коды сотовых операторов (DEF коды)
• Справочник СОУН (база налоговых органов)
• База юридических лиц РФ
• База кредитных учреждений РФ
• База ключевых слов/фраз/регулярных выражений геотематики
• Классификация доменов
– По географическим доменам
– По ключевым словам в названиях
– По типовым шаблонам в названиях доменов
• множество других…
13. Нормализация справочников
• Нормализация справочников проводится для
сайтов относящихся только к Рунету
• Все справочнику приводятся к единому
рубрикатору на базе КЛАДР
• Обязательный уровень детализации – субъект
РФ
• Допустимый уровень детализации –
муниципальные образования и города
регионального значения
15. Виды геопризнаков
• Адреса, включая почтовые индексы
• Телефонные номера – городские и мобильные
• Ключевые слова в тексте
• Аббревиатуры и сокращения
• Коды ИНН, КПП, ОГРН
• Коды расчетных счетов + БИК
17. Текущий статус
• Алгоритм создан в 2008 году Иваном Бегтиным в
рамках DPLabs в рамках исследований по
географической и тематической классификации
сайтов
• Классифицировано около 20 000 сайтов
• Ведется работа по построению онтологии
геоклассификации
18. Как это работает
1. Веб-сайт анализируется на наличие различных геопризнаков
на его страницах и связанных с ним информационных
объектах: WHOIS домена, IP адресах
2. Геопризнаки согласно специальным правилам проверяются по
справочникам и приводятся к геометкам
3. Правила обладают приязкой к месту нахождения геометки и
объекту, а также имеют разный вес.
4. Результат состоит из двух отчетов:
– детальный отчет со всеми правилами и метками
– суммарный отчет по совокупности числа правил и меток
учитывая их вес
19. Вопросы?
Иван Бегтин
Email: ibegtin@dplabs.ru
Сайт: http://ivan.begtin.name