SlideShare una empresa de Scribd logo
1 de 40
Descargar para leer sin conexión
Насколько уникально
ФИО?
Ксения Жагорина
СКБ Контур
Все знают, что
ФИО не уникально…
Все знают, что
ФИО не уникально…
Иванов Иван Иванович 1.600 чел.
Предполагаемое
число людей с
таким ФИО в
России
Все знают, что
ФИО не уникально…
Иванов Иван Иванович 1.600 чел.
Иванов Сергей Владимирович 6.200 чел.
Кузнецов Сергей Александрович 4.600 чел.
…
Предполагаемое
число людей с
таким ФИО в
России
А на самом деле …
А на самом деле …
0.999 0.96
0.68
0
0,2
0,4
0,6
0,8
1
1 100 10 000 1 000 000
СуникальнымФИО
Количество людей в сообществе
Доля людей с уникальным ФИО
И какая же польза?
И какая же польза?
• Поиск «клонов»
И какая же польза?
• Поиск «клонов»
• Интеграция сервисов
База данных ЕГРЮЛ
21 М упоминаний c ИНН
13 М человек
База данных ЕГРЮЛ
11 М упоминаний
без ИНН
21 М упоминаний c ИНН
13 М человек
База данных ЕГРЮЛ
11 М упоминаний
без ИНН
21 М упоминаний c ИНН
13 М человек
База данных ЕГРЮЛ
11 М упоминаний
без ИНН
21 М упоминаний c ИНН
13 М человек
База данных ЕГРЮЛ
11 М упоминаний
без ИНН
21 М упоминаний c ИНН
13 М человек
Семенов С.А.Семенов С.А.
Рогов А.В.Копытов Д.Е. Иванов И.И.
База данных ЕГРЮЛ
11 М упоминаний
без ИНН
21 М упоминаний c ИНН
13 М человек
Семенов С.А.Семенов С.А.
Рогов А.В.Копытов Д.Е. Иванов И.И.
?
Как ?
Постановка задачи
По двум упоминаниям с одинаковым ФИО
определить насколько вероятно, что они об
одном и том же человеке.
Методика тестирования
Тестирование – на упоминаниях с указанным ИНН
Оценка модели – точность и полнота
Точность =
|Найденные верные связи|
|Все найденные связи|
Полнота =
|Найденные верные связи|
|Все верные связи|
Модель на основе независимых ФИО.
𝑃фио = 𝑃 Ф ∗ 𝑃 И ∗ 𝑃 О
Модель на основе независимых ФИО.
𝑃фио = 𝑃 Ф ∗ 𝑃 И ∗ 𝑃 О
𝑁фио = 𝐵𝑖𝑛 𝑛, 𝑝
Количество людей с данным ФИО
Модель на основе независимых ФИО.
𝑃фио = 𝑃 Ф ∗ 𝑃 И ∗ 𝑃 О
𝑁фио = 𝐵𝑖𝑛 𝑛, 𝑝
Количество людей с данным ФИО
Вероятность связи
𝑃 = 𝑃 𝑁фио < 1
Модель на основе независимых ФИО.
0,0
0,2
0,4
0,6
0,8
1,0
0,0 0,2 0,4 0,6 0,8 1,0
полнота,точностьв%
P(Nфио < 1)
точность
полнота
База данных ЕГРЮЛ
11 М упоминаний
без ИНН
21 М упоминаний c ИНН
13 М человек
Семенов С.А.Семенов С.А.
Рогов А.В.Копытов Д.Е. Иванов И.И.
База данных ЕГРЮЛ
11 М упоминаний
без ИНН
21 М упоминаний c ИНН
13 М человек
Семенов С.А.Семенов С.А.
Рогов А.В.Копытов Д.Е. Иванов И.И.
База данных ЕГРЮЛ
11 М упоминаний
без ИНН
21 М упоминаний c ИНН
13 М человек
ООО «Рога и Копыта»
Москва
ЗАО «ЗаМКАД»
Московская обл.
Семенов С.А.Семенов С.А.
Рогов А.В.Копытов Д.Е. Иванов И.И.
Модель на основе зависимости ФИО
и региона.
𝑃𝑅ФИО = 𝑃𝑅ФОИ = 𝑃 𝑅 ∗ 𝑃 Ф 𝑅) ∗ 𝑃(О 𝑅Ф ∗ 𝑃 И 𝑅ФО
𝑃(О 𝑅Ф ≈ 𝑃 О Ф
𝑃(И 𝑅ФО ≈ 𝑃 И О
𝑃𝑅ФИО = 𝑃 𝑅 ∗ 𝑃 Ф 𝑅) ∗ 𝑃(О Ф ∗ 𝑃 И О
𝑃ФИО = 𝑃(Ф) ∗ 𝑃(О Ф ∗ 𝑃 И О
Вероятность связи
𝑃 = 𝑃 𝑁 𝑅ФИО < 1
Модель на основе зависимости ФИО
и региона.
𝑃𝑅ФИО = 𝑃𝑅ФОИ = 𝑃 𝑅 ∗ 𝑃 Ф 𝑅) ∗ 𝑃(О 𝑅Ф ∗ 𝑃 И 𝑅ФО
𝑃(О 𝑅Ф ≈ 𝑃 О Ф
𝑃(И 𝑅ФО ≈ 𝑃 И О
𝑃𝑅ФИО = 𝑃 𝑅 ∗ 𝑃 Ф 𝑅) ∗ 𝑃(О Ф ∗ 𝑃 И О
𝑃ФИО = 𝑃(Ф) ∗ 𝑃(О Ф ∗ 𝑃 И О
Вероятность связи
𝑃 = 𝑃 𝑁 𝑅ФИО < 1
Модель на основе зависимости ФИО
и региона.
𝑃𝑅ФИО = 𝑃𝑅ФОИ = 𝑃 𝑅 ∗ 𝑃 Ф 𝑅) ∗ 𝑃(О 𝑅Ф ∗ 𝑃 И 𝑅ФО
𝑃(О 𝑅Ф ≈ 𝑃 О Ф
𝑃(И 𝑅ФО ≈ 𝑃 И О
𝑃𝑅ФИО = 𝑃 𝑅 ∗ 𝑃 Ф 𝑅) ∗ 𝑃(О Ф ∗ 𝑃 И О
𝑃ФИО = 𝑃(Ф) ∗ 𝑃(О Ф ∗ 𝑃 И О
Вероятность связи
𝑃 = 𝑃 𝑁 𝑅ФИО < 1
Модель на основе зависимости ФИО и
региона.
0,0
0,2
0,4
0,6
0,8
1,0
0,0 0,2 0,4 0,6 0,8 1,0
Полнота,точностьв%
P(NRФИО < 1)
точность
полнота
Модель на основе независимых ФИО.
0,0
0,2
0,4
0,6
0,8
1,0
0,0 0,2 0,4 0,6 0,8 1,0
полнота,точностьв%
P(Nфио < 1)
точность
полнота
Модель на основе зависимости ФИО
и региона. Результаты.
Рогов А.В.Рогов А.В.
?
ООО «Рога и Копыта»
Москва
P = 0.684
ЗАО «ЗаМКАД»
Москва
R = Москва
ФИО = Рогов Александр Владимирович
P = P(NRФИО<1) = 0.684
Модель на основе зависимости ФИО
и региона. Результаты.
Копытов Д.Е.Копытов Д.Е.
?
ООО «Рога и Копыта»
Москва
R = Москва
ФИО = Копытов Давид Ефремович
P = P(NRФИО<1) = 0.986
P = 0.986
ЗАО «ЗаМКАД»
Москва
Модель на основе зависимости ФИО
и региона. Результаты.
Семенов С.А.Семенов С.А.
?
ООО «Рога и Копыта»
Москва
R = Москва
ФИО = Семёнов Сергей Андреевич
P = P(NRФИО<1) = 0.396
P = 0.396
ЗАО «ЗаМКАД»
Москва
Вывод
Полнота 80% при точности 95%.
150 млн. новых связей.
Конец
99.9
96.2
68.2
74.7
32,1
95,8
80,3
23,8
2,7
0
20
40
60
80
100
1 100 10 000 1 000 000
СуникальнымФИО(в%)
Количество людей в сообществе
Доля людей с уникальным ФИО
ФИО
ФИ
Ф

Más contenido relacionado

Más de Ontico

Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...
Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...
Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...Ontico
 
Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...
Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...
Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...Ontico
 
PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)
PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)
PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)Ontico
 
Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...
Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...
Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...Ontico
 
Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...
Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...
Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...Ontico
 
ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)
ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)
ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)Ontico
 
MySQL Replication — Advanced Features / Петр Зайцев (Percona)
MySQL Replication — Advanced Features / Петр Зайцев (Percona)MySQL Replication — Advanced Features / Петр Зайцев (Percona)
MySQL Replication — Advanced Features / Петр Зайцев (Percona)Ontico
 
Внутренний open-source. Как разрабатывать мобильное приложение большим количе...
Внутренний open-source. Как разрабатывать мобильное приложение большим количе...Внутренний open-source. Как разрабатывать мобильное приложение большим количе...
Внутренний open-source. Как разрабатывать мобильное приложение большим количе...Ontico
 
Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...
Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...
Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...Ontico
 
Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...
Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...
Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...Ontico
 
Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)
Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)
Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)Ontico
 
И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)
И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)
И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)Ontico
 
Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)
Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)
Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)Ontico
 
Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)
Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)
Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)Ontico
 
100500 способов кэширования в Oracle Database или как достичь максимальной ск...
100500 способов кэширования в Oracle Database или как достичь максимальной ск...100500 способов кэширования в Oracle Database или как достичь максимальной ск...
100500 способов кэширования в Oracle Database или как достичь максимальной ск...Ontico
 
Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...
Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...
Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...Ontico
 
Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...
Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...
Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...Ontico
 
Как мы учились чинить самолеты в воздухе / Евгений Коломеец (Virtuozzo)
Как мы учились чинить самолеты в воздухе / Евгений Коломеец (Virtuozzo)Как мы учились чинить самолеты в воздухе / Евгений Коломеец (Virtuozzo)
Как мы учились чинить самолеты в воздухе / Евгений Коломеец (Virtuozzo)Ontico
 
Java и Linux — особенности эксплуатации / Алексей Рагозин (Дойче Банк)
Java и Linux — особенности эксплуатации / Алексей Рагозин (Дойче Банк)Java и Linux — особенности эксплуатации / Алексей Рагозин (Дойче Банк)
Java и Linux — особенности эксплуатации / Алексей Рагозин (Дойче Банк)Ontico
 
Как построить кластер для расчета сотен тысяч high-CPU/high-MEM-задач и не ра...
Как построить кластер для расчета сотен тысяч high-CPU/high-MEM-задач и не ра...Как построить кластер для расчета сотен тысяч high-CPU/high-MEM-задач и не ра...
Как построить кластер для расчета сотен тысяч high-CPU/high-MEM-задач и не ра...Ontico
 

Más de Ontico (20)

Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...
Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...
Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...
 
Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...
Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...
Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...
 
PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)
PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)
PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)
 
Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...
Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...
Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...
 
Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...
Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...
Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...
 
ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)
ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)
ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)
 
MySQL Replication — Advanced Features / Петр Зайцев (Percona)
MySQL Replication — Advanced Features / Петр Зайцев (Percona)MySQL Replication — Advanced Features / Петр Зайцев (Percona)
MySQL Replication — Advanced Features / Петр Зайцев (Percona)
 
Внутренний open-source. Как разрабатывать мобильное приложение большим количе...
Внутренний open-source. Как разрабатывать мобильное приложение большим количе...Внутренний open-source. Как разрабатывать мобильное приложение большим количе...
Внутренний open-source. Как разрабатывать мобильное приложение большим количе...
 
Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...
Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...
Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...
 
Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...
Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...
Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...
 
Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)
Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)
Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)
 
И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)
И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)
И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)
 
Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)
Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)
Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)
 
Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)
Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)
Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)
 
100500 способов кэширования в Oracle Database или как достичь максимальной ск...
100500 способов кэширования в Oracle Database или как достичь максимальной ск...100500 способов кэширования в Oracle Database или как достичь максимальной ск...
100500 способов кэширования в Oracle Database или как достичь максимальной ск...
 
Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...
Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...
Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...
 
Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...
Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...
Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...
 
Как мы учились чинить самолеты в воздухе / Евгений Коломеец (Virtuozzo)
Как мы учились чинить самолеты в воздухе / Евгений Коломеец (Virtuozzo)Как мы учились чинить самолеты в воздухе / Евгений Коломеец (Virtuozzo)
Как мы учились чинить самолеты в воздухе / Евгений Коломеец (Virtuozzo)
 
Java и Linux — особенности эксплуатации / Алексей Рагозин (Дойче Банк)
Java и Linux — особенности эксплуатации / Алексей Рагозин (Дойче Банк)Java и Linux — особенности эксплуатации / Алексей Рагозин (Дойче Банк)
Java и Linux — особенности эксплуатации / Алексей Рагозин (Дойче Банк)
 
Как построить кластер для расчета сотен тысяч high-CPU/high-MEM-задач и не ра...
Как построить кластер для расчета сотен тысяч high-CPU/high-MEM-задач и не ра...Как построить кластер для расчета сотен тысяч high-CPU/high-MEM-задач и не ра...
Как построить кластер для расчета сотен тысяч high-CPU/high-MEM-задач и не ра...
 

Ксения Жагорина (СКБ-Контур)

  • 2. Все знают, что ФИО не уникально…
  • 3. Все знают, что ФИО не уникально… Иванов Иван Иванович 1.600 чел. Предполагаемое число людей с таким ФИО в России
  • 4. Все знают, что ФИО не уникально… Иванов Иван Иванович 1.600 чел. Иванов Сергей Владимирович 6.200 чел. Кузнецов Сергей Александрович 4.600 чел. … Предполагаемое число людей с таким ФИО в России
  • 5. А на самом деле …
  • 6. А на самом деле … 0.999 0.96 0.68 0 0,2 0,4 0,6 0,8 1 1 100 10 000 1 000 000 СуникальнымФИО Количество людей в сообществе Доля людей с уникальным ФИО
  • 7. И какая же польза?
  • 8. И какая же польза? • Поиск «клонов»
  • 9. И какая же польза? • Поиск «клонов» • Интеграция сервисов
  • 10. База данных ЕГРЮЛ 21 М упоминаний c ИНН 13 М человек
  • 11. База данных ЕГРЮЛ 11 М упоминаний без ИНН 21 М упоминаний c ИНН 13 М человек
  • 12. База данных ЕГРЮЛ 11 М упоминаний без ИНН 21 М упоминаний c ИНН 13 М человек
  • 13. База данных ЕГРЮЛ 11 М упоминаний без ИНН 21 М упоминаний c ИНН 13 М человек
  • 14. База данных ЕГРЮЛ 11 М упоминаний без ИНН 21 М упоминаний c ИНН 13 М человек Семенов С.А.Семенов С.А. Рогов А.В.Копытов Д.Е. Иванов И.И.
  • 15. База данных ЕГРЮЛ 11 М упоминаний без ИНН 21 М упоминаний c ИНН 13 М человек Семенов С.А.Семенов С.А. Рогов А.В.Копытов Д.Е. Иванов И.И. ?
  • 17.
  • 18. Постановка задачи По двум упоминаниям с одинаковым ФИО определить насколько вероятно, что они об одном и том же человеке.
  • 19. Методика тестирования Тестирование – на упоминаниях с указанным ИНН Оценка модели – точность и полнота Точность = |Найденные верные связи| |Все найденные связи| Полнота = |Найденные верные связи| |Все верные связи|
  • 20. Модель на основе независимых ФИО. 𝑃фио = 𝑃 Ф ∗ 𝑃 И ∗ 𝑃 О
  • 21. Модель на основе независимых ФИО. 𝑃фио = 𝑃 Ф ∗ 𝑃 И ∗ 𝑃 О 𝑁фио = 𝐵𝑖𝑛 𝑛, 𝑝 Количество людей с данным ФИО
  • 22. Модель на основе независимых ФИО. 𝑃фио = 𝑃 Ф ∗ 𝑃 И ∗ 𝑃 О 𝑁фио = 𝐵𝑖𝑛 𝑛, 𝑝 Количество людей с данным ФИО Вероятность связи 𝑃 = 𝑃 𝑁фио < 1
  • 23. Модель на основе независимых ФИО. 0,0 0,2 0,4 0,6 0,8 1,0 0,0 0,2 0,4 0,6 0,8 1,0 полнота,точностьв% P(Nфио < 1) точность полнота
  • 24. База данных ЕГРЮЛ 11 М упоминаний без ИНН 21 М упоминаний c ИНН 13 М человек Семенов С.А.Семенов С.А. Рогов А.В.Копытов Д.Е. Иванов И.И.
  • 25. База данных ЕГРЮЛ 11 М упоминаний без ИНН 21 М упоминаний c ИНН 13 М человек Семенов С.А.Семенов С.А. Рогов А.В.Копытов Д.Е. Иванов И.И.
  • 26. База данных ЕГРЮЛ 11 М упоминаний без ИНН 21 М упоминаний c ИНН 13 М человек ООО «Рога и Копыта» Москва ЗАО «ЗаМКАД» Московская обл. Семенов С.А.Семенов С.А. Рогов А.В.Копытов Д.Е. Иванов И.И.
  • 27. Модель на основе зависимости ФИО и региона. 𝑃𝑅ФИО = 𝑃𝑅ФОИ = 𝑃 𝑅 ∗ 𝑃 Ф 𝑅) ∗ 𝑃(О 𝑅Ф ∗ 𝑃 И 𝑅ФО 𝑃(О 𝑅Ф ≈ 𝑃 О Ф 𝑃(И 𝑅ФО ≈ 𝑃 И О 𝑃𝑅ФИО = 𝑃 𝑅 ∗ 𝑃 Ф 𝑅) ∗ 𝑃(О Ф ∗ 𝑃 И О 𝑃ФИО = 𝑃(Ф) ∗ 𝑃(О Ф ∗ 𝑃 И О Вероятность связи 𝑃 = 𝑃 𝑁 𝑅ФИО < 1
  • 28. Модель на основе зависимости ФИО и региона. 𝑃𝑅ФИО = 𝑃𝑅ФОИ = 𝑃 𝑅 ∗ 𝑃 Ф 𝑅) ∗ 𝑃(О 𝑅Ф ∗ 𝑃 И 𝑅ФО 𝑃(О 𝑅Ф ≈ 𝑃 О Ф 𝑃(И 𝑅ФО ≈ 𝑃 И О 𝑃𝑅ФИО = 𝑃 𝑅 ∗ 𝑃 Ф 𝑅) ∗ 𝑃(О Ф ∗ 𝑃 И О 𝑃ФИО = 𝑃(Ф) ∗ 𝑃(О Ф ∗ 𝑃 И О Вероятность связи 𝑃 = 𝑃 𝑁 𝑅ФИО < 1
  • 29. Модель на основе зависимости ФИО и региона. 𝑃𝑅ФИО = 𝑃𝑅ФОИ = 𝑃 𝑅 ∗ 𝑃 Ф 𝑅) ∗ 𝑃(О 𝑅Ф ∗ 𝑃 И 𝑅ФО 𝑃(О 𝑅Ф ≈ 𝑃 О Ф 𝑃(И 𝑅ФО ≈ 𝑃 И О 𝑃𝑅ФИО = 𝑃 𝑅 ∗ 𝑃 Ф 𝑅) ∗ 𝑃(О Ф ∗ 𝑃 И О 𝑃ФИО = 𝑃(Ф) ∗ 𝑃(О Ф ∗ 𝑃 И О Вероятность связи 𝑃 = 𝑃 𝑁 𝑅ФИО < 1
  • 30. Модель на основе зависимости ФИО и региона. 0,0 0,2 0,4 0,6 0,8 1,0 0,0 0,2 0,4 0,6 0,8 1,0 Полнота,точностьв% P(NRФИО < 1) точность полнота
  • 31. Модель на основе независимых ФИО. 0,0 0,2 0,4 0,6 0,8 1,0 0,0 0,2 0,4 0,6 0,8 1,0 полнота,точностьв% P(Nфио < 1) точность полнота
  • 32. Модель на основе зависимости ФИО и региона. Результаты. Рогов А.В.Рогов А.В. ? ООО «Рога и Копыта» Москва P = 0.684 ЗАО «ЗаМКАД» Москва R = Москва ФИО = Рогов Александр Владимирович P = P(NRФИО<1) = 0.684
  • 33. Модель на основе зависимости ФИО и региона. Результаты. Копытов Д.Е.Копытов Д.Е. ? ООО «Рога и Копыта» Москва R = Москва ФИО = Копытов Давид Ефремович P = P(NRФИО<1) = 0.986 P = 0.986 ЗАО «ЗаМКАД» Москва
  • 34. Модель на основе зависимости ФИО и региона. Результаты. Семенов С.А.Семенов С.А. ? ООО «Рога и Копыта» Москва R = Москва ФИО = Семёнов Сергей Андреевич P = P(NRФИО<1) = 0.396 P = 0.396 ЗАО «ЗаМКАД» Москва
  • 35. Вывод Полнота 80% при точности 95%. 150 млн. новых связей.
  • 36.
  • 37.
  • 39.
  • 40. 99.9 96.2 68.2 74.7 32,1 95,8 80,3 23,8 2,7 0 20 40 60 80 100 1 100 10 000 1 000 000 СуникальнымФИО(в%) Количество людей в сообществе Доля людей с уникальным ФИО ФИО ФИ Ф