3. Все знают, что
ФИО не уникально…
Иванов Иван Иванович 1.600 чел.
Предполагаемое
число людей с
таким ФИО в
России
4. Все знают, что
ФИО не уникально…
Иванов Иван Иванович 1.600 чел.
Иванов Сергей Владимирович 6.200 чел.
Кузнецов Сергей Александрович 4.600 чел.
…
Предполагаемое
число людей с
таким ФИО в
России
6. А на самом деле …
0.999 0.96
0.68
0
0,2
0,4
0,6
0,8
1
1 100 10 000 1 000 000
СуникальнымФИО
Количество людей в сообществе
Доля людей с уникальным ФИО
21. Модель на основе независимых ФИО.
𝑃фио = 𝑃 Ф ∗ 𝑃 И ∗ 𝑃 О
𝑁фио = 𝐵𝑖𝑛 𝑛, 𝑝
Количество людей с данным ФИО
22. Модель на основе независимых ФИО.
𝑃фио = 𝑃 Ф ∗ 𝑃 И ∗ 𝑃 О
𝑁фио = 𝐵𝑖𝑛 𝑛, 𝑝
Количество людей с данным ФИО
Вероятность связи
𝑃 = 𝑃 𝑁фио < 1
23. Модель на основе независимых ФИО.
0,0
0,2
0,4
0,6
0,8
1,0
0,0 0,2 0,4 0,6 0,8 1,0
полнота,точностьв%
P(Nфио < 1)
точность
полнота
24. База данных ЕГРЮЛ
11 М упоминаний
без ИНН
21 М упоминаний c ИНН
13 М человек
Семенов С.А.Семенов С.А.
Рогов А.В.Копытов Д.Е. Иванов И.И.
25. База данных ЕГРЮЛ
11 М упоминаний
без ИНН
21 М упоминаний c ИНН
13 М человек
Семенов С.А.Семенов С.А.
Рогов А.В.Копытов Д.Е. Иванов И.И.
26. База данных ЕГРЮЛ
11 М упоминаний
без ИНН
21 М упоминаний c ИНН
13 М человек
ООО «Рога и Копыта»
Москва
ЗАО «ЗаМКАД»
Московская обл.
Семенов С.А.Семенов С.А.
Рогов А.В.Копытов Д.Е. Иванов И.И.
27. Модель на основе зависимости ФИО
и региона.
𝑃𝑅ФИО = 𝑃𝑅ФОИ = 𝑃 𝑅 ∗ 𝑃 Ф 𝑅) ∗ 𝑃(О 𝑅Ф ∗ 𝑃 И 𝑅ФО
𝑃(О 𝑅Ф ≈ 𝑃 О Ф
𝑃(И 𝑅ФО ≈ 𝑃 И О
𝑃𝑅ФИО = 𝑃 𝑅 ∗ 𝑃 Ф 𝑅) ∗ 𝑃(О Ф ∗ 𝑃 И О
𝑃ФИО = 𝑃(Ф) ∗ 𝑃(О Ф ∗ 𝑃 И О
Вероятность связи
𝑃 = 𝑃 𝑁 𝑅ФИО < 1
28. Модель на основе зависимости ФИО
и региона.
𝑃𝑅ФИО = 𝑃𝑅ФОИ = 𝑃 𝑅 ∗ 𝑃 Ф 𝑅) ∗ 𝑃(О 𝑅Ф ∗ 𝑃 И 𝑅ФО
𝑃(О 𝑅Ф ≈ 𝑃 О Ф
𝑃(И 𝑅ФО ≈ 𝑃 И О
𝑃𝑅ФИО = 𝑃 𝑅 ∗ 𝑃 Ф 𝑅) ∗ 𝑃(О Ф ∗ 𝑃 И О
𝑃ФИО = 𝑃(Ф) ∗ 𝑃(О Ф ∗ 𝑃 И О
Вероятность связи
𝑃 = 𝑃 𝑁 𝑅ФИО < 1
29. Модель на основе зависимости ФИО
и региона.
𝑃𝑅ФИО = 𝑃𝑅ФОИ = 𝑃 𝑅 ∗ 𝑃 Ф 𝑅) ∗ 𝑃(О 𝑅Ф ∗ 𝑃 И 𝑅ФО
𝑃(О 𝑅Ф ≈ 𝑃 О Ф
𝑃(И 𝑅ФО ≈ 𝑃 И О
𝑃𝑅ФИО = 𝑃 𝑅 ∗ 𝑃 Ф 𝑅) ∗ 𝑃(О Ф ∗ 𝑃 И О
𝑃ФИО = 𝑃(Ф) ∗ 𝑃(О Ф ∗ 𝑃 И О
Вероятность связи
𝑃 = 𝑃 𝑁 𝑅ФИО < 1
30. Модель на основе зависимости ФИО и
региона.
0,0
0,2
0,4
0,6
0,8
1,0
0,0 0,2 0,4 0,6 0,8 1,0
Полнота,точностьв%
P(NRФИО < 1)
точность
полнота
31. Модель на основе независимых ФИО.
0,0
0,2
0,4
0,6
0,8
1,0
0,0 0,2 0,4 0,6 0,8 1,0
полнота,точностьв%
P(Nфио < 1)
точность
полнота
32. Модель на основе зависимости ФИО
и региона. Результаты.
Рогов А.В.Рогов А.В.
?
ООО «Рога и Копыта»
Москва
P = 0.684
ЗАО «ЗаМКАД»
Москва
R = Москва
ФИО = Рогов Александр Владимирович
P = P(NRФИО<1) = 0.684
33. Модель на основе зависимости ФИО
и региона. Результаты.
Копытов Д.Е.Копытов Д.Е.
?
ООО «Рога и Копыта»
Москва
R = Москва
ФИО = Копытов Давид Ефремович
P = P(NRФИО<1) = 0.986
P = 0.986
ЗАО «ЗаМКАД»
Москва
34. Модель на основе зависимости ФИО
и региона. Результаты.
Семенов С.А.Семенов С.А.
?
ООО «Рога и Копыта»
Москва
R = Москва
ФИО = Семёнов Сергей Андреевич
P = P(NRФИО<1) = 0.396
P = 0.396
ЗАО «ЗаМКАД»
Москва