There are more than 100 million scientific papers and the pace of publishing is ever-increasing. More than one million articles are authored by someone named Wang. Working with the product of academia can be really far from working in academia. Learn anecdotes and stories about parsing, analyzing and extracting value from this kind of data.
Presented at Highload fwdays'18 in Kyiv, Ukraine.
2. Проблема:
•Существует 100+ млн научных публикаций
•Население растёт, количество учёных - тоже
•С каждым годом учёные пишут всё больше статей
•А ещё патенты, техническая документация,
клинические исследования...
7. Все любят сокращать
•We study the impact of a warm dark matter (WDM)
cosmology on dwarf galaxy formation...
•...in both CDM and WDM models. WDM halos ...
•...the most massive WDM galaxy (Halo m10k) collapses...
•...their CDM counterparts, as can be seen by comparing
the colored lines (WDM)...
14. Было
•10 миллионов статей отъедало 130 Гб ОЗУ
•Считалось сутки, сохранялось часов пять
•Удаление занимало до сорока минут
•Десятки гигабайт в Postgres WAL
•Стриминговый бекап ложился
15. Что сделали
•Написали свою реализацию Louvain на Cython
•Кластеризация таблиц в Postgres
•import array
•Сохраняем параллельно с обсчетом
16. Сравним
•Скорость:
10М за 30 часов → 31М статей за 15 часов
•Память:
10М и 130 Гб → 80-90 Гб, в пике до 110 Гб
•Удаление и фрагментация таблиц:
40 минут, потом VACUUM → DROP TABLE
19. J Smith
•John Smith
•Johannes Smith
•Jekyll E Smith
•Jekyll M Smith
•Jekyll EM Smith
•J David Smith
•Jekyll Smith Jr.
•Jekyll Smith III
20. •John Smith
•Johannes Smith
•Jekyll E Smith
•Jekyll M Smith
•Jekyll EM Smith
•J David Smith
•Jekyll Smith Jr.
•Jekyll Smith III
•JekillE Smith
•JEKYLL. E. SMITH
J Smith
21. JL Smith, MB Salamon
Кто из:
•James L. Smith, Myron B. Salamon
•Janet L. Smith, Theodora Hatziioannou
22. JL Smith, MB Salamon
Кто из:
•James L. Smith, Myron B. Salamon
•Janet L. Smith, Theodora Hatziioannou
•Jerald L. Smith, Miriam Salamon
23. J Smith
•Больше 35 тысяч статей, подписанных каким-
нибудь J Smith (в нашей базе)
•Это больше тысячи реальных людей
•Кто-то написал сотни статей, кто-то - одну-две
25. Топ имен
Wei Wang 16700
Wei Zhang 14300
Wei Li 12500
Lei Zhang 10550
Jing Wang 10250
Yan Li 10000
Lei Wang 9900
26. Еще исключительные случаи
•Тысячи авторов в одной статье
•Два автора с одинаковым именем в статье
•Группы авторов
•ATLAS collaboration
•Investigators of the European Huntington's Disease
Network
27. Идентификаторы
спешат на помощь
•Специальные идентификаторы для научных авторов
•ORCID – 0000-0001-8073-3068
•ScopusID – 13204492100
•ResearcherID – E-3698-2015
•Email
33. А что делают другие?
•Cited "V S Saxena" but the profile reads "Vikram S
Saxena". This made it a tedious process to manually
resolve out the conflicts.
•For each pair of publication records, we compute all
basic features.
•Почти всегда разбирают заново
41. Реальность
•Не объединять Jurg и Jurgen в одного автора
•Но если e-mail или ORCID совпадает - объединять
•А если два разных ORCID - то не объединять
•Но...
•А если...
•И каждый день новые данные
43. Новые данные
•Результат должен быть стабилен
•Больше миллиона новых имен в день
•100+ миллионов "статейных" авторов всего
•Наколенный скоринг с эвристиками