"Использование открытых данных в современных научных исследованиях".
В презентации раскрывается тема открытых данных (Open Data) и их применение в современных научных исследованиях и научных сообществах. Затрагивается эволюционирование технической реализации концепции открытых данных в пространстве связанных открытых данных (Linked Open Data). Дается общее представление о современных тенденциях в области открытия науки (Open Science).
1. Использование открытых данных
в современных научных исследованиях
Радченко Ирина Алексеевна,
кандидат технических наук, доцент,
научный сотрудник Центра семантических технологий НИУ ВШЭ
http://about.me/Irina.Radchenko
НИУ ВШЭ, Москва, 2012
2. Что такое открытые данные?
• Открытые данные — это концепция, заключающаяся в том,
что данные должны быть свободно доступны для всех
пользователей и пригодны для повторного использования
без ограничений авторского права, патентов
и других механизмов контроля.
НИУ ВШЭ, Москва, 2012
2
3. Открытые данные
во временной перспективе
Источник: http://visual.ly/open-data-movement
НИУ ВШЭ, Москва, 2012
3
6. Открытые государственные данные
за рубежом
Цель: повысить открытость, доступность данных для граждан,
способствовать распространению государственных данных
в США:
http://www.data.gov/ в Великобритании:
http://www.utah.gov/data/ http://data.gov.uk/
http://data.octo.dc.gov/ http://data.london.gov.uk/
https://nycopendata.socrata.com/
http://www.govtrack.us/ в Канаде:
http://openstates.org/ http://www.toronto.ca/open/
https://data.edmonton.ca/
в Австралии: http://data.nanaimo.ca/
http://data.gov.au/ http://data.vancouver.ca/
во Франции: в Швеции:
http://www.data.gouv.fr/ http://www.opengov.se/data/
НИУ ВШЭ, Москва, 2012
6
7. Пятизвездочная модель открытых данных
по Тиму Бернерсу-Ли
Источники: http://5stardata.info/, http://www.w3.org/DesignIssues/LinkedData.html
НИУ ВШЭ, Москва, 2012
7
8. Пятизвездочная модель открытых данных
по Тиму Бернерсу-Ли
★ Данные доступны в Вебе (в любом формате), но подпадают под лицензию
Открытых Данных (Open Data) —
http://www.nationalarchives.gov.uk/doc/open-government-licence/.
★★ Данные доступны в качестве машинообрабатываемых структурированных
данных (например, в виде Excel-таблицы вместо отсканированного
изображения таблицы).
★★★ Данные соответствуют двум звездам, плюс представлены
в непроприетарном формате (например, в формате CSV вместо Excel-
формата).
★★★★ Данные соответствуют трем звездам, плюс представлены в открытых
стандартах консорциума W3C (RDF и SPARQL), предназначенных для
идентификации данных.
★★★★★ Данные соответствуют четырем звездам, плюс они связаны с другими
данными с учетом контекста их использования.
Источники: http://www.w3.org/DesignIssues/LinkedData.html, http://iradche.livejournal.com/8909.html
НИУ ВШЭ, Москва, 2012
8
9. Динамика развития Linked Open Data
Темпы нарастания объемов фактов
Количество
наборов LOD
2007 2008 2009 2010
Время
Источник: http://www.w3.org/wiki/SweoIG/TaskForces/CommunityProjects/LinkingOpenData
НИУ ВШЭ, Москва, 2012
9
10. Пример использования LOD: проект DBpedia
Проект DBpedia послужил главным толчком к развитию Linked Open Data.
DBpedia — проект, направленный на извлечение структурированной
информации из данных, собранных в рамках проекта Wikipedia.
Источник: http://dbpedia.org/About, http://wiki.dbpedia.org/Applications
НИУ ВШЭ, Москва, 2012
10
11. Области использования Linked Open Data
Облако наборов LOD охватывает около 30 миллиардов триплетов и 500 миллионов связей
СМИ
География
Публикации
Созданный
пользователями контент
Государственные данные
Междисциплинарные области
Науки о жизни
Источник: http://www.w3.org/wiki/SweoIG/TaskForces/CommunityProjects/LinkingOpenData
НИУ ВШЭ, Москва, 2012
11
12. Преимущества использования
Linked Open Data
Связанность данных
Доступность данных
Машиночитаемость данных
НИУ ВШЭ, Москва, 2012
12
13. Стек Linked Open Data
Прикладной
уровень
Интеграция
Мэшапы Поисковые системы
данных
Базы данных и публикация
Лицензии открытых данных
Запросы на SPARQL
данных
Словари Онтологии
Обмен
RDF Идентификаторы URL
Транспортный уровень: протокол HTTP
Элементы стека данных LOD – 2 мая 2011, лицензия CC BY-CA-NC
Автор Тим Дэвис Источник: http://iradche.livejournal.com/9036.html
НИУ ВШЭ, Москва, 2012
13
14. Следующий шаг: проект LOD2
Развитие проекта LOD2
при поддержке
7 рамочной программы
Европейского союза
Источник: http://lod2.eu/
НИУ ВШЭ, Москва, 2012
14
15. Стек разработок проекта LOD2
PoolParty – система
Sig.ma – инструментарий
управления тезаурусом
OntoWiki – инструментарий для разработки Веба Данных:
и редактирования контента
для работы с моделью RDF, RDFa или микроформатов
в рамках концепции Semantic
данных RDF (стандарт Веба Данных).
Web (включая Text Mining
Sig.ma – браузер Semantic Web
и связанные данные).
Dbpedia Extraction – получает
Comprehensive Knowledge D2R Server – инструментарий
структурированную
Archive Network (CKAN) – для опубликования
информацию из Wikipedia
каталог для наборов реляционных баз данных
и делает ее машиночитаемой
открытых данных в Semantic Web
и связанной
SemMF – инструментарий
MonetDB – система
для расчета схожести
DL-Learner – инструментарий управления базами данных,
объектов, подвергающихся
для мониторинга машинного поддерживающая
связыванию.
обучения в OWL реляционные базы данных,
Представляет связанные
XML и RDF-данные
объекты в виде RDF-графа
Источники: http://lod2.eu/, http://iradche.livejournal.com/9703.html
НИУ ВШЭ, Москва, 2012
15
16. Стек разработок проекта LOD2
Silk Framework поддерживает
Sindice – инструментарий
публикацию RDF-данных Sparallax – интерфейс
для объединения огромных
из разнородных для реализации
массивов связанных данных
информационных источников. SPARQL-запросов,
в единое информационное
Использует декларативный основанных
пространство
язык Silk - Link Specification на Freebase Parallax
связанных данных
Language (Silk-LSL)
The Web Information Quality
OpenLink Virtuoso – база
Assessment Framework (WIQA)
знаний и платформа
– инструментарий
Triplify обеспечивает перевод виртуализации,
для аналитической обработки
данных в RDF-формат интегрирующая данные,
и фильтрации данных,
сервисы и бизнес-процессы
представляемых в рамках
в рамках предприятия
концепции Semantic Web
LIMES – инструментарий
Spatial Semantic Browers –
для связывания данных
приложение для просмотра
в рамках концепции
геоданных в формате RDF
Semantic Web
Источники: http://lod2.eu/, http://iradche.livejournal.com/9703.html
НИУ ВШЭ, Москва, 2012
16
17. Основные направления инициатив,
направленных на открытие науки
Открытие массивов научных данных
Создание электронных научных хранилищ
и профильных поисковых сервисов
Разработка инструментов
для совместной работы
Создание специализированных
научных социальных сетей
НИУ ВШЭ, Москва, 2012
17
18. Примеры использования наборов
открытых данных в науке
Genome Commons (http://genomecommons.org/)
Хранилище связанных наборов данных из различных
источников: dbSNP, dbGaP, PharmGKB, GeneTests, OMIM,
MutationView и сотни специализированных баз данных.
TARDIS,
The Australian Repositories for Diffraction ImageS
(http://www.tardis.edu.au/)
Хранилище наборов данных по кристаллографии
и молекулярной биологии.
НИУ ВШЭ, Москва, 2012
18
19. Примеры использования наборов
открытых данных в науке
Australian Social Science Data Archive
(http://www.assda.edu.au/)
Архив данных социальных наук Австралии.
Council of European Social Science Data Archives
(http://www.cessda.org/)
Архивы данных социальных наук
Европейского совета.
НИУ ВШЭ, Москва, 2012
19
20. Примеры использования наборов
открытых данных в науке
National Radio Astronomy Observatory
(https://archive.nrao.edu/archive/)
Архив данных национальной
радиоастрономической обсерватории (США).
Social Science Data Archive
(http://dataarchives.ss.ucla.edu/)
Архив данных социальных наук (США).
НИУ ВШЭ, Москва, 2012
20
21. Электронные научные хранилища
и профильные поисковые сервисы за рубежом
JSTOR ScienceDirect
CiteSeerX EBSCO
Scopus WorldCat
НИУ ВШЭ, Москва, 2012
21
22. Электронные научные хранилища
и профильные поисковые сервисы за рубежом
Google Books Web of Science
MS Academic
Open Library Search
Inspec arXiv
НИУ ВШЭ, Москва, 2012
22
23. Электронные научные хранилища
и профильные поисковые сервисы в России
eLibrary Math-Net.Ru
VINITI Database
RAS BookFinder
Руконт eBdb
НИУ ВШЭ, Москва, 2012
23
24. Разработка инструментов
для совместной работы исследователей
Digital Science (http://www.digital-science.com/)
предоставляет программные продукты
для совместных научно-исследовательских работ.
Figshare (http://figshare.com/) предоставляет
исследователям следующие возможности:
• быстрая публикация результатов исследований;
• упрощенная процедура цитирования;
• совместное использование результатов
заинтересованными исследователями.
Лицензия: Creative commons
НИУ ВШЭ, Москва, 2012
24
25. Разработка инструментов
для совместной работы исследователей
Tools for the Citizen Scientist (NASA)
Предоставляет
программные продукты
для совместных
научно-исследовательских работ.
Источники: http://open.nasa.gov/plan/progress/, http://open.nasa.gov/plan/
НИУ ВШЭ, Москва, 2012
25
26. Создание специализированных
научных социальных сетей
Research Gate (http://www.researchgate.net/)
Социальная сеть для ученых всех научных дисциплин.
Research Gate (https://secure.quantiamd.com/)
Социальная сеть для врачей.
Sermo (http://www.sermo.com/)
Социальная сеть для врачей.
НИУ ВШЭ, Москва, 2012
26
27. Создание специализированных
научных социальных сетей
MitCogNet (https://cognet.mit.edu/)
Социальная сеть для ученых, занимающихся
исследованиями мозга и мозговой деятельности.
BioMedExpert (http://www.biomedexperts.com/)
Социальная сеть для исследователей в области
биомедицины.
Social Science Research Network (http://www.ssrn.com/)
Социальная сеть для исследователей в области
социальных наук.
НИУ ВШЭ, Москва, 2012
27