SlideShare una empresa de Scribd logo
1 de 27
Descargar para leer sin conexión
Открытые	
  и	
  большие	
  данные	
  
на	
  практике	
  
Иван	
  Бегтин	
  
Директор	
  НП	
  “Информационная	
  культура”	
  
	
  
	
  
	
  
	
  
	
  
Типовые	
  ситуации	
  в	
  data-­‐
журналистике	
  
Есть	
  данные	
  -­‐	
  нет	
  идеи
	
  
Есть	
  идея	
  –	
  нет	
  данных
	
  
Нет	
  ни	
  данных,	
  ни	
  идеи,	
  но
	
  
сделать	
  надо	
  завтра!
	
  
Идеальная	
  ситуация	
  
Это	
  когда	
  есть:	
  
ü  Идея	
  
ü  Данные	
  
ü  Время	
  
ü  +	
  Технологии	
  
	
  
Что	
  делать?	
  
Готовимся	
  заранее:	
  Данные	
  
•  Большие	
  данные:	
  знаем	
  где	
  искать,	
  знаем	
  что	
  
делать	
  
•  Ключевые	
  онлайн	
  API	
  и	
  наборы	
  данных	
  
•  Screen	
  Scraping	
  
•  Основные	
  инструменты	
  очистки	
  данных	
  
	
  
Как	
  быстро	
  найти	
  данные?	
  
•  Спросить:	
  
•  Quora.com	
  
•  StackOverclow	
  -­‐	
  http://opendata.stackexchange.com/	
  
•  Рассылки	
  OKF,	
  группы	
  в	
  Facebook	
  и	
  тд.	
  

•  Каталоги	
  
•  The	
  Data	
  hub	
  –	
  http://thedatahub.org	
  	
  
•  Хаб	
  открытых	
  данных	
  –	
  http://hubofdata.ru	
  	
  
•  Data	
  Catalogs	
  –	
  http://datacatalogs.org/	
  
	
  
Wikipedia	
  
Wikipedia	
  
•  Wikipedia:	
  
• 
• 
• 
• 
• 
	
  

API	
  -­‐	
  http://en.wikipedia.org/w/api.php	
  	
  
Дампы	
  –	
  http://download.wikimedia.org	
  
DBPedia	
  –	
  http://dbpedia.org	
  
Wikidata	
  –	
  http://wikidata.org	
  	
  
FreeBase	
  -­‐	
  http://www.freebase.com/	
  
Основные	
  базы	
  данных	
  онлайн	
  
•  Международные:	
  
•  The	
  Data	
  Hub	
  –	
  http://thedatahub.org	
  
•  Всемирный	
  банк	
  –	
  http://data.worldbank.org	
  
•  ООН	
  –	
  http://data.un.org	
  

•  Национальные	
  
•  Хаб	
  открытых	
  данных	
  –	
  http://hubofdata.ru	
  	
  
•  США	
  –	
  http://data.gov	
  
•  UK	
  –	
  http://data.gov.uk	
  	
  
	
  
Основные	
  способы	
  работы	
  с	
  большими	
  
данными	
  

•  Выкачивать	
  целиком	
  под	
  задачу	
  
•  Найти	
  и	
  использовать	
  чужое	
  API	
  
•  Сделать	
  своё	
  API	
  	
  
Web	
  /	
  Screen	
  scraping	
  
Что	
  такое	
  Web/Screen/Data	
  Scraping?	
  

•  не	
  ждем	
  данных	
  –	
  собираем	
  их	
  сами	
  
•  извлекаем	
  их	
  из	
  веб-­‐страниц,	
  
файлов	
  и	
  печатных	
  документов	
  
•  переводим	
  неструктуриованное	
  в	
  
базы	
  данных	
  
	
  
Инструменты	
  

•  Программирование	
  
•  Python	
  +	
  lxml	
  or	
  BeautifulSoup	
  +	
  база	
  данных	
  
•  Или	
  …любой	
  другой	
  язык	
  программирования	
  

•  Платформы:	
  
•  ScraperWiki.com	
  –	
  тоже	
  Python,	
  но	
  проще	
  

•  Abbyy	
  PDFTransformer	
  +	
  Finereader	
  
	
  
Технологии	
  
Технологии	
  

•  Открытый	
  код	
  
•  Инструменты	
  визуализации	
  
•  Обработка	
  данных	
  
	
  
Government.github.com	
  
Selection.datavizualisation.ch	
  
Developers.google.com	
  
Tech.yandex.ru	
  
Пример:	
  
Российская	
  общественная	
  
инициатива	
  
Сайт	
  РОИ	
  
Как	
  действовать	
  

•  Собрать	
  идеи	
  
•  Написать	
  scraper	
  и	
  посмотреть	
  
данные	
  
•  Посмотреть	
  что	
  сделали	
  другие:	
  
•  WeThePeople	
  –	
  http://petitions.whitehouse.gov	
  
•  E-­‐Petitions	
  http://petitions.direct.gov.uk	
  	
  

	
  
Что	
  есть?	
  
•  Анализ	
  данных	
  РОИ	
  и	
  аналогичных	
  проектов	
  –	
  
http://habrahabr.ru/company/infoculture/	
  
•  Код	
  на	
  Python	
  -­‐	
  https://github.com/ivbeg/apiroi	
  
•  Дамп	
  базы	
  -­‐	
  http://hubofdata.ru/dataset/roi-­‐dump	
  	
  

	
  
Иван	
  Бегтин	
  
Email:	
  ibegtin@infoculture.ru	
  
Сайт:	
  http://ivan.begtin.name	
  	
  
Facebook:	
  facebook.com/ibegtin	
  
twitter.:	
  ibegtin	
  

Вопросы?	
  

Más contenido relacionado

La actualidad más candente

Скрытый капитал открытых данных: кто и как может им воспользоваться в Беларуси.
Скрытый капитал открытых данных: кто и как может им воспользоваться в Беларуси.Скрытый капитал открытых данных: кто и как может им воспользоваться в Беларуси.
Скрытый капитал открытых данных: кто и как может им воспользоваться в Беларуси.ushchent
 
Государственный интернет
Государственный интернетГосударственный интернет
Государственный интернетIvan Begtin
 
Who are the 36 thousands employees of the russian defence ministry (in rus) ...
Who are the 36 thousands employees of the russian defence ministry (in rus)  ...Who are the 36 thousands employees of the russian defence ministry (in rus)  ...
Who are the 36 thousands employees of the russian defence ministry (in rus) ...DataFest Tbilisi
 
Анализ поисковых запросов с помощью R
Анализ поисковых запросов с помощью RАнализ поисковых запросов с помощью R
Анализ поисковых запросов с помощью RAristos
 
Xpir – мы находим тендеры для вас!
Xpir – мы находим тендеры для вас!Xpir – мы находим тендеры для вас!
Xpir – мы находим тендеры для вас!Lidiya Myalkina
 
Где взять данные дата-журналисту?
Где взять данные дата-журналисту?Где взять данные дата-журналисту?
Где взять данные дата-журналисту?Ivan Begtin
 
RST2014_Petrozavodsk_SmartStore
RST2014_Petrozavodsk_SmartStoreRST2014_Petrozavodsk_SmartStore
RST2014_Petrozavodsk_SmartStoreRussianStartupTour
 
RST2014_Petrozavodsk_SmartSearchSystem
RST2014_Petrozavodsk_SmartSearchSystemRST2014_Petrozavodsk_SmartSearchSystem
RST2014_Petrozavodsk_SmartSearchSystemRussianStartupTour
 

La actualidad más candente (9)

Скрытый капитал открытых данных: кто и как может им воспользоваться в Беларуси.
Скрытый капитал открытых данных: кто и как может им воспользоваться в Беларуси.Скрытый капитал открытых данных: кто и как может им воспользоваться в Беларуси.
Скрытый капитал открытых данных: кто и как может им воспользоваться в Беларуси.
 
Государственный интернет
Государственный интернетГосударственный интернет
Государственный интернет
 
Who are the 36 thousands employees of the russian defence ministry (in rus) ...
Who are the 36 thousands employees of the russian defence ministry (in rus)  ...Who are the 36 thousands employees of the russian defence ministry (in rus)  ...
Who are the 36 thousands employees of the russian defence ministry (in rus) ...
 
Анализ поисковых запросов с помощью R
Анализ поисковых запросов с помощью RАнализ поисковых запросов с помощью R
Анализ поисковых запросов с помощью R
 
Xpir – мы находим тендеры для вас!
Xpir – мы находим тендеры для вас!Xpir – мы находим тендеры для вас!
Xpir – мы находим тендеры для вас!
 
Где взять данные дата-журналисту?
Где взять данные дата-журналисту?Где взять данные дата-журналисту?
Где взять данные дата-журналисту?
 
RST2014_Petrozavodsk_SmartStore
RST2014_Petrozavodsk_SmartStoreRST2014_Petrozavodsk_SmartStore
RST2014_Petrozavodsk_SmartStore
 
RST2014_Petrozavodsk_SmartSearchSystem
RST2014_Petrozavodsk_SmartSearchSystemRST2014_Petrozavodsk_SmartSearchSystem
RST2014_Petrozavodsk_SmartSearchSystem
 
Data journalist
Data journalistData journalist
Data journalist
 

Similar a Opendata practice for Global Editors Hackathon

Opendataschool datavis
Opendataschool datavisOpendataschool datavis
Opendataschool datavisOlga Romanova
 
Opendataschool datavis
Opendataschool datavisOpendataschool datavis
Opendataschool datavisIvan Begtin
 
Журналистика данных 101
Журналистика данных 101Журналистика данных 101
Журналистика данных 101Krystsina Shveda
 
Дата-журналистика. Визуализация контента
Дата-журналистика. Визуализация контентаДата-журналистика. Визуализация контента
Дата-журналистика. Визуализация контентаMax Kornev
 
Конкурентная разведка в Интернете _ Инна Юрик _ Школа бизнес-исследований_ bu...
Конкурентная разведка в Интернете _ Инна Юрик _ Школа бизнес-исследований_ bu...Конкурентная разведка в Интернете _ Инна Юрик _ Школа бизнес-исследований_ bu...
Конкурентная разведка в Интернете _ Инна Юрик _ Школа бизнес-исследований_ bu...HRPR Camp - Самое технологичное событие в HR
 
Иван Бегтин: Как создавать общественные проекты на открытых данных
Иван Бегтин: Как создавать общественные проекты на открытых данныхИван Бегтин: Как создавать общественные проекты на открытых данных
Иван Бегтин: Как создавать общественные проекты на открытых данныхSocialCamp2013
 
Обработка данных для построения цифровой истории в журналистике данных
Обработка данных для построения цифровой истории в журналистике данныхОбработка данных для построения цифровой истории в журналистике данных
Обработка данных для построения цифровой истории в журналистике данныхIrina Radchenko
 
Бизнес модели на открытых данных
Бизнес модели на открытых данныхБизнес модели на открытых данных
Бизнес модели на открытых данныхIvan Begtin
 
Одна лекция из мира Big Data: тренды, кейсы и технологии
Одна лекция из мира Big Data: тренды, кейсы и технологии Одна лекция из мира Big Data: тренды, кейсы и технологии
Одна лекция из мира Big Data: тренды, кейсы и технологии Evgeniy Pavlovskiy
 
Алексей Иванкин: Highload + PHP
Алексей Иванкин: Highload + PHPАлексей Иванкин: Highload + PHP
Алексей Иванкин: Highload + PHPOleg Poludnenko
 
Онлайновые методы проверки источников и контента
Онлайновые методы проверки источников и контентаОнлайновые методы проверки источников и контента
Онлайновые методы проверки источников и контентаMax Kornev
 
презентация 6 июля 2012
презентация 6 июля 2012презентация 6 июля 2012
презентация 6 июля 2012Sergiy Gladkyy
 
Open Data в DataLab (23-25 января 2017). Напутстсвие джежаям
Open Data в DataLab (23-25 января 2017). Напутстсвие джежаямOpen Data в DataLab (23-25 января 2017). Напутстсвие джежаям
Open Data в DataLab (23-25 января 2017). Напутстсвие джежаямVitaly Vlasov
 
сервисы создания информационной графики
сервисы создания информационной графикисервисы создания информационной графики
сервисы создания информационной графикиOleg Khomenok
 
открытые источники информации вне Украины
открытые источники информации вне Украиныоткрытые источники информации вне Украины
открытые источники информации вне УкраиныOleg Khomenok
 
Построение системы аналитики
Построение системы аналитикиПостроение системы аналитики
Построение системы аналитикиИлья Середа
 

Similar a Opendata practice for Global Editors Hackathon (20)

Opendataschool datavis
Opendataschool datavisOpendataschool datavis
Opendataschool datavis
 
Opendataschool datavis
Opendataschool datavisOpendataschool datavis
Opendataschool datavis
 
Open Data Visualization
Open Data VisualizationOpen Data Visualization
Open Data Visualization
 
Журналистика данных 101
Журналистика данных 101Журналистика данных 101
Журналистика данных 101
 
Дата-журналистика. Визуализация контента
Дата-журналистика. Визуализация контентаДата-журналистика. Визуализация контента
Дата-журналистика. Визуализация контента
 
Конкурентная разведка в Интернете _ Инна Юрик _ Школа бизнес-исследований_ bu...
Конкурентная разведка в Интернете _ Инна Юрик _ Школа бизнес-исследований_ bu...Конкурентная разведка в Интернете _ Инна Юрик _ Школа бизнес-исследований_ bu...
Конкурентная разведка в Интернете _ Инна Юрик _ Школа бизнес-исследований_ bu...
 
Иван Бегтин: Как создавать общественные проекты на открытых данных
Иван Бегтин: Как создавать общественные проекты на открытых данныхИван Бегтин: Как создавать общественные проекты на открытых данных
Иван Бегтин: Как создавать общественные проекты на открытых данных
 
Обработка данных для построения цифровой истории в журналистике данных
Обработка данных для построения цифровой истории в журналистике данныхОбработка данных для построения цифровой истории в журналистике данных
Обработка данных для построения цифровой истории в журналистике данных
 
Бизнес модели на открытых данных
Бизнес модели на открытых данныхБизнес модели на открытых данных
Бизнес модели на открытых данных
 
Dapper + QueryObject
Dapper + QueryObjectDapper + QueryObject
Dapper + QueryObject
 
Одна лекция из мира Big Data: тренды, кейсы и технологии
Одна лекция из мира Big Data: тренды, кейсы и технологии Одна лекция из мира Big Data: тренды, кейсы и технологии
Одна лекция из мира Big Data: тренды, кейсы и технологии
 
Алексей Иванкин: Highload + PHP
Алексей Иванкин: Highload + PHPАлексей Иванкин: Highload + PHP
Алексей Иванкин: Highload + PHP
 
конкурентная разведка
конкурентная разведкаконкурентная разведка
конкурентная разведка
 
Онлайновые методы проверки источников и контента
Онлайновые методы проверки источников и контентаОнлайновые методы проверки источников и контента
Онлайновые методы проверки источников и контента
 
презентация 6 июля 2012
презентация 6 июля 2012презентация 6 июля 2012
презентация 6 июля 2012
 
Open Data в DataLab (23-25 января 2017). Напутстсвие джежаям
Open Data в DataLab (23-25 января 2017). Напутстсвие джежаямOpen Data в DataLab (23-25 января 2017). Напутстсвие джежаям
Open Data в DataLab (23-25 января 2017). Напутстсвие джежаям
 
сервисы создания информационной графики
сервисы создания информационной графикисервисы создания информационной графики
сервисы создания информационной графики
 
открытые источники информации вне Украины
открытые источники информации вне Украиныоткрытые источники информации вне Украины
открытые источники информации вне Украины
 
Построение системы аналитики
Построение системы аналитикиПостроение системы аналитики
Построение системы аналитики
 
Test2
Test2Test2
Test2
 

Más de Ivan Begtin

Сервисы инфраструктуры данных для исследователей
Сервисы инфраструктуры данных для исследователейСервисы инфраструктуры данных для исследователей
Сервисы инфраструктуры данных для исследователейIvan Begtin
 
Alternative data by Ivan Begtin
Alternative data by Ivan BegtinAlternative data by Ivan Begtin
Alternative data by Ivan BegtinIvan Begtin
 
Дата расследования в России.
Дата расследования в России.Дата расследования в России.
Дата расследования в России.Ivan Begtin
 
API в проектах Инфокультуры
API в проектах ИнфокультурыAPI в проектах Инфокультуры
API в проектах ИнфокультурыIvan Begtin
 
Цифровое культурное наследие
Цифровое культурное наследиеЦифровое культурное наследие
Цифровое культурное наследиеIvan Begtin
 
Основные источники информации о госфинансах в России (обзор систем)
Основные источники информации о госфинансах в России (обзор систем)Основные источники информации о госфинансах в России (обзор систем)
Основные источники информации о госфинансах в России (обзор систем)Ivan Begtin
 
Как не запутаться в справочниках и классификаторах бюджетной системы
Как не запутаться в справочниках и классификаторах бюджетной системыКак не запутаться в справочниках и классификаторах бюджетной системы
Как не запутаться в справочниках и классификаторах бюджетной системыIvan Begtin
 
Как устроена бюджетная система России (обзор данных и структуры)
Как устроена бюджетная система России (обзор данных и структуры)Как устроена бюджетная система России (обзор данных и структуры)
Как устроена бюджетная система России (обзор данных и структуры)Ivan Begtin
 
Проекты на данных криминальной статистики в России и в мире
Проекты на данных криминальной статистики в России и в миреПроекты на данных криминальной статистики в России и в мире
Проекты на данных криминальной статистики в России и в миреIvan Begtin
 
Простой и понятный русский язык (plainrussian.ru)
Простой и понятный русский язык (plainrussian.ru)Простой и понятный русский язык (plainrussian.ru)
Простой и понятный русский язык (plainrussian.ru)Ivan Begtin
 
Государство как платформа. Обзор и практика
Государство как платформа. Обзор и практикаГосударство как платформа. Обзор и практика
Государство как платформа. Обзор и практикаIvan Begtin
 
Открытые государственные финансовые исторические данные
Открытые государственные финансовые исторические данныеОткрытые государственные финансовые исторические данные
Открытые государственные финансовые исторические данныеIvan Begtin
 
Государственные субсидии (федеральный уровень)
Государственные субсидии (федеральный уровень) Государственные субсидии (федеральный уровень)
Государственные субсидии (федеральный уровень) Ivan Begtin
 
Международные проекты по открытости расходов государства
Международные проекты по открытости расходов государстваМеждународные проекты по открытости расходов государства
Международные проекты по открытости расходов государстваIvan Begtin
 
Открытые финансовые данные: потребность, доступность, использование
Открытые финансовые данные: потребность, доступность, использованиеОткрытые финансовые данные: потребность, доступность, использование
Открытые финансовые данные: потребность, доступность, использованиеIvan Begtin
 
Скрытые данные. Какие данные спрятаны на госсайтах
Скрытые данные. Какие данные спрятаны на госсайтахСкрытые данные. Какие данные спрятаны на госсайтах
Скрытые данные. Какие данные спрятаны на госсайтахIvan Begtin
 
Иван Бегтин "Цифровые архивы"
Иван Бегтин "Цифровые архивы"Иван Бегтин "Цифровые архивы"
Иван Бегтин "Цифровые архивы"Ivan Begtin
 
Умное государство. Миф или антиутопия?
Умное государство. Миф или антиутопия?Умное государство. Миф или антиутопия?
Умное государство. Миф или антиутопия?Ivan Begtin
 
Карты преступности и обзор сайтов МВД/ОВД России
Карты преступности и обзор сайтов МВД/ОВД РоссииКарты преступности и обзор сайтов МВД/ОВД России
Карты преступности и обзор сайтов МВД/ОВД РоссииIvan Begtin
 
дорожная карта
дорожная картадорожная карта
дорожная картаIvan Begtin
 

Más de Ivan Begtin (20)

Сервисы инфраструктуры данных для исследователей
Сервисы инфраструктуры данных для исследователейСервисы инфраструктуры данных для исследователей
Сервисы инфраструктуры данных для исследователей
 
Alternative data by Ivan Begtin
Alternative data by Ivan BegtinAlternative data by Ivan Begtin
Alternative data by Ivan Begtin
 
Дата расследования в России.
Дата расследования в России.Дата расследования в России.
Дата расследования в России.
 
API в проектах Инфокультуры
API в проектах ИнфокультурыAPI в проектах Инфокультуры
API в проектах Инфокультуры
 
Цифровое культурное наследие
Цифровое культурное наследиеЦифровое культурное наследие
Цифровое культурное наследие
 
Основные источники информации о госфинансах в России (обзор систем)
Основные источники информации о госфинансах в России (обзор систем)Основные источники информации о госфинансах в России (обзор систем)
Основные источники информации о госфинансах в России (обзор систем)
 
Как не запутаться в справочниках и классификаторах бюджетной системы
Как не запутаться в справочниках и классификаторах бюджетной системыКак не запутаться в справочниках и классификаторах бюджетной системы
Как не запутаться в справочниках и классификаторах бюджетной системы
 
Как устроена бюджетная система России (обзор данных и структуры)
Как устроена бюджетная система России (обзор данных и структуры)Как устроена бюджетная система России (обзор данных и структуры)
Как устроена бюджетная система России (обзор данных и структуры)
 
Проекты на данных криминальной статистики в России и в мире
Проекты на данных криминальной статистики в России и в миреПроекты на данных криминальной статистики в России и в мире
Проекты на данных криминальной статистики в России и в мире
 
Простой и понятный русский язык (plainrussian.ru)
Простой и понятный русский язык (plainrussian.ru)Простой и понятный русский язык (plainrussian.ru)
Простой и понятный русский язык (plainrussian.ru)
 
Государство как платформа. Обзор и практика
Государство как платформа. Обзор и практикаГосударство как платформа. Обзор и практика
Государство как платформа. Обзор и практика
 
Открытые государственные финансовые исторические данные
Открытые государственные финансовые исторические данныеОткрытые государственные финансовые исторические данные
Открытые государственные финансовые исторические данные
 
Государственные субсидии (федеральный уровень)
Государственные субсидии (федеральный уровень) Государственные субсидии (федеральный уровень)
Государственные субсидии (федеральный уровень)
 
Международные проекты по открытости расходов государства
Международные проекты по открытости расходов государстваМеждународные проекты по открытости расходов государства
Международные проекты по открытости расходов государства
 
Открытые финансовые данные: потребность, доступность, использование
Открытые финансовые данные: потребность, доступность, использованиеОткрытые финансовые данные: потребность, доступность, использование
Открытые финансовые данные: потребность, доступность, использование
 
Скрытые данные. Какие данные спрятаны на госсайтах
Скрытые данные. Какие данные спрятаны на госсайтахСкрытые данные. Какие данные спрятаны на госсайтах
Скрытые данные. Какие данные спрятаны на госсайтах
 
Иван Бегтин "Цифровые архивы"
Иван Бегтин "Цифровые архивы"Иван Бегтин "Цифровые архивы"
Иван Бегтин "Цифровые архивы"
 
Умное государство. Миф или антиутопия?
Умное государство. Миф или антиутопия?Умное государство. Миф или антиутопия?
Умное государство. Миф или антиутопия?
 
Карты преступности и обзор сайтов МВД/ОВД России
Карты преступности и обзор сайтов МВД/ОВД РоссииКарты преступности и обзор сайтов МВД/ОВД России
Карты преступности и обзор сайтов МВД/ОВД России
 
дорожная карта
дорожная картадорожная карта
дорожная карта
 

Opendata practice for Global Editors Hackathon

  • 1. Открытые  и  большие  данные   на  практике   Иван  Бегтин   Директор  НП  “Информационная  культура”            
  • 2. Типовые  ситуации  в  data-­‐ журналистике  
  • 3. Есть  данные  -­‐  нет  идеи  
  • 4. Есть  идея  –  нет  данных  
  • 5. Нет  ни  данных,  ни  идеи,  но   сделать  надо  завтра!  
  • 6. Идеальная  ситуация   Это  когда  есть:   ü  Идея   ü  Данные   ü  Время   ü  +  Технологии    
  • 8. Готовимся  заранее:  Данные   •  Большие  данные:  знаем  где  искать,  знаем  что   делать   •  Ключевые  онлайн  API  и  наборы  данных   •  Screen  Scraping   •  Основные  инструменты  очистки  данных    
  • 9. Как  быстро  найти  данные?   •  Спросить:   •  Quora.com   •  StackOverclow  -­‐  http://opendata.stackexchange.com/   •  Рассылки  OKF,  группы  в  Facebook  и  тд.   •  Каталоги   •  The  Data  hub  –  http://thedatahub.org     •  Хаб  открытых  данных  –  http://hubofdata.ru     •  Data  Catalogs  –  http://datacatalogs.org/    
  • 11. Wikipedia   •  Wikipedia:   •  •  •  •  •    API  -­‐  http://en.wikipedia.org/w/api.php     Дампы  –  http://download.wikimedia.org   DBPedia  –  http://dbpedia.org   Wikidata  –  http://wikidata.org     FreeBase  -­‐  http://www.freebase.com/  
  • 12. Основные  базы  данных  онлайн   •  Международные:   •  The  Data  Hub  –  http://thedatahub.org   •  Всемирный  банк  –  http://data.worldbank.org   •  ООН  –  http://data.un.org   •  Национальные   •  Хаб  открытых  данных  –  http://hubofdata.ru     •  США  –  http://data.gov   •  UK  –  http://data.gov.uk      
  • 13. Основные  способы  работы  с  большими   данными   •  Выкачивать  целиком  под  задачу   •  Найти  и  использовать  чужое  API   •  Сделать  своё  API    
  • 14. Web  /  Screen  scraping  
  • 15. Что  такое  Web/Screen/Data  Scraping?   •  не  ждем  данных  –  собираем  их  сами   •  извлекаем  их  из  веб-­‐страниц,   файлов  и  печатных  документов   •  переводим  неструктуриованное  в   базы  данных    
  • 16. Инструменты   •  Программирование   •  Python  +  lxml  or  BeautifulSoup  +  база  данных   •  Или  …любой  другой  язык  программирования   •  Платформы:   •  ScraperWiki.com  –  тоже  Python,  но  проще   •  Abbyy  PDFTransformer  +  Finereader    
  • 18. Технологии   •  Открытый  код   •  Инструменты  визуализации   •  Обработка  данных    
  • 25. Как  действовать   •  Собрать  идеи   •  Написать  scraper  и  посмотреть   данные   •  Посмотреть  что  сделали  другие:   •  WeThePeople  –  http://petitions.whitehouse.gov   •  E-­‐Petitions  http://petitions.direct.gov.uk      
  • 26. Что  есть?   •  Анализ  данных  РОИ  и  аналогичных  проектов  –   http://habrahabr.ru/company/infoculture/   •  Код  на  Python  -­‐  https://github.com/ivbeg/apiroi   •  Дамп  базы  -­‐  http://hubofdata.ru/dataset/roi-­‐dump      
  • 27. Иван  Бегтин   Email:  ibegtin@infoculture.ru   Сайт:  http://ivan.begtin.name     Facebook:  facebook.com/ibegtin   twitter.:  ibegtin   Вопросы?