Submit Search
Upload
Как грабить корованы
•
0 likes
•
479 views
DotNetConf
Follow
По материалам конференции .NET разработчков http://dotnetconf.ru/materialy/korovan
Read less
Read more
Software
Report
Share
Report
Share
1 of 19
Download now
Download to read offline
Recommended
Как грабить корованы
Как грабить корованы
Ruslan Safin
Who are the 36 thousands employees of the russian defence ministry (in rus) ...
Who are the 36 thousands employees of the russian defence ministry (in rus) ...
DataFest Tbilisi
Thumbtack Expertise Days # 5 - Dataset
Thumbtack Expertise Days # 5 - Dataset
Alexey Remnev
20 апреля, DEV {highload} - конференция о Highload веб-разработке, "Когда сто...
20 апреля, DEV {highload} - конференция о Highload веб-разработке, "Когда сто...
IT-Portfolio
Dev {highload}. When you should do your own db.
Dev {highload}. When you should do your own db.
Oleg Kwerty
Журналистика данных 101
Журналистика данных 101
Krystsina Shveda
Linked Open Data (EIS)
Linked Open Data (EIS)
Fred Kozlov
Ссылки в нормативных документах
Ссылки в нормативных документах
Andrey Subbota
Recommended
Как грабить корованы
Как грабить корованы
Ruslan Safin
Who are the 36 thousands employees of the russian defence ministry (in rus) ...
Who are the 36 thousands employees of the russian defence ministry (in rus) ...
DataFest Tbilisi
Thumbtack Expertise Days # 5 - Dataset
Thumbtack Expertise Days # 5 - Dataset
Alexey Remnev
20 апреля, DEV {highload} - конференция о Highload веб-разработке, "Когда сто...
20 апреля, DEV {highload} - конференция о Highload веб-разработке, "Когда сто...
IT-Portfolio
Dev {highload}. When you should do your own db.
Dev {highload}. When you should do your own db.
Oleg Kwerty
Журналистика данных 101
Журналистика данных 101
Krystsina Shveda
Linked Open Data (EIS)
Linked Open Data (EIS)
Fred Kozlov
Ссылки в нормативных документах
Ссылки в нормативных документах
Andrey Subbota
10 HappyDev-lite'14 Иван Погудин, Анатолий Никулин. Решение задач, связанных...
10 HappyDev-lite'14 Иван Погудин, Анатолий Никулин. Решение задач, связанных...
HappyDev
20150129 минобороны презентация v02
20150129 минобороны презентация v02
finnopolis
Платформа Apache Hadoop
Платформа Apache Hadoop
DotNetConf
Хранилище данных Avito: аналитика для микросервисной архитектуры / Артем Дани...
Хранилище данных Avito: аналитика для микросервисной архитектуры / Артем Дани...
Ontico
Открытые данные: базовые знания для НКО
Открытые данные: базовые знания для НКО
Tania Evlampieva
кбнти
кбнти
Normdocs
16 декабря, DEV {highload} - конференция о Highload веб-разработке, "Оптимиза...
16 декабря, DEV {highload} - конференция о Highload веб-разработке, "Оптимиза...
IT-Portfolio
CodeFest 2014. Хамидуллин В. — Яндекс.Диск: Миллионы пользователей и MongoDB
CodeFest 2014. Хамидуллин В. — Яндекс.Диск: Миллионы пользователей и MongoDB
CodeFest
Использование облачной платформы OpenStack для реализации механизмов обработк...
Использование облачной платформы OpenStack для реализации механизмов обработк...
Игорь Мызгин
МойСклад, облачный сервис ERP
МойСклад, облачный сервис ERP
Oleg Alexeev
Как устроены поисковые системы
Как устроены поисковые системы
Povolzskiy state university of telecommunications and informatics
16 декабря, DEV {highload} - конференция о Highload веб-разработке, "Строим N...
16 декабря, DEV {highload} - конференция о Highload веб-разработке, "Строим N...
IT-Portfolio
Практика миграции реляционных баз данных в экосистему Hadoop
Практика миграции реляционных баз данных в экосистему Hadoop
Yury Petrov
DDoS-атаки Рунета в 2011-2012 гг.: характер и тенденции
DDoS-атаки Рунета в 2011-2012 гг.: характер и тенденции
HLL
Доменная структура интернета
Доменная структура интернета
Povolzskiy state university of telecommunications and informatics
poznay top 2
poznay top 2
prmegaindex
Опыт разработки масштабируемого решения по хранению журналов в Hadoop
Опыт разработки масштабируемого решения по хранению журналов в Hadoop
CUSTIS
Инфраструктура Big data - от источников до быстрых витрин - версия для МИСиС
Инфраструктура Big data - от источников до быстрых витрин - версия для МИСиС
Yury Petrov
Автоматический геокодинг
Автоматический геокодинг
Coldbeans Software
Мировые информационные ресурсы. Лекция 6
Мировые информационные ресурсы. Лекция 6
Dmitriy Krukov
Как это будет: ASP.NET Core
Как это будет: ASP.NET Core
DotNetConf
Многопоточное программирование на C#, путевые заметки
Многопоточное программирование на C#, путевые заметки
DotNetConf
More Related Content
What's hot
10 HappyDev-lite'14 Иван Погудин, Анатолий Никулин. Решение задач, связанных...
10 HappyDev-lite'14 Иван Погудин, Анатолий Никулин. Решение задач, связанных...
HappyDev
20150129 минобороны презентация v02
20150129 минобороны презентация v02
finnopolis
Платформа Apache Hadoop
Платформа Apache Hadoop
DotNetConf
Хранилище данных Avito: аналитика для микросервисной архитектуры / Артем Дани...
Хранилище данных Avito: аналитика для микросервисной архитектуры / Артем Дани...
Ontico
Открытые данные: базовые знания для НКО
Открытые данные: базовые знания для НКО
Tania Evlampieva
кбнти
кбнти
Normdocs
16 декабря, DEV {highload} - конференция о Highload веб-разработке, "Оптимиза...
16 декабря, DEV {highload} - конференция о Highload веб-разработке, "Оптимиза...
IT-Portfolio
CodeFest 2014. Хамидуллин В. — Яндекс.Диск: Миллионы пользователей и MongoDB
CodeFest 2014. Хамидуллин В. — Яндекс.Диск: Миллионы пользователей и MongoDB
CodeFest
Использование облачной платформы OpenStack для реализации механизмов обработк...
Использование облачной платформы OpenStack для реализации механизмов обработк...
Игорь Мызгин
МойСклад, облачный сервис ERP
МойСклад, облачный сервис ERP
Oleg Alexeev
Как устроены поисковые системы
Как устроены поисковые системы
Povolzskiy state university of telecommunications and informatics
16 декабря, DEV {highload} - конференция о Highload веб-разработке, "Строим N...
16 декабря, DEV {highload} - конференция о Highload веб-разработке, "Строим N...
IT-Portfolio
Практика миграции реляционных баз данных в экосистему Hadoop
Практика миграции реляционных баз данных в экосистему Hadoop
Yury Petrov
DDoS-атаки Рунета в 2011-2012 гг.: характер и тенденции
DDoS-атаки Рунета в 2011-2012 гг.: характер и тенденции
HLL
Доменная структура интернета
Доменная структура интернета
Povolzskiy state university of telecommunications and informatics
poznay top 2
poznay top 2
prmegaindex
Опыт разработки масштабируемого решения по хранению журналов в Hadoop
Опыт разработки масштабируемого решения по хранению журналов в Hadoop
CUSTIS
Инфраструктура Big data - от источников до быстрых витрин - версия для МИСиС
Инфраструктура Big data - от источников до быстрых витрин - версия для МИСиС
Yury Petrov
Автоматический геокодинг
Автоматический геокодинг
Coldbeans Software
Мировые информационные ресурсы. Лекция 6
Мировые информационные ресурсы. Лекция 6
Dmitriy Krukov
What's hot
(20)
10 HappyDev-lite'14 Иван Погудин, Анатолий Никулин. Решение задач, связанных...
10 HappyDev-lite'14 Иван Погудин, Анатолий Никулин. Решение задач, связанных...
20150129 минобороны презентация v02
20150129 минобороны презентация v02
Платформа Apache Hadoop
Платформа Apache Hadoop
Хранилище данных Avito: аналитика для микросервисной архитектуры / Артем Дани...
Хранилище данных Avito: аналитика для микросервисной архитектуры / Артем Дани...
Открытые данные: базовые знания для НКО
Открытые данные: базовые знания для НКО
кбнти
кбнти
16 декабря, DEV {highload} - конференция о Highload веб-разработке, "Оптимиза...
16 декабря, DEV {highload} - конференция о Highload веб-разработке, "Оптимиза...
CodeFest 2014. Хамидуллин В. — Яндекс.Диск: Миллионы пользователей и MongoDB
CodeFest 2014. Хамидуллин В. — Яндекс.Диск: Миллионы пользователей и MongoDB
Использование облачной платформы OpenStack для реализации механизмов обработк...
Использование облачной платформы OpenStack для реализации механизмов обработк...
МойСклад, облачный сервис ERP
МойСклад, облачный сервис ERP
Как устроены поисковые системы
Как устроены поисковые системы
16 декабря, DEV {highload} - конференция о Highload веб-разработке, "Строим N...
16 декабря, DEV {highload} - конференция о Highload веб-разработке, "Строим N...
Практика миграции реляционных баз данных в экосистему Hadoop
Практика миграции реляционных баз данных в экосистему Hadoop
DDoS-атаки Рунета в 2011-2012 гг.: характер и тенденции
DDoS-атаки Рунета в 2011-2012 гг.: характер и тенденции
Доменная структура интернета
Доменная структура интернета
poznay top 2
poznay top 2
Опыт разработки масштабируемого решения по хранению журналов в Hadoop
Опыт разработки масштабируемого решения по хранению журналов в Hadoop
Инфраструктура Big data - от источников до быстрых витрин - версия для МИСиС
Инфраструктура Big data - от источников до быстрых витрин - версия для МИСиС
Автоматический геокодинг
Автоматический геокодинг
Мировые информационные ресурсы. Лекция 6
Мировые информационные ресурсы. Лекция 6
Viewers also liked
Как это будет: ASP.NET Core
Как это будет: ASP.NET Core
DotNetConf
Многопоточное программирование на C#, путевые заметки
Многопоточное программирование на C#, путевые заметки
DotNetConf
ARBOL DE Daniel
ARBOL DE Daniel
guest0f7382
Forotex 2011 info eng
Forotex 2011 info eng
camtex
Trabajo electronica circuito integrado
Trabajo electronica circuito integrado
Manuel Ortiz Rojo
2derecho informatico
2derecho informatico
Marcio Valiente
Ficha tcnica
Ficha tcnica
davincivfx
Seg.Elec.
Seg.Elec.
mayale2901
Делаем очередь поверх Кассандры
Делаем очередь поверх Кассандры
DotNetConf
Gootika Itaalias
Gootika Itaalias
Merille Hommik
Taller 3 janina borja
Taller 3 janina borja
janinaborja7
Hemorragias de-la-segunda-mitad-del-embarazo-presentacion
Hemorragias de-la-segunda-mitad-del-embarazo-presentacion
leetiilahr09
Hola
Hola
hactorvinicio
Test labs 2016. Пренебрежение лучшими практиками тестирования
Test labs 2016. Пренебрежение лучшими практиками тестирования
Sasha Soleev
J como-ves-la-sociedad-dentro-de-10-anos
J como-ves-la-sociedad-dentro-de-10-anos
Ricardo Calvo
DEV Labs 2016. Искусство быстрого старта
DEV Labs 2016. Искусство быстрого старта
Sasha Soleev
Agile days 2010 человеческий фактор и agile
Agile days 2010 человеческий фактор и agile
Nikita Filippov
Distocias fetales
Distocias fetales
Erick Henry Luna
Ficha de Funza - Agenda Ciudadana por la Transparencia
Ficha de Funza - Agenda Ciudadana por la Transparencia
TransparenciaporColombia
«Microservices. Как правильно делать и когда применять?»
«Microservices. Как правильно делать и когда применять?»
DataArt
Viewers also liked
(20)
Как это будет: ASP.NET Core
Как это будет: ASP.NET Core
Многопоточное программирование на C#, путевые заметки
Многопоточное программирование на C#, путевые заметки
ARBOL DE Daniel
ARBOL DE Daniel
Forotex 2011 info eng
Forotex 2011 info eng
Trabajo electronica circuito integrado
Trabajo electronica circuito integrado
2derecho informatico
2derecho informatico
Ficha tcnica
Ficha tcnica
Seg.Elec.
Seg.Elec.
Делаем очередь поверх Кассандры
Делаем очередь поверх Кассандры
Gootika Itaalias
Gootika Itaalias
Taller 3 janina borja
Taller 3 janina borja
Hemorragias de-la-segunda-mitad-del-embarazo-presentacion
Hemorragias de-la-segunda-mitad-del-embarazo-presentacion
Hola
Hola
Test labs 2016. Пренебрежение лучшими практиками тестирования
Test labs 2016. Пренебрежение лучшими практиками тестирования
J como-ves-la-sociedad-dentro-de-10-anos
J como-ves-la-sociedad-dentro-de-10-anos
DEV Labs 2016. Искусство быстрого старта
DEV Labs 2016. Искусство быстрого старта
Agile days 2010 человеческий фактор и agile
Agile days 2010 человеческий фактор и agile
Distocias fetales
Distocias fetales
Ficha de Funza - Agenda Ciudadana por la Transparencia
Ficha de Funza - Agenda Ciudadana por la Transparencia
«Microservices. Как правильно делать и когда применять?»
«Microservices. Как правильно делать и когда применять?»
Similar to Как грабить корованы
Конкурентная Разведка в Интернете
Конкурентная Разведка в Интернете
Positive Hack Days
лекция информационные ресурсы
лекция информационные ресурсы
Tatjana Reichert
#1 razvedka i sbor dannih
#1 razvedka i sbor dannih
Uladzislau Murashka
Скрытые данные. Какие данные спрятаны на госсайтах
Скрытые данные. Какие данные спрятаны на госсайтах
Ivan Begtin
2017-03-26 01 Анна Тарасенко. Как устроен Web изнутри
2017-03-26 01 Анна Тарасенко. Как устроен Web изнутри
HappyDev-lite
Мастер класс по открытым данным
Мастер класс по открытым данным
DimOK AD
Russir 2010 final
Russir 2010 final
yaevents
Атрибуция кибератак
Атрибуция кибератак
Aleksey Lukatskiy
Где сегодня использовать ElasticSearch
Где сегодня использовать ElasticSearch
Илья Середа
Oracle Endeca Information Discovery - Платформа для исследования данных
Oracle Endeca Information Discovery - Платформа для исследования данных
Andrey Akulov
Конкурентная разведка в Интернете _ Инна Юрик _ Школа бизнес-исследований_ bu...
Конкурентная разведка в Интернете _ Инна Юрик _ Школа бизнес-исследований_ bu...
HRPR Camp - Самое технологичное событие в HR
Построение системы аналитики
Построение системы аналитики
Илья Середа
Tagconf 12 - SphinxSearch - 1
Tagconf 12 - SphinxSearch - 1
Roman Kudlay
Semantic technologies for business. DataFabric core. 2017
Semantic technologies for business. DataFabric core. 2017
Timur Ovadia Berezin
Гайк Закарян Выбор платформ на основе анализа крупных интернет проектов
Гайк Закарян Выбор платформ на основе анализа крупных интернет проектов
ForkConf
Разработка аналитической системы для высоконагруженного медиа, Олег Новиков, ...
Разработка аналитической системы для высоконагруженного медиа, Олег Новиков, ...
Ontico
Журналистика данных в СМИ и обществе
Журналистика данных в СМИ и обществе
Krystsina Shveda
Семинар-совещание 16.05.2014. Анализ российского рынка программных средств об...
Семинар-совещание 16.05.2014. Анализ российского рынка программных средств об...
Anastasia Khuraskina
Инструментарий интернет-журналиста и полезные ресурсы. Коммуникационные платф...
Инструментарий интернет-журналиста и полезные ресурсы. Коммуникационные платф...
Max Kornev
Обзор перспективных баз данных для highload / Юрий Насретдинов
Обзор перспективных баз данных для highload / Юрий Насретдинов
Ontico
Similar to Как грабить корованы
(20)
Конкурентная Разведка в Интернете
Конкурентная Разведка в Интернете
лекция информационные ресурсы
лекция информационные ресурсы
#1 razvedka i sbor dannih
#1 razvedka i sbor dannih
Скрытые данные. Какие данные спрятаны на госсайтах
Скрытые данные. Какие данные спрятаны на госсайтах
2017-03-26 01 Анна Тарасенко. Как устроен Web изнутри
2017-03-26 01 Анна Тарасенко. Как устроен Web изнутри
Мастер класс по открытым данным
Мастер класс по открытым данным
Russir 2010 final
Russir 2010 final
Атрибуция кибератак
Атрибуция кибератак
Где сегодня использовать ElasticSearch
Где сегодня использовать ElasticSearch
Oracle Endeca Information Discovery - Платформа для исследования данных
Oracle Endeca Information Discovery - Платформа для исследования данных
Конкурентная разведка в Интернете _ Инна Юрик _ Школа бизнес-исследований_ bu...
Конкурентная разведка в Интернете _ Инна Юрик _ Школа бизнес-исследований_ bu...
Построение системы аналитики
Построение системы аналитики
Tagconf 12 - SphinxSearch - 1
Tagconf 12 - SphinxSearch - 1
Semantic technologies for business. DataFabric core. 2017
Semantic technologies for business. DataFabric core. 2017
Гайк Закарян Выбор платформ на основе анализа крупных интернет проектов
Гайк Закарян Выбор платформ на основе анализа крупных интернет проектов
Разработка аналитической системы для высоконагруженного медиа, Олег Новиков, ...
Разработка аналитической системы для высоконагруженного медиа, Олег Новиков, ...
Журналистика данных в СМИ и обществе
Журналистика данных в СМИ и обществе
Семинар-совещание 16.05.2014. Анализ российского рынка программных средств об...
Семинар-совещание 16.05.2014. Анализ российского рынка программных средств об...
Инструментарий интернет-журналиста и полезные ресурсы. Коммуникационные платф...
Инструментарий интернет-журналиста и полезные ресурсы. Коммуникационные платф...
Обзор перспективных баз данных для highload / Юрий Насретдинов
Обзор перспективных баз данных для highload / Юрий Насретдинов
More from DotNetConf
Как анимировать тысячи объектов на карте и не подвесить браузер
Как анимировать тысячи объектов на карте и не подвесить браузер
DotNetConf
Микросервисы: взгляд сверху и в бок
Микросервисы: взгляд сверху и в бок
DotNetConf
Разработка надежных параллельных, распределенных приложений: быстро и дешево
Разработка надежных параллельных, распределенных приложений: быстро и дешево
DotNetConf
Как приручить реактивное программирование
Как приручить реактивное программирование
DotNetConf
К искусству записи пользовательских историй
К искусству записи пользовательских историй
DotNetConf
Continuous Delivery для ASP.NET MVC проекта под Linux
Continuous Delivery для ASP.NET MVC проекта под Linux
DotNetConf
Кроссплатформенная библиотека для Android и iOS: за и против
Кроссплатформенная библиотека для Android и iOS: за и против
DotNetConf
Быстрый бэкенд с parse.com
Быстрый бэкенд с parse.com
DotNetConf
Kotlin в production. Как и зачем?
Kotlin в production. Как и зачем?
DotNetConf
Как жить в согласии с SOLID?
Как жить в согласии с SOLID?
DotNetConf
Робототехника для прикладных программистов
Робототехника для прикладных программистов
DotNetConf
Разработка Windows 8 приложений глазами WPF/Silverlight программиста
Разработка Windows 8 приложений глазами WPF/Silverlight программиста
DotNetConf
Inversion of Control в .NET
Inversion of Control в .NET
DotNetConf
Введение в реактивный .NET
Введение в реактивный .NET
DotNetConf
Особенности передачи и обработки видео данных. Приправа из кодеков или с чем ...
Особенности передачи и обработки видео данных. Приправа из кодеков или с чем ...
DotNetConf
Машинное обучение на платформе .NET
Машинное обучение на платформе .NET
DotNetConf
More from DotNetConf
(16)
Как анимировать тысячи объектов на карте и не подвесить браузер
Как анимировать тысячи объектов на карте и не подвесить браузер
Микросервисы: взгляд сверху и в бок
Микросервисы: взгляд сверху и в бок
Разработка надежных параллельных, распределенных приложений: быстро и дешево
Разработка надежных параллельных, распределенных приложений: быстро и дешево
Как приручить реактивное программирование
Как приручить реактивное программирование
К искусству записи пользовательских историй
К искусству записи пользовательских историй
Continuous Delivery для ASP.NET MVC проекта под Linux
Continuous Delivery для ASP.NET MVC проекта под Linux
Кроссплатформенная библиотека для Android и iOS: за и против
Кроссплатформенная библиотека для Android и iOS: за и против
Быстрый бэкенд с parse.com
Быстрый бэкенд с parse.com
Kotlin в production. Как и зачем?
Kotlin в production. Как и зачем?
Как жить в согласии с SOLID?
Как жить в согласии с SOLID?
Робототехника для прикладных программистов
Робототехника для прикладных программистов
Разработка Windows 8 приложений глазами WPF/Silverlight программиста
Разработка Windows 8 приложений глазами WPF/Silverlight программиста
Inversion of Control в .NET
Inversion of Control в .NET
Введение в реактивный .NET
Введение в реактивный .NET
Особенности передачи и обработки видео данных. Приправа из кодеков или с чем ...
Особенности передачи и обработки видео данных. Приправа из кодеков или с чем ...
Машинное обучение на платформе .NET
Машинное обучение на платформе .NET
Как грабить корованы
1.
Как грабить корованы Александр
Козько и Руслан Сафин ByndyuSoft 12-я конференция .NET разработчиков 15 мая 2016 dotnetconf.ru
2.
2 BIG DATA • Volume
(Объем) • Velocity (Скорость) • Variety (многообразие)
3.
3 Грабеж корована • Найти
данные • Получить • Обработать • … • Повторить
4.
4 Данные бывают Структурированные Неструктурированные Полуструктурированные
5.
5 Информация содержит • Тексты •
Имена • Факты • все остальное • Изображения • Числа • Связи
6.
6 Доступ к информации Официально Полуофициально Неофициально
7.
7 Официальное использование Дампы и
архивы данных • Базы данных ФИАС, Wikipedia, Rutracker
8.
8 Официальное использование Публичные API •
Социальные сети • Некоторые СМИ (New York Times, …) • Другие источники (ЦБ РФ, 500px, …) 8
9.
9 Официальное использование Ссылки на
данные • RSS • Sitemap 9
10.
10 Полуофициальный доступ HTML • Ручная
обработка каждого сайта через XPath (AgilityPack, AngleSharp) • Умные алгоритмы анализирующие структуру страниц (NReadability)
11.
11 Примеры – XPath //*[@id="firstHeading"] //*[@id="layout"]/div[3]/div[3]/div[2]/div[4]/div[2] //*[@class='companies_items']/*[@class='company_item']
12.
12 Примеры – NReadability
13.
13 Сложности Краулинг = (D)DoS Сайты
не хотят делиться информацией => Сайты защищаются
14.
14 Обход защиты Прикидываемся Google
bot: • User-agent Прикидываемся пользователем • Ограничение одновременных запросов • User-agent и Headers • Cookie Прокси
15.
15 Тяжелый случай Эмуляция браузера,
когда ничего другого не помогает: • Selenium • PhantomJS • Awesomeum 15
16.
16 Совсем неофициально Ревес-инжиниринг Internal
API • Анализ верстки и JS • Traffic sniffing (Fiddler2, Web Developer Tools) • Декомпиляция приложений Обход ограничений • Rucaptcha.com • Программный прием SMS • Одноразовые email
17.
17 Как запустить в
продакшн Асинхронные запросы Очереди
18.
18 Истории успеха http://mediametric.com http://zakupki360.ru
19.
19 Спасибо за внимание Александр
Козько и Руслан Сафин alkozko@yandex.ru iruslansafin@gmail.com @alkozko @razonrus
Download now