Se ha denunciado esta presentación.
Se está descargando tu SlideShare. ×

Одна лекция из мира Big Data: тренды, кейсы и технологии

Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio

Eche un vistazo a continuación

1 de 23 Anuncio

Одна лекция из мира Big Data: тренды, кейсы и технологии

Descargar para leer sin conexión

Лекция прочитана мной для госслужащих Новосибирской области 10 октября 2013 года в Центре дополнительного образования НГУ

Лекция прочитана мной для госслужащих Новосибирской области 10 октября 2013 года в Центре дополнительного образования НГУ

Anuncio
Anuncio

Más Contenido Relacionado

Presentaciones para usted (20)

Similares a Одна лекция из мира Big Data: тренды, кейсы и технологии (20)

Anuncio

Más de Evgeniy Pavlovskiy (8)

Más reciente (20)

Anuncio

Одна лекция из мира Big Data: тренды, кейсы и технологии

  1. 1. Big Data: тренды, кейсы и технологии Павловский Евгений Николаевич, к.ф.-м.н., научный сотрудник НГУ директор ООО Исследовательские системы (xpss.ru)
  2. 2. Вопросы? • кто разогревает рынок? • личное • • • как это относится ко мне? как я могу это использовать? как это повлияет на меня и на моѐ будущее? • общественное • • • • • • как это полезно обществу? что полезного для моего департамента на какие целевые показатели можно повлиять кто этим может заниматься? как определить, что он(а) может заниматься BigData? как это повлияет на общество?
  3. 3. Что для нас BigData? тренд, меняющий мир высокие ожидания есть и положительные прогнозы возможности, которых ранее не было (персональные советчики, Google Now)
  4. 4. Big Data: что это на самом деле? • вычисления на узлах, где данные собраны кибербезопасность хранилища жизненный цикл данных передача данных, политики, системы хранения данных создание (в т.ч. автоматическое) контроль облака обработка как обрабатывать? EMC анализ контуры данных оборот систематизация контроль за Oracle озарения копированием IBM визуализация права доступа Amazon отчѐты утечки один админ на 10000 уничтожение шифрование/дешифрование потоки данных виртуальных захоронения, как ядерные коммуникации Cloudera отходы человек-человек хранить уже дорого хранить дорого человек-компьютер-человек зачем столько собираем? а что хранить, что человек-компьютер удалять? компьютер-человек (напоминалки, автодозвон ) готовые технологии компьютер-компьютер обработки пропускная способность Google FS ограничивающий фактор Hadoop
  5. 5. Что такое Big Data? Volume 1Gb, 1Tb, 1Pb, 1Exb, 1 ZettaByte Variety DB, XML, Logs, Texts (.doc, .xls, .ppt …), Audio, Video Value $5 за Ваш профиль в FaceBook Кросс-продажи (пиво с памперсами) $3M Интел сэкономил на тестировании Intel Core, в 2014 сэкономит $30M
  6. 6. Volume
  7. 7. Variety
  8. 8. Ценность (Value) • прогнозы McKinsey Global Institute (2011) • $300млрд. в год экономии на Американском здравоохранении • US Private Sector • рост операционной прибыли на 60% • Europe admin savings • $149млрд. экономии бюджета • Замена человека или поддержка в принятии решений с помощью алгоритмов • Уменьшение неэффективных затрат • Прозрачность • Повышение производительности при экспериментах над данными • Повышение ROI для IT-инвестиций • Улучшение принятия решений и операционной аналитики • Предоставление прогнозных возможностей • Снижение угроз безопасности и преступлений • Новые бизнес-модели и сервисы для заинтересованных лиц
  9. 9. Кейс: противодействие мошенничеству В течение года (2011) мошенники нанесли ущерб 34% компаний и организаций, попавших в поле зрение агентства (PricewaterhouseCoopers). В России этот показатель ещѐ выше — 37%, причѐм в 60% случаев убытки превышали $100 тыс. Финансовая индустрия теряет на мошеннических транзакциях около $80 млрд в год Visa анализирует до 50 петабайтов данных. До 500 особенностей каждой транзакции. За год система останавливает мошеннические платежи на сумму примерно $2 млрд в год.
  10. 10. Кейс: выборы Обамы 2012 During the 1,5 year prior to the Election Day in November 2012 in total over $ 1.5 billion was collected and spent during the Obama campaign. In addition, over 1.000 paid staff worked on the campaign, well over 10.000s volunteers and in total more than 100 data analysis who ran more than 66,000 computer simulations every day. The objective of the campaign set out by Jim Messina was to “measure everything”. The idea was to demand data on everything that happened during the campaign in order to measure everything and ensure that they were being smart about everything.
  11. 11. Data Science & Engineering • кандидаты и доктора физ-мат и тех наук • максимум $300тыс. в год • не руководя никем • в Томске предлагают $5000 в месяц • в НГУ • открывается магистратура по подготовке на английском языке • планируется открывать доп.образование • и отдельные 2-4 недельные курсы компетенции программирование скрипты (Python, Ruby) UNIX функциональное программирование базы данных сложные и долговременные запросы Google Big Table key-value databases понимание проблем бизнеса кибер-безопасность юридические аспекты методы искусственного интеллекта алгоритмы нейронные сети теории модели математика теор. вер. и мат.стат.
  12. 12. Что делают Data Scientists? что делают? как достичь озарения разрабатывают методы используют тер.вер., мат.стат придумывают алгоритмы используют методы машинного обучения искусственный интеллект нейронные сети Байесовские сети обработка формализованных знаний хранение использование описание проблем бизнеса бизнес-моделирование среды исполнения бизнес-процессов методы визуализации
  13. 13. Мнения о Data Scientists "Data scientists turn big data into big value, delivering products that delight users, and insight that informs business decisions. Strong analytical skills are a given: above all, a data scientist needs to be able to derive robust conclusions from data. But a data scientist also needs to possess creativity and strong communication skills". Daniel Tunkelang, Principal Data Scientist, LinkedIn "A data scientist is someone who can obtain, scrub, explore, model and interpret data, blending hacking, statistics and machine learning. Data scientists not only are adept at working with data, but appreciate data itself as a first-class product". Hilary Mason, Chief Scientist at bitly
  14. 14. Big Data проекты сбор данных (CAPEX) • Сервера • Облака • Инфраструктура • очень много инвестиций в эту область извелчение пользы (value) (OPEX) • команда • Data Scientist • Data Engineer • Manager • процесс • сбор данных • инвентаризация источников • доступ к данным • физический • юридический • мощности по обработке данных • Hadoop - обрабатываем прямо там, где хранятся • в облаках • на локальных машинах • аналитические инструменты • Splunk • PreCog • BigML
  15. 15. BUSINESS UNDERSTANDING DATA UNDERSTANDING DATA PREPARATION DEPLOYMENT Data EVALUATION MODELING
  16. 16. Что можно уже сейчас делать? • Использовать Open Data • http://data.mos.ru/ • Всего: 194 наборов данных от 34 органов исполнительной власти • 14 приложений • Дома Москвы • Наш город • http://opengovdata.ru • http://hubofdata.ru • 5 260 массивов данных • Архив сведений о поступлении и расходовании средств политических партий с 2007 по 2013 годы • Поездки Президента по стране • База всех официальных телеграмм Президента • 2GIS API • адреса, рабочее время • Flamp API • отзывы • Профили пользователей • Открытые научные данные (Linked Science) • соединять данные, чтобы получать новые ценности • Real Time Billing
  17. 17. Полезное чтение http://bit.ly/HBRbigdata http://bit.ly/BigDataRoadmap http://bit.ly/CRUbigdata доклад ЦРУ про большие задачи и большие данные
  18. 18. Зачем управленцам математика? HBR • подучите азы регрессионного анализа, статистического анализа и планирования экспериментов службами (матричная организация) - чтобы были коммуникации • Сосредоточьтесь на начальной и конечной • пройдите программу статистики для стадиях руководящих работников или онлайновый курс • постановка задачи обучения или поучитесь у своих аналитиков, • гипотезы поработав с ними вместе над проектами • донесение результатов до • обратиться к специалистам по планированию заинтересованных лиц экспериментов (поучаствовать в исследовании) • Задавайте по ходу дела много вопросов • Сотрудничайте с аналитиками подходящей • больше деталей специализации • гипотезы • формулируйте гипотезы • принимайте решения на данных • эксперимент • наладить контакты между аналитиками и всеми • Создавайте культуру исследования, а не защиты • поощрять идеи и критику • исследовательский дух • главное - докопаться до истины • не мнения, а анализ и данные
  19. 19. Благодарю за внимание Павловский Евгений Николаевич, к.ф.-м.н. Научный сотрудник ИДМИ НИЧ НГУ директор ООО Исследовательские системы (Академпарк) Анализ данных в медицине Услуги по анализу данных +79139117907 e@xpss.ru Skype: eunipav

×