Publicidad

Más contenido relacionado

Similar a 4CIO.ppt(20)

Publicidad

4CIO.ppt

  1. EC-лизинг Б.А. Позин д.т.н., профессор Технический директор ЗАО «ЕС-лизинг» Большие данные – горячая тема, потому что технологии сделали возможным анализ ВСЕХ доступных данных при подготовке принятия решений
  2. EC-лизинг
  3. EC-лизинг Какие объемы данных нужны для поддержки принятия решений? 3 User Generated Content* 1,234 Exabytes Enterprise Touch Content** 1,530 Exabytes Size of Digital Universe in 2011 1,773 Exabytes **Transported, Hosted, Managed or Secured **Consumers and Workers Creating, Capturing or Replicating Personal Information Overlap -1,000 Exabytes User Creation: Enterprise Worries Эксабайт = 260 =1018 байт = 1024 Петабайт
  4. EC-лизинг Сколько информации мы теряем? 4 1,800 1,600 1,400 1,200 1,000 0,800 0,600 0,400 0,200 2005 2006 2007 2008 2009 2010 2011 Exabytes Available Storage Information Created Available Storage, 2007 Tape 21% Disk 56% Optical 22% Other 1% 264 EB Information Creation and Available Storage
  5. EC-лизинг 5 Изменение парадигмы ИТ Структурирует данные для ответа на вопрос ИТ Обеспечивает платформу для креативного анализа Бизнес Исследует что можно спросить Бизнес Определяет что спросить Месячная отчетность Анализ прибыльности Анализ анкет Отношение к бренду Стратегия продуктов Оптимизация ресурсов Большие данные Итеративность и исследование Традиционный подход Структурный и повторяемый анализ Запомнил - обработал Обработал - запомнил Ограничение: память Ограничение: производительность
  6. EC-лизинг Стуктурирован- ные данные Неструктурированны е данные Потоковые данные Подключение любого типа данных с помощью оптимизированных коннекторов и возможности интеграции информации Платформа Big Data Технология IBM Big Data сделала возможным анализ ВСЕХ доступных данных
  7. EC-лизинг ERP CRM RFID Website Network Switches Social Media Billing 7 Эффективно управлять и анализировать все доступные данные в их первозданном виде
  8. EC-лизинг Постановка задачи 8 Технология должна обеспечивать Создание из «конструктора» функционально полных прикладных информационно-аналитических систем для исследования больших объемов данных при поддержке принятия решений силами коллективов специалистов в предметной области – аналитиков при поддержке ИТ-специалистов по инструментам Для этого необходимо  «Конструктор» - набор высококачественных инструментов для создания приложений по аналитической обработке больших объемов информации в различных областях знаний  Возможность создания информационно-аналитических систем в короткие сроки и в пределах бюджета  Возможность развития «Конструктора» в процессе накопления опыта и знаний, развития методов анализа и синтеза  Возможность накопления знаний и их повторного использования  Переносимость инструментальных средств в пределах широкого класса платформ
  9. EC-лизинг
  10. EC-лизинг Технология Big Data  Первый шаг очень важен  Успех в каждом разделе поддержан продуктами платформы  Позволяет построить основу для будущих потребностей и проектов 10
  11. EC-лизинг Платформа IBM Big Data Управление системами Разработка приложений Визуализация &исследование Акселераторы разработки Интеграция информации & Управление Hadoop System Stream Computing Data Warehouse BI / Reporting BI / Отчетность Исследование/ Визуализация Ф ункциональны е приложения П ром ы ш ленны е приложения П р о г н о з и р у ю щ а я а н а л и т и к а А н а л и т и к а с о д е р ж а н и я Аналитические приложения Платформа IBM Big Data Управление системами Разработка приложений Визуализация &исследование Hadoop System Stream Computing Data Warehouse Интеграция информации & Управление Ускорители BI / Reporting BI / Отчетность Исследование/ Визуализация Ф ункциональны е приложения П ром ы ш ленны е приложения П р о г н о з и р у ю щ а я а н а л и т и к а А н а л и т и к а с о д е р ж а н и я Аналитические приложения Платформа IBM Big Data Управление системами Разработка приложений Визуализация &исследование Hadoop System Stream Computing Data Warehouse Интеграция информации & Управление Ускорители «Конструктор»: продукты платформы Big Data 2 – Анализ «сырых» данных InfoSphere BigInsights 5 – Анализ потоковых данных InfoSphere Streams 1 – Найти и получить доступ к большим данным IBM Data Explorer 3 – Упрощение хранилища Netezza 4 – Сокращение затрат с помощью Hadoop InfoSphere BigInsights 11
  12. EC-лизинг  IBM Big Data platform – InfoSphere Streams – InfoSphere BigInsights – InfoSphere Data Explorer – PureData for Analytics (Netezza)  Акселераторы – Анализ текстов – Акустика – Гео-данные – Видео – Интеллектуальный анализ – Предсказательные модели – Статистика 12 Технологии IBM для использования в проектах Big Data  Аналитические пакеты – IBM Cognos – IBM SPSS  Интеграция данных – IBM InfoSphere Information Server – IBM Change Data Capture  Мастер-данные – IBM InfoSphere Master Data Management Server  Защита баз данных – InfoSphere Guardium
  13. EC-лизинг Streams Big Ins DE NZ Декларативные языки Готовые средства разработки Инструменты Языки программирования 3-го поколения: Java, C/C++, Python, Perl Коннекторы SPSS (Декларат ивный язык PMML) Cognos BI Общая схема компонентов платформы Big Data
  14. EC-лизинг Инструменты Streams Обработка потоковой информации Декларативный язык: Stream Processing Language (SPL) Готовые средства разработки (акселераторы разработки): Анализ текстов Телекоммуникационные данные Гео-данные Видео Интеллектуальный анализ Предсказательные модели Статистика Анализ машинных журналов (СПО) Анализ данных из сетей (СПО) Инструменты: Standard Toolkit Internet Toolkit Database Toolkit Financial Toolkit Data Mining Toolkit Big Data toolkit Text Toolkit Языки программирования 3-го поколения: Java, C/C++, Python, Perl, JavaScript, Ruby и т.д. Streams Коннекторы: Netezza Connector Hadoop Connector
  15. EC-лизинг Декларативный язык SPL - графическая среда разработки Streams-приложений  Создание приложений с помощью «перетаскивания» операторов  Палитра готовых операторов  Графика и исходный код на SPL автоматически синхронизируются
  16. EC-лизинг Инструменты BigInsights Анализ «сырых» данных и сокращение затрат на хранение Декларативные языки: Annotation Query Language (AQL), JaQL (Query Language for JSON (JavaScript Object Notation)), Pig Latin, HiveQL, R Средства и инструменты обработки: Flume Hive Lucene Zookeeper Avro HBase HCatalog Sqoop Oozie Языки программирования 3-го поколения: Java, C/C++ BigInsights Коннекторы: Netezza Connector Streams Connector
  17. EC-лизинг Инструменты Data Explorer Средство визуализации, исследования данных и обработки текстов Декларативные языки: не используются Средства разработки и обработки : Application Builder Search Engine Data Explorer Коннекторы: Framework Connector (30 источников, включая Streams и BigInsights) Mature Connector
  18. EC-лизинг Инструменты Pure Data (Netezza) Повышение скорости анализа и качества структурированных данных Декларативные языки: SQL, nz/PLSQL Pure Data (Netezza) Коннекторы: Hadoop Connector Streams Connector Языки программирования 3-го поколения: Java, C / C++, FORTRAN, nzLua, Python, Ruby, JavaScript, Perl, и тд. Библиотеки: ESRI/OpenGIS nzMatrix
  19. EC-лизинг Центр компетенции по IBM Big Data Совместный центр компетенции ЕС-лизинг, IBM и Банка России Целью создания Центра Компетенции явилась необходимость обеспечения освоения технологии IBM Big Data специалистами Банка России и организациями банковского сектора, с использованием возможностей стендового оборудования, программного обеспечения и специалистов ЕС- лизинг при поддержке IBM по планам, согласованным с организациями – потенциальными заказчиками и на основе постановок задач, формируемых заказчиками Основные задачи Центра • Освоение инструментальных средств IBM Big Data • Освоение декларативных языков и методик программирования реальных задач на этих языках • Создание учебных курсов для освоения платформы IBM Big Data Приглашаем заинтересованные организации к сотрудничеству
  20. EC-лизинг Оснащение Центра Компетенции 20 Все программные продукты платформы IBM Big Data
  21. EC-лизинг Спасибо за внимание! Вопросы?
  22. EC-лизинг Назначение инструментов Streams Декларативные языки Stream Processing Language (SPL) Используется для разработки приложений обработки потоковых данных Языки программирования 3-го поколения Java, C / C++, Python, Ruby, JavaScript, Perl, и тд. Используются в Streams для программирования операторов. Язык должен уметь работать со стандартным вводом/выводом Коннекторы Netezza Connector Позволяет писать и читать данные из Netezza Hadoop Connector Позволяет писать и читать данные из Hadoop Акселераторы разработки Анализ текстов Набор инструментальных средств, которые могут быть использованы для ускорения разработки Заказчиком задач анализа данных разных типов в том виде, в котором они поступают за счет встроенных алгоритмов обработки информации Телекоммуникационные данные Гео-данные Видео Интеллектуальный анализ Предсказательные модели Статистика Анализ машинных журналов Анализ данных из сетей - Свободное ПО - Дополнительное ПО - ПО в составе поставки
  23. EC-лизинг Назначение инструментов Streams Toolkits Standard Toolkit Стандартный набор операторов, который поставляется вместе со Streams Internet Toolkit Оператор для извлечения данных из URL источника. Поддерживаемые типы источника HTTP, HTTPS, HTTP через RSS, RSS через HTTPS, FTP, FTPS, и файл Database Toolkit Набор операторов SPL, которые позволяют легко интегрировать с внешними системами данных Financial Toolkit Набор финансовых адаптеров для упрощения интеграции Streams c обычно используемыми протоколами и технологиями в финансовой сфере Data Mining Toolkit Содержит алгоритмы интеллектуального анализа данных. Алгоритмы используют стандарт PMML Big Data toolkit Набор адаптеров, который позволяет взаимодействовать (читать и писать) операторам Streams с HDFS Text Toolkit Содержит оператор для запуска AQL запросов по текстовому документу и плагины для развития AQL запросов - Свободное ПО - Дополнительное ПО - ПО в составе поставки
  24. EC-лизинг Назначение инструментов BigInsights Декларативные языки Annotation Query Language (AQL) Язык, который используется для обработки неструктурированного теста JaQL (Query Language for JSON (JavaScript Object Notation) ) Функциональный язык запросов для выполнения функций фильтрации, объединения и группировки JSON-данных. Можно создавать пользовательские функции для использования в исполняемых выражениях Pig Latin Язык платформы Pig для создания MapReduce приложений. HiveQL Язык, который используется в Hadoop в качестве языка запросов R Язык, который используется для статистической обработки данных (статистического анализа) Коннекторы Netezza Connector Позволяет писать и читать данные из Netezza Streams Connector Позволяет писать и читать данные из Streams Языки программирования 3-го поколения Java, C / C++ Используется в BigInsights для создания приложений - Свободное ПО - Дополнительное ПО - ПО в составе поставки
  25. EC-лизинг Назначение инструментов BigInsights Средства и инструменты обработки Flume Средство, которое позволяет собирать данные с удаленных компьютеров Hive Средство, реализующее операции извлечения-преобразования-загрузки (ETL) в дополнение к анализу больших наборов данных, хранящихся в Распределенной Файловой Системе Hadoop (HDFS). Оно позволяет преобразовывать SQL-запросы в язык запросов JaQL и исполнять MapReduce-процедуры. InfoSphere BigInsights включает JDBC-драйвера, которые можно использовать для программирования с Hive и для подключения к программному обеспечению Cognos Business Intelligence Lucene Это Jaql модуль, который позволяет создавать, сканировать и запрашивать Lucene индексы Zookeeper Это централизованная служба Apache для сохранения информации о конфигурации, наименования, обеспечение распределенной синхронизации, а также предоставление группы услуг Avro Это фреймворк для сериализации и десереализации данных. HBase Приложение HBase позволяет экспортировать строки данных из таблицы HBase через консоль InfoSphere BigInsights HCatalog Служба управления хранение данных в Hadoop Sqoop Используется для перемещения данных между BigInsights InfoSphere распределенной файловой системы и реляционными системами управления базами данных Oozie Менеджер управления задач Apache Hadoop - Свободное ПО - Дополнительное ПО - ПО в составе поставки
  26. EC-лизинг Назначение инструментов Data Explorer Средства обработки и разработки Application Builder Средство, которое позволяет строить настраиваемые веб-панели, предоставляющие пользователям интерфейс к источникам, которые Data Explorer может сканировать и индексировать Search Engine Средство, которое производит обработку информации (извлечение, индексацию, конвертацию) Коннекторы Connector Framework Поддерживает более 30 часто используемых источников данных, включая CRM системы, архивы электронных почт, а также Streams и BigInsights. Mature Connector Используется для создания дополнительных коннекторов к собственным источникам данных. - Свободное ПО - Дополнительное ПО - ПО в составе поставки
  27. EC-лизинг Назначение инструментов Pure Data (Netezza) Декларативные языки SQL, nz/PLSQL Используется для написания запросов для работы и администрирования Netezza Языки программирования 3-го поколения Java, C / C++, FORTRAN, nzLua, Python, Ruby, JavaScript, Perl, и тд. Эти языки являются частью IBM NETEZZA ANALYTICS. Назначение этого инструмента - дать возможность разработчикам расширить набор функций и средств для обработки данных в Netezza. Библиотеки ESRI/OpenGIS Библиотека предназначена упростить задачи, связанные с геопространственным анализом. nzMatrix Библиотека предназначена упростить задачи, связанные с работой с матрицами Коннекторы Streams Connector Позволяет писать и читать данные из Streams Hadoop Connector Позволяет писать и читать данные из Hadoop - Свободное ПО - Дополнительное ПО - ПО в составе поставки
Publicidad