От Зефира в коробке к Structure Zephyr или как тест-менеджеру перекроить внут...
Большому аналитику - большие данные
1. Большому аналитику –
большие данные
Наталия Красинская, NeoFlex (http://neoflex.ru/)
facebook.com/n.a.krasinskaya
# bigdataнебоюсьуйтив
2. Цель доклада –
ответить на вопросы:
• Почему стоит участвовать в проектах big
data?
• С чем аналитикам придётся столкнуться?
• Какие методики анализа данных придётся
изучить?
• Какой инструментарий следует использовать?
#стильно #модно #молодёжно
3. Вызов принят!
Типы задач, связанные с
Big Data:
•Хранение и управление
•Неструктурированная
информация
•Анализ Big Data
4. Пример. Ситуационный центр
• Streaming Big Data
• Batch Big Data
• On-line правила
• Мониторинг
• On-line Аналитика
• «Машинный анализ»
5. Итого: я – аналитик big data. Кто я?
АналитикАналитик
ЭкспертЭксперт
Исполни-
тель
Исполни-
тель
Дизайнер
данных
Дизайнер
данных
Исследо-
ватель
Исследо-
ватель
СтатистикСтатистик
7. Аналитик бизнес-модели
•Анализ бизнес-модели на основе
традиционных и больших данных.
•Формулировка и обоснование
изменений в бизнес-модели.
•Подготовка решений по бизнес-
модели, подготовка требований к
данным.
8. Аналитик структур данных
•Понимание структур данных и их связь
с элементами бизнес-модели.
•Контроль и корректировка смысловой
целостности данных и метаданных.
•Изменение структур и классификации
данных.
•Контроль качества данных, сервис
данных.
9. Аналитик рисков
•Оценка потенциальных угроз
данным и контроль информационных
рисков
•Контроль достоверности данных и
их источников
• Контроль рисков принятия решений на основе больших данных
• Вероятностная оценка прогнозных моделей.
11. От слов к действию
#всётольконачинается
Немного методик
для начала:
•A/B testing
•Classification
•Supervised learning
•Visualization
12. Инструментарий аналитика. Часть 1
• Управление бэклогом
• Бенчмаркинг
• Анализ рынка
#мастерскаябизнесанализа
• Диаграмма потока
данных
• Моделирование данных
• Анализ принятия
решений
Фразой «big data» уже мало кого можно удивить. В современном веке быстро развивающихся технологий понятие «большие данные» уже давно укрепилось. От маркетинговых слоганов и абстрактных рассказах в презентациях мы переходим, наконец, к наиболее интересному этапу развития технологий — технологий анализа данных.
Доклад будет интересен аналитикам, готовым погружаться в новый, интересный мир больших данных.
Big data – модный термин, фигурирующий почти на всех профессиональных конференциях, посвященных анализу данных, прогностической аналитике, интеллектуальному анализу данных (data mining), CRM.
Термин используется в сферах, где актуальна работа с качественно большими объемами данных, где постоянно происходит увеличение скорости потока данных в организационный процесс: экономике, банковской деятельности, производстве, маркетинге, телекоммуникациях, веб-аналитике, медицине и др.
Существуют три типа задач связанных с Big Data:
1. Хранение и управление
Объем данных в сотни терабайт или петабайт не позволяет легко хранить и управлять ими с помощью традиционных реляционных баз данных.
2. Неструктурированная информация
Большинство всех данных Big Data являются неструктурированными. Т.е. как можно организовать текст, видео, изображения, и т.д.?
3. Анализ Big Data
Как анализировать неструктурированную информацию? Как на основе Big Data составлять простые отчеты, строить и внедрять углубленные прогностические модели?
Не следует путать аналитика со статистиком или математиком. Он обычно понимает и умеет формулировать математические модели определенного класса, умеет применять статистические инструменты для обработки данных. В большей же степени он должен разбираться в том, как данные увязаны с бизнес-процессами и бизнес-объектами. Аналитику необходимо уметь разбираться в том, что означают собранные и обработанные данные с точки зрения экономических, производственных и рыночных процессов. Математические исследования и статистические доказательства – это не зона ответственности аналитика, это его инструментарий.
Аналитик – это и эксперт, и исследователь, и исполнитель, и дизайнер данных. Но аналитик не в состоянии заменить, например, классного менеджера по продажам. Аналитика лишь в состоянии показать, что идет не так в бизнесе, что заменить в бизнес-модели, на что обратить внимание.
Одна из важнейших составляющих в проекте больших данных – аналитика. От работы аналитиков зависит конечный результат. Можно собрать идеальные громадные массивы красиво структурированных данных и поместить их на великолепный суперсервер, но, если аналитик ничего не скажет полезного для бизнеса после того, как замучает хранилище запросами, – проект провалится. Аналитик в какой-то степени защищен от неудачи, если изначально разработана качественная модель потоков больших данных с выходными параметрами и показателями. Но от уровня профессионализма аналитика зависит очень многое, особенно – когда на строгий суд заказчика понадобится представить хоть что-нибудь впечатляющее и объяснить, куда потрачены дефицитные финансовые ресурсы.
Аналитики проекта больших данных должны обладать профессиональными знаниями и умениями в области сбора и обработки данных, в области анализа экономических, финансовых, статистических и производственных данных. Фактически вся ключевая смысловая работа с данными ложиться на аналитиков проекта.
Существует множество разнообразных методик анализа массивов данных, в основе которых лежит инструментарий, заимствованный из статистики и информатики (например, машинное обучение). Список не претендует на полноту, однако в нем отражены наиболее востребованные в различных отраслях подходы.
A/B testing. Методика, в которой контрольная выборка поочередно сравнивается с другими. Тем самым удается выявить оптимальную комбинацию показателей для достижения, например, наилучшей ответной реакции потребителей на маркетинговое предложение. Большие данные позволяют провести огромное количество итераций и таким образом получить статистически достоверный результат.
Classification. Набор методик, которые позволяет предсказать поведение потребителей в определенном сегменте рынка (принятие решений о покупке, отток, объем потребления и проч.). Используется в data mining.
Supervised learning. Набор основанных на технологиях машинного обучения методик, которые позволяют выявить функциональные взаимосвязи в анализируемых массивах данных.
Visualisation. Методы графического представления результатов анализа больших данных в виде диаграмм или анимированных изображений для упрощения интерпретации облегчения понимания полученных результатов.