Презентация Константина Ткачева, архитектора решений CleverDATA по платформе Splunk (функционал, источники данных, возможности масштабируемости, примеры панелей управления, возможности интеграции, аналитика данных и предиктивные возможности).
3. cleverdata.ru | info@cleverdata.ru
Структура презентации
> splunk> - универсальная платформа для работы с любыми данными
> Аналитика и визуализация
> Прогнозирование
> Дополнительные возможности
> Демонстрация
> Вопросы
5. HA / DR Admin Data Security Apps SDKs/APIScale
Сбор
данных
Индексация
данных
Обогащение
данных
Поиск
и
исследование
Прогноз
Отчеты
и
dashboards
Оповещения
cleverdata.ru | info@cleverdata.ru
- полностью интегрированная платформа масштаба предприятияsplunk>
7. cleverdata.ru | info@cleverdata.ru
Исходные данные
из любых источников, различных типов и объема
Online
Services Web
Services
Servers
Security GPS
Location
Storage
Desktops
Networks
Packaged
Applications
Custom
ApplicationsMessaging
Telecoms
Online
Shopping
Cart
Web
Clickstreams
Databases
Energy
Meters
Call Detail
Records
Smartphones
and Devices
RFID
On-
Premises
Private
Cloud
Public
Cloud
Аналитика
по направлениям
Доступность
сервисов и
приложений
Безопасность
IT Operations
Бизнес-
аналитика
Технологические
процессы
Источники данных splunk>
8. cleverdata.ru | info@cleverdata.ru
Local Event Logs
Collect event logs from this machine
Remote Event Logs
Collect event logs from remote hosts Files & Directories
Upload a file, index a local file, or monitor an entire directory
HTTP Event Collector
Configure tokens that clients can use to send data over HTTP or HTTPS
TCP / UDP
Configure Splunk to listen on a network port
Local Performance Monitoring
Collect performance data from this machine
Remote Performance Monitoring
Collect performance and event information from remote hosts
Registry monitoring
Have Splunk index the local Windows Registry
Active Directory monitoring
Index and monitor Active Directory
Local Windows host monitoring
Collect up-to-date hardware and software
Local Windows network monitoring
This is an input for Splunk Network Monitor
Local Windows print monitoring
Collect information about printers, printer jobs
Scripts
Get data from from any API, service, or database with a script
Modular input
Python script
Powershell Modular Input
Execute PowerShell scripts v3 with parameters as inputs
REST
REST API input for polling data from RESTful endpoints
Wire data
Passively capture wire data from network traffic
Источники данных splunk>
DataBases
SQL and NoSQL
Syslog
Syslog
9. cleverdata.ru | info@cleverdata.ru
Автоматическая балансировка нагрузки между Splunk Indexers
Распределенный поиск с использованием Splunk Search Heads
Источники с установленными Splunk Forwarders
Масштабируемость, надежность и доступность splunk>
13. cleverdata.ru | info@cleverdata.ru
splunk> аналитика геоинформационных данных
Анализ количества транзакций
клиентов, сгруппированных по
уровню текущего остатка, за
последний час
…| lookup… | geostats latfield=eventlat longfield=eventlong count(trn) by current_balance| where card_type=mastercard
Поисковая
команда языка SPL
Аналитика в splunk >
14. cleverdata.ru | info@cleverdata.ru
> Разработка аналитических моделей данных (data models) на базе команд SPL.
> Использование моделей данных конечными бизнес-пользователями в редакторе PIVOT.
> Размещение результатов в отчетах и панелях управления (dashboards).
Поисковый запрос
SPL
Атрибуты
результирующей
выборки
Аналитика в splunk >
19. cleverdata.ru | info@cleverdata.ru
Интеграция splunk> с Pentaho Business Analytics
Интеграция c сервером Splunk> в
среде Pentaho data Integration
(PDI)
Анализ данных Splunk> в Pentaho
Business Analytics
21. cleverdata.ru | info@cleverdata.ru
Data mining и Machine Learning
Отрасль Пример
IT Прогноз объема интернет-трафика по дням недели.
IT Real-time анализ логов proxy-сервера и web-сервера на наличие определенных слов или выражений
для предотвращения SQL injections. Используется наивная байесовская классификация.
IT Прогнозирование нагрузки на Службу поддержки на основании активности клиентов (например,
смена/сброс пароля, запрос баланса и т.д.). Планирование активностей по привлечению
дополнительных ресурсов в пиковые периоды.
Банки Прогноз нагрузки на платежный шлюз банка (например, запросов в секунду) на основании
имеющейся статистики. Определение пиковых и адаптивных пороговых значений на основании
функционала Splunk по выявлению аномалий (anomaly detection).
Банки Real-time анализ ВСЕХ действий клиентов (в т.ч. потенциальных) на сайте банка/на странице с
кредитным калькулятором для принятия решения о выдаче кредита. Использование
дополнительных имеющихся атрибутов (предикторов).
Промышлен
ность
Определение вероятности снижения энергоэффективности оборудования (повышение потребляемой
мощности, снижение КПД) на основании характеристик его работы из логов управляющих систем,
информации с датчиков и сенсоров и выявленной статистики снижения энергоэффективности.
Проведение внеплановых замен/модернизаций оборудования на основании полученного прогноза.
22. cleverdata.ru | info@cleverdata.ru
Data mining и Machine Learning
Отрасль Пример
Маркетинг 1. Прогнозирование объема продаж.
2. Определение ассоциативных правил, приводящих к покупкам на сайте. Динамическое
формирование страниц сайта (контента страниц) для повышения конверсии.
Безопасность Определение транзакций клиентов, которые выполняются со скоростью, значительно
превышающую скорость других клиентов (средняя частота использования карты, идентификатора
клиента и т.д.). Данное поведение может быть идентифицировано как шаблон. Например,
использование интернет-ботов (bot) для перебора паролей/загрузки канала или планирование
DDoS атак. Используется функционал Splunk по выявлению аномалий (anomaly detection).
Безопасность Определение шаблонов аномальной передачи данных. Построение предиктивной модели,
которая будет определять такие шаблоны и уведомлять заинтересованных лиц, используя
механизм alert’ов.
Телеком Predict Customer Churn. Построение модели оттока клиентов.
23. cleverdata.ru | info@cleverdata.ru
> Большая библиотека команд и алгоритмов.
> Возможность использовать R и Python с помощью R Project App и SDK for Python.
> Набор дополнительных приложений: Machine Learning Toolkit and Showcase, Predict
App, Sentiment analysis App, Prelert.
> Богатые возможности визуализации (в т.ч. использование D3).
Анализ трендов: predict, trendline,
autoregress
Выявление аномалий и
сегментирование: anomalies,
cluster, kmeans
Data mining и Machine Learning
24. cleverdata.ru | info@cleverdata.ru
Команды и алгоритмы:
> корреляция;
> кластеризация (k means, cluster);
> ассоциативные правила;
> классификация и
прогнозирование (байесовская
классификация, регрессии, SVM);
> поиск аномалий;
> метод главных компонент (PCA);
> а также использование любых
библиотек и алгоритмов как
команд Splunk (SPL).
Команда Описание
analyzefields Analyze numerical fields for their ability to predict another discrete field.
anomalies Computes an "unexpectedness" score for an event.
anomalousvalue Finds and summarizes irregular, or uncommon, search results.
cluster Clusters similar events together.
kmeans Performs k-means clustering on selected fields.
outlier Removes outlying numerical values.
rare Displays the least common values of a field.
contingency Builds a contingency table, a co-occurrence matrix, for the values of two fields.
correlate Calculates the correlation between different fields.
predict Enables you to use time series algorithms to predict future values of fields.
trendline Computes moving averages of fields.
x11 Enables you to determine the trend in your data by removing the seasonal pattern.
Data mining и Machine Learning
25. cleverdata.ru | info@cleverdata.ru
ML Toolkit and Showcase
> Линейная регрессия > Логистическая регрессия > Определение аномалий
> Кластеризация > Прогнозирование
28. cleverdata.ru | info@cleverdata.ru
Дополнительные возможности
> Splunk> Enterprise Security.
> Splunk> ITSI.
> Интеграция HUNK с Hadoop как оптимальный путь
использования имеющихся «больших данных».
29. cleverdata.ru | info@cleverdata.ru
splunk> ITSI
> Service Analyzer
Высокоуровневая панель состояния сервисов и интегральных
показателей.
> Glass Tables
Персонализированное представление состояния сервисов и
показателей.
> Deep dives
Детальный сравнительный анализ состояния сервисов на общей шкале
времени.
> Notable Events
Удобное представление значимых событий.
> Multi KPI Alerts
Настройка оповещений при корреляции нескольких событий.
> Data driven analysis: anomaly detection and adaptive
thresholds
Определение аномальных событий и релевантных (адаптивных)
пороговых значений показателей на основе использования методов
машинного обучения.
30. cleverdata.ru | info@cleverdata.ru
splunk> HUNK
Подготовительные действия:
- Установка java;
- Развертывание необходимого дистрибутива Hadoop.
Настройка HUNK в два шага:
1. Настройка провайдера Hadoop;
2. Настройка виртуального индекса.
Простые шаги к использованию данных Hadoop
31. cleverdata.ru | info@cleverdata.ru
> Платформа обеспечивающая «зонтичный мониторинг», объединяя любые
системы и сервисы гетерогенного IT-ландшафта компании в сквозные процессы
мониторинга. Проактивный мониторинг соответствия процессов KPI и SLA.
Формирование сервисно-ресурсной модели с отображением KPI.
> Простой доступ к данным всех систем и сервисов в соответствии с
настраиваемой ролевой моделью: использование dashboards, отчетов и pivots.
> Быстрый поиск причин инцидентов, путем выявления корреляций между
событиями в различных системах.
> Real-time аналитика событий и показателей: от уровня IT до уровня а бизнес-
процессов компании в целом.
> Адаптивный мониторинг и Machine Learning.
Отличительные особенности splunk>
32. cleverdata.ru | info@cleverdata.ru
splunk >
> Универсальная платформа для любых данных
> Масштабируемость от уровня desktop до enterprise
> Развитые возможности аналитики
> Быстрое получение первых бизнес-результатов