3. Программа
Проблемы управления виртуальной средой
Новый подход к управлению – интеллектуальная система
анализа vCO
Смещение фокуса на бизнес-приложения и сервисы – от
состояния инфраструктуры к состоянию приложений
Архитектура и развёртывание vCO
Демонстрация работы vCO
3
5. Если бы Вы могли…
Автоматизация
• Ускорить процесс поиска и исправления
проблем
Корреляция и эскалация
• Быстрый поиск истоков проблем с
производительностью
Проактивная реакция
• Предугадать появление проблем
производительности для бизнес-задач
Агрегация
• Комплексный системный подход к анализу
проблем
Оптимизация
• Настройка компонентов для достижения
лучших показателей
5
6. Зачем нужен именно vCO ?
80% времени администратор ищет
причину возникновения проблем
производительности
• 1-е поколение систем – «светофор»
статические метки сложно
интерпретировать и настраивать
• Внимание на события, а не на комплекс
проблем
Основные задачи администратора
• Увеличение ROI путём повышения
плотности размещения ВМ
• Гарантировать наличие необходимых
ресурсов для работы бизнес-задач
• Гарантировать высокую эффективность
работы виртуальной среды для бизнес-
задач
6
7. Эволюция средств управления - 1-е поколение систем
мониторинга
1-е поколение – Сосредоточено на событиях, жёстко заданные рамки
3/4/08 16:45 Host 1 processingTimeServ The Processing Time Service Level on process… n/a n/a n/a
3/4/08 16:45 Host 1 Processor_Table 0 Processor 0 is at 87.0%. A CPU Bottleneck is….. n/a 0 Windows_System
3/4/08 16:44 Host 2 System_Table The number of hardware interrupts per second… n/a 0 Windows_System
3/4/08 16:30 Host 2 Processor_Table 1 Processor 1 is at 84.0%. A CPU Bottleneck is …. n/a 0 Windows_System
3/4/08 16:25 n/a responseTimeServ… The Response Time Service Level on Toadwor.. n/a n/a n/a
DATA FEEDS
3/4/08 16:20 n/a processingTimeServ.. The Processing Time Service Level on Prospec.. n/a n/a n/a
3/4/08 16:08 Host 1 Ora_Sql_Hogs_Alert Oracle: SFPRD A CPU Hog has been detected n/a OraSF Oracle
3/4/08 16:08 Host 1 Ora_Sql_Hogs_Alert Oracle: SFPRD SQL with high I/O has been de.. n/a OraSF Oracle
DATA FEEDS
3/4/08 14:40 n/a responseTimeServ… The Response Time Service Level on Siebel Sa.. n/a n/a n/a
3/4/08 14:20 n/a processingTimeServ.. The Processing Time Service Level on Siebel S. n/a n/a n/a
3/4/08 14:39 Host 3 Top_CPU_Table Process ‘siebsh.exe(svc-siebel, 6780)’: is cons.. n/a 0 Windows_System
DATA FEEDS
3/4/08 14:39 Host 3 Top_CPU_Table Process ‘siebsh.exe(svc-siebel, 7940)’: is cons.. n/a 0 Windows_System
3/4/08 14:15 n/a responseTimeServ… The Response Time Service Level on Toadwor.. n/a n/a n/a
DATA FEEDS 3/4/08 14:15 n/a processingTimeServ.. The Processing Time Service Level on Prospec.. n/a n/a n/a
3/4/08 13:55 Host 1 Ora_Sql_Hogs_Alert Oracle: SFPRD A CPU Hog has been detected n/a OraSF Oracle
3/4/08 16:45 Host 1 processingTimeServ The Processing Time Service Level on process… n/a n/a n/a
3/4/08 16:45 Host 1 Processor_Table 0 Processor 0 is at 87.0%. A CPU Bottleneck is….. n/a 0 Windows_System
3/4/08 16:44 Host 2 System_Table The number of hardware interrupts per second… n/a 0 Windows_System
3/4/08 16:30 Host 2 Processor_Table 1 Processor 1 is at 84.0%. A CPU Bottleneck is …. n/a 0 Windows_System
3/4/08 16:25 n/a responseTimeServ… The Response Time Service Level on Toadwor.. n/a n/a n/a
3/4/08 16:20 n/a processingTimeServ.. The Processing Time Service Level on Prospec.. n/a n/a n/a
3/4/08 16:08 Host 1 Ora_Sql_Hogs_Alert Oracle: SFPRD A CPU Hog has been detected n/a OraSF Oracle
7
3/4/08 16:08 Host 1 Ora_Sql_Hogs_Alert Oracle: SFPRD SQL with high I/O has been de.. n/a OraSF Oracle
8. Эволюция средств управления - 2-е поколение систем
мониторинга
2-е поколение – Рудиментарные правила, графики и шаблоны
событий
3/4/08 16:45 Host 1 processingTimeServ The Processing Time Service Level on process… n/a n/a n/a
3/4/08 16:45 Host 1 Processor_Table 0 Processor 0 is at 87.0%. A CPU Bottleneck is….. n/a 0 Windows_System
3/4/08 16:44 Host 2 System_Table The number of hardware interrupts per second… n/a 0 Windows_System
DATA FEEDS 3/4/08 16:30 Host 2 Processor_Table 1 Processor 1 is at 84.0%. A CPU Bottleneck is …. n/a 0 Windows_System
3/4/08 16:25 n/a responseTimeServ… The Response Time Service Level on Toadwor.. n/a n/a n/a
3/4/08 16:20 n/a processingTimeServ.. The Processing Time Service Level on Prospec.. n/a n/a n/a
3/4/08 16:08 Host 1 Ora_Sql_Hogs_Alert Oracle: SFPRD A CPU Hog has been detected n/a OraSF Oracle
3/4/08 16:08 Host 1 Ora_Sql_Hogs_Alert Oracle: SFPRD SQL with high I/O has been de.. n/a OraSF Oracle
3/4/08 14:40 n/a responseTimeServ… The Response Time Service Level on Siebel Sa.. n/a n/a n/a
3/4/08 14:20 n/a processingTimeServ.. The Processing Time Service Level on Siebel S. n/a n/a n/a
DATA FEEDS 3/4/08 14:39 Host 3 Top_CPU_Table Process ‘siebsh.exe(svc-siebel, 6780)’: is cons.. n/a 0 Windows_System
3/4/08 14:39 Host 3 Top_CPU_Table Process ‘siebsh.exe(svc-siebel, 7940)’: is cons.. n/a 0 Windows_System
3/4/08 14:15 n/a responseTimeServ… The Response Time Service Level on Toadwor.. n/a n/a n/a
3/4/08 14:15 n/a processingTimeServ.. The Processing Time Service Level on Prospec.. n/a n/a n/a
3/4/08 13:55 Host 1 Ora_Sql_Hogs_Alert Oracle: SFPRD A CPU Hog has been detected n/a OraSF Oracle
3/4/08 16:45 Host 1 processingTimeServ The Processing Time Service Level on process… n/a n/a n/a
DATA FEEDS
3/4/08 16:45 Host 1 Processor_Table 0 Processor 0 is at 87.0%. A CPU Bottleneck is….. n/a 0 Windows_System
3/4/08 16:44 Host 2 System_Table The number of hardware interrupts per second… n/a 0 Windows_System
3/4/08 16:30 Host 2 Processor_Table 1 Processor 1 is at 84.0%. A CPU Bottleneck is …. n/a 0 Windows_System
DATA FEEDS
3/4/08 16:25 n/a responseTimeServ… The Response Time Service Level on Toadwor.. n/a n/a n/a
3/4/08 16:20 n/a processingTimeServ.. The Processing Time Service Level on Prospec.. n/a n/a n/a
3/4/08 16:08 Host 1 Ora_Sql_Hogs_Alert Oracle: SFPRD A CPU Hog has been detected n/a OraSF Oracle
3/4/08 16:08 Host 1 Ora_Sql_Hogs_Alert Oracle: SFPRD SQL with high I/O has been de.. n/a OraSF Oracle
8
9. Недостатки традиционного подхода к мониторингу
Большое количество разрозненных плохо структурированных
данных
Низкая скорость реакции на изменяющуюся динамику работы
компонентов
Отсутствие средств для комплексного анализа информации,
корреляции данных из разных источников
Высокое количество ложных срабатываний: трудности при
поиске истинных проблем в системе
9
11. VMware - Мониторинг производительности в режиме
реального времени
3-е поколение – единый инструмент анализа в режиме реального
времени
Гибкая
ИНТЕГРАЦИЯ
с разными
источниками данных
Я могу могу объединить
Масштабируемость все системы
мониторинга в одну и
получить целостную
картину
производительности.
Алгоритмы анализа
информации о
производительности
Удобный интерфейс
со всей необходимой
информацией
11
12. vCenter Operations 3-е Поколение систем – аналогия
Slide 12
Мониторинг серверов O/S s – CPU, RAM, Disk, I/O, etc.
Мышцы Кости Кровообращение Нервы
Мониторинг приложений – JVM, DB подключения, и т.д.
Дыхание Сердечный Температура
ритм Мониторинг пользовательских Мониторинг бизнес-
метрик приложений
vCenter
Operations
vCenter Operations обрабатывает тысячи
показателей моей инфраструктуры, что я
Мозг понимает состояние моего тела, что я должен делать, если.
должен делать, если. vCenter Operations знает, в чём проблема:
Мой мозг знает, что делать: Ответ на изменения в режиме реального времени
Мой сердечный ритм и температура повышаются Действия при изменении динамики в разрезе
– обратиться к врачу! времени
Сильно устаю – больше отдыхать!
Мало устаю – больше работать!
12
13. Источники данных
Широкая поддержка внешних источников
данных
• HP Open View, BAC
• Oracle Enterprise Manager
• EMC Ionix
• Microsoft MOM/SCOM 2005/2007
• SAP CCMS vCenter
• Cacti/MRTG Operations
• SNMP, Perl и т.д
Минимальные требования к данным
• Имя объекта, имя метрики, значение, время
Сбор данных
• Сбор данных – никакой аналитики для запросов!
• Анализ данных и их корреляцию делает vCO
13
14. Самообучение – что такое нормальное состояние системы
и отклонения от него
Серая метка
Верхнее и нижнее
отклонение от нормы
Синий график
Текущее
значение
показателя
Красная метка
Отклонение от нормы
Интеллектуальная система анализа – 8 различных алгоритмов
Изучение динамики нормального состояния без шаблонов
Изучение примеров поведения среды и идентификация
отклонений от нормы
14
15. Проактивное оповещение и предупреждение
Пользователи (RUM, и т.д.) Приложения ( Wily, и т.д.)
Бизнес-приложения
Smart Alert Generation (“Когда”)
! SMART ALERT
Сетевая инфраструктура
СХД (Quest, и т.д.) (Ionix IPPM, и т.д..)
Показатели приложений(Finance)
15
16. VMware vCenter Operations Standard Basics
Простой и быстрый способ определить проблемы
производительности
Простота использования
• Интеграция с панелью управления vCenter
• Интуитивно понятное графическое управление и анализ возникающих
проблем
• Автоматический сбор данных из vCenter
• Информация о производительности, топологии, изменениях в конфигурации и
событиях
VMware vCenter Operations Standard – значение для бизнеса
• Увеличение производительности для бизнес-задач, приложений и
сервисов
• Снижение стоимости инфраструктуры повышением плотности
размещения VM
• Снижение затрат на администрирование и оптимизацию
инфраструктуры
16
17. Ближе к пониманию Вашей виртуальной среды- Workload
Показатели Workload
• Отношение текущих и используемых ресурсов
• Низкий показатель – объект имеет все необходимые ресурсы
• При превышении 100% - ресурсов недостаточно
Компоненты Workload
• CPU • Network I/O
• Storage I/O • Memory (ВМ и ESX-узла)
Значение показателей Workload
• Детальный анализ и понимание проблем с недостатком ресурсов
• Обзор состояния объектов и их компонентов
• Это типичная проблема? • Проблемы в настройках?
• Следует выполнить миграцию • Недостаток ресурсов?
ВМ? • Виртуальная инфраструктура в порядке.
Это проблема приложения или ОС?
17
18. Ближе к пониманию Вашей виртуальной среды - Health
Показатель Health
Оценка нормального поведения объекта: 0-100 (чем выше –
тем меньше отклонение)
• Изучение динамики изменения нормального состояния для
каждой метрики
Важно
• Изучение нормального поведения объекта и идентификация
отклонений Низкое значение
показателя Health
• Чем ниже значение, тем сильнее отклонение
говорит об
Как только проблема обнаружена отклонении от
• Единая точка обзора состояния компонента и указания нормы в работе
отклонений отслеживаемого
• Выделение ключевой причины возникновения отклонений объекта
• Нет необходимости оценивать множество метрик и
показателей различных компонентов всей системы
Показатели Health и Workload – полная информация о
Вашей инфраструктуре
18
19. Ближе к пониманию Вашей виртуальной среды - Capacity
Показатель Capacity – ёмкость ресурсов
Как долго у Вас будет достаточно ресурсов для работы бизнес-
задач и приложений?
• Шкала 0-100 – Чем выше значение, тем больше у Вас времени
• Возможность самостоятельно настроить оповещения
• Осталось 30 дней = RED
• Осталось 60 = Orange
Составные компоненты Capacity
• CPU • Network I/O
• Storage I/O • Memory
О чём говорит метрика Capacity
• Отражение динамики потребления ресурсов
• Текущее состояние ресурсов
• Планирование затрат на инфраструктуру и оценка времени до
обновления
19
21. Простой взгляд на сложную систему
• Нет единой точки обзора системы • Единая точка обзора состояния
• Невозможно оценить состояние всех • Консолидация данных
компонентов • Фильтры поиска состояний
• Пересечение потоков информации,
разрозненность данных
До После
• Единая точка мониторинга виртуальной инфраструктуры
• Простота использования
• Визуализация данных
• Отображение только важной информации.
21
22. Снижение сложности
Slide 22
• Разрозненные системы и • Единая метрика состояния
показатели скрывают состояние отслеживаемых объектов– Health
системы а целом • Автоматическая агрегация,
• Слишком много информации,
оценка, анализ более 100
показателей и консолидация в
показателей единые показатели – Health and
• Преднастройка показателей сбоев Workload
• Impossible to understand health of
elements
До После
• Снижение сложности использования средств управления
• Ускорение решения проблем
• Больше возможностей для анализа проблем
22
23. Оценка правильного состояния инфраструктуры
Slide 23
• Невозможно охарактеризовать • Оценка и качественная
статические метрики характеристика показателей
• 65% потребления ресурсов – это • Изучение поведения
нормально – в час, день, неделю? инфраструктуры
• Это симптом будущих проблем?
До После
• Качественная оценка метрик и состояний в разрезе времени
• Легкость планирования потребления и использования ресурсов в
будущем
23
24. Оптимизация работы задач и приложений
Slide 24
• VC не сохраняет профили данных о • Оценка и сохранение профилей
производительности ВМ производительности узлов ESX
• Набор необработанных «сырых» • Увеличение плотности размещения
данных, сложность виртуальных машин
• Ensure smooth, consistent use of
resources
До После
• Увеличение плотности размещения ВМ
• Оптимизация использования ресурсов
• Увеличение эффективности использования ресурсов
24
25. Влияние изменений на состояние инфраструктуры
Slide 25
• Внесение изменений в настройку • Внесение изменений отражаются
виртуальной среды - обычная работа на показателях состояния среды
администратора • Наглядность влияния изменений на
• Изменения могут повлиять на поведение виртуальной среды
производительность приложений
До После
• Мгновенное отражение и учёт внесённых изменений
• Визуализация состояния компонентов
• Администратор может сразу же оценить последствия внесённых
изменений
25
26. Многоуровневый анализ состояния
Slide 26
• Какие из узлов кластера имеют • Наглядная визуализация более чем
высокую загрузку процессора и 100 метрик и показателей работы
виртуальной среды
низкое потребление оперативной
памяти?
До После
• Взаимосвязь состояния бизнес-приложений и инфраструктуры
• Наглядное и подробное отображение структурированных данных
26
27. Фокус на ключевые проблемы производительности
приложений
Smart Alert (“Что происходит”)
Проблемы
производительности
связаны с
прлиложением БД
Метрики
состояния
приложения -
Начальная
точка анализа
27
29. Архитектура vCenter Operations Standard
Четыре ключевых
сервиса: Collector,
Analytics, Web,
ActiveMQ
Архитектура включает
в себя
PostgresSQL DB
File-based DB
(FSDB) for raw
metric storage
Единый коллектор
информации
29
30. Логика работы vCenter Operations Standard
3: Входящие данные
анализируются и
сравниваются
Аналитика данных
2a: динамическими
выполняется каждый
значениями,
день для выработки
вычисляются метрики 4: Results provided
рекомендаций (DT) на
Health, Workload and to UI: Update
1aСбор данных – метрики, день
Capacity “Badges”, provide
топология, изменения Root Cause for
конфигурации Health scores, etc.
2c: Динамические
значения
2b: База анализируется сохраняются в
1b: Данные
каждый день для PostgresSQL DB
сохраняются
выработки рекомендаций
вFSDB
на 24 часа
30
31. Развёртывание VMware vCenter Operations Standard
Один vCenter Operations Standard для каждого vCenter
До1500 Virtual Machines
vCenter Operations Standard в виде виртуальной
машины(.ova)
• SUSE Linux Enterprise Server 11 SP1
• 8GB RAM
• 2 vCPUs
• 124 GB Disk (4 GB system disk + 120 GB data disk)
Поддерживаемые системы
• 4.0, 4.1
• vCenter
• vCenter 4.0U2
• vCenter 4.1
31
33. Редакции VMware vCenter Operations
vCenter Operations Enterprise
+ Full Configuration & Compliance
Management
vCenter Operations Advanced
+ Other VMware & 3rd Party Integrations
+ Capacity (View, management, servers, storage)
Planning
vCenter Operations Standard
Производитель
ность
Оценка
ёмкости
ресурсов
Изменения
конфигурации
vSphere
VMware Cloud / vCenter Non-VMware (включая физическое
оборудование)
33
34. Лицензирование vCenter Operations Editions
vCenter Operations vCenter Operations Enterprise
Standard Edition - Stand-Alone
Источники данных vCenter x 1 • Any 3rd party monitoring tools’ time
series data
• Change events
• Multiple vCenter Servers
Применимость
Объекты vCenter Objects (i.e.) Unlimited Scope (i.e.)
• Data Centers • Applications
• Clusters • Network Infrastructure
• ESX Hosts • Storage
• Datastores • Hosts (ESX, Win, Linux, etc)
• VMs x 1500 • VMs
Пользователи Infrastructure (e.g. VI Operations, Infrastructure, Application
Admins) Teams, Business Owners, CxOs
Динамические показатели Да Да
Ключевые причины Да Да
Функции
снижения
производительности
Проактивный мониторинг Нет Да
Настраиваемые отображения Нет Да
Уведомления Нет Да
34