Роман Андриади, Яндекс
Работает в департаменте эксплуатации Яндекса с 2005 года. С 2010 года – руководитель группы администрирования коммуникационных, контент- и внутренних сервисов.
Тема доклада
Администрирование небольших сервисов, или Один за всех и 100 на одного.
Тезисы
Администрирование коммуникационных сервисов начиналось в 2004 году с обслуживания десятка серверов и десятка сервисов, на них располагающихся. Со временем сервисов становилось все больше, увеличивалось число задач по ним, а десяток серверов вырос в парк из сотен машин, разделенных на множество разношерстных кластеров. В докладе будет рассказано, как с ростом объемов кластера эволюционировали приемы администрирования, какие инструменты при этом использовались, как мы написали свой инструмент управления, как и чем он научился помогать нам за эти годы.
Администрирование небольших сервисов или один за всех и 100 на одного. Роман Андриади, Яндекс
1. Один за всех и 100 на одного: администрирование большого количества небольших сервисов Р оман Андриади руководитель группы администрирования коммуникационных, контент- и внутренних сервисов Yet Another Conference, Москва, 19 сентября 2011 года
2. О чем это? Какие проблемы доставляют небольшие сервисы?
3. О чем это? Какие проблемы доставляют небольшие сервисы? Что делать, чтобы всё работало?
4. О чем это? Какие проблемы доставляют небольшие сервисы? Что делать, чтобы всё работало? Что делать, когда всё сломалось?
5. О чем это? Какие проблемы доставляют небольшие сервисы? Что делать, чтобы всё работало? Что делать, когда всё сломалось? Что делать перед этим?
6. О чем это? Какие проблемы доставляют небольшие сервисы? Что делать, чтобы всё работало? Что делать, когда всё сломалось? Что делать перед этим? Как всё это успевать?
7. О чем это? Какие проблемы доставляют небольшие сервисы? Что делать, чтобы всё работало? Что делать, когда всё сломалось? Что делать перед этим? Как всё это успевать... ...так, чтобы ничего за это не было
10. Больше 1000 серверов Около 250 сервисов Несколько тысяч компонентов Как с этим жить?
11. Больше 1000 серверов Около 250 сервисов Несколько тысяч компонентов До100 обновлений в день Как с этим жить?
12. Больше 1000 серверов Около 250 сервисов Несколько тысяч компонентов До100 обновлений в день Несколько новых сервисов в месяц Как с этим жить?
13. Больше 1000 серверов Около 250 сервисов Несколько тысяч компонентов До100 обновлений в день Несколько новых сервисов в месяц Несколько крупных релизов в неделю Как с этим жить?
29. Сохранили группировки машин SSH везде в одну команду Есть где узнать назначение сервера Web-интерфейс к хранилищу Доступ на сервера
30. Сохранили группировки машин SSH везде в одну команду Есть где узнать назначение сервера Web-интерфейс к хранилищу Легче работать нескольким людям Доступ на сервера
31. Больше сервисов — больше поломок Много поломок — медленно чинить Сервисы при этом должны работать Во время авралов плохо думается Частые поломки
37. Диагностика Много логов — сложно читать Искать атаки в логах - неэффективно Много мониторингов — плохой сон
38. Диагностика Много логов — сложно читать Искать атаки в логах - неэффективно Много мониторингов — плохой сон Не все поломки интересны в 3 ночи
39. Диагностика Много логов — сложно читать Искать атаки в логах - неэффективно Много мониторингов — плохой сон Не все поломки интересны в 3 ночи Много компонентов — сложно понять
40. Собрали логи в одном месте Считаем быструю статистику Диагностика
64. Пакетирование Логирование Размещение софта Общие инструменты запуска Технологии хранения И даже Cron не забыли Роботам в такой обстановке проще Унифицируемся
72. Завели web-сервис для релизов Принимаем там заявки Храним конфиг для выкладок Автоматизируемся
73.
74. Завели web-сервис для релизов Принимаем там заявки Храним конфиг для выкладок Меньше забываем Меньше работаем руками Больше управляем автоматами Автоматизируемся
75. И даже не боимся полностью автоматических релизов!