HighLoad++ 2017
Зал «Москва», 8 ноября, 13:00
Тезисы:
http://www.highload.ru/2017/abstracts/3014.html
Мы планируем поделиться с аудиторией примером SuccessStory создания BigData-инфраструктуры (Hadoop) в Почте России. Мы расскажем про выбранные решения, мотивацию их выбора, а также про то, куда развивается продукт в Почте.
Доклад будет интересен всем проектам и компаниям, где только задумываются о развитии BigData-технологий, а также всем, кому интересно узнать, как устроена "внутри" современная Почта.
...
2. Кейс из жизни
2012 год – посылка из США под новый год, с
подарками всем друзьям
•27 ноября - экспорт из США
•25 декабря - появилась у нас на границе
•30 декабря – поездка в центральный офис EMS
вызволять (5 часов)
8. Задачи на релиз 0
1. Получить данные от всех логистических систем
2. Построить модель данных (матрешка)
3. Построить отчет «Остатки» состояние на вчера
4. Предоставить доступ к отчету пользователям
18. Доступ к данным по ключу
по ID из 100млрд записей найти 10-100 нужных (pochta.ru)
• Решение key-value базы
• Пробовали SparkSQL
• Пробовали Hadoop/Hive/in-memory/Vertica
• Кандидаты:
37. Пилотирование Yandex ClickHouse
• Очень быстрая база
• ClickHouse + docker
• Универсальный загрузчик данных
(Spark+Scala+local-table+paritions)
38. Пилотирование Yandex ClickHouse
• Провели нагрузочное тестирование
• Результат – для наших задач не подходит
• Под нагрузкой – 100% (3600%)CPU
• Скорость сопоставима с Vertica, но очень большая
нагрузка на оборудование
39. Пилотирование Flink
• Flume не всегда стабилен
• Flume сложно мониторить
• Шаг влево-вправо – сложно
• Решение – Flink
• Пробовали NiFi – не понравился
59. Выводы
• Не нужно останавливаться на достигнутом
• Каждую задачу должен решать свой инструмент
• Не надо бояться расширять архитектуру за счет хороших и
подходящих инструментов
60. BigПочта – вопросы?
Алексей Вовченко
AVovchenko@luxoft.com
Skype: itsnein
https://www.linkedin.com/comm/in/alexey-vovchenko-3a1b6744