SlideShare una empresa de Scribd logo
1 de 19
Descargar para leer sin conexión
Процессинг данных
на lambda-архитектуре
Препарируем Data Management Platform
ЮКОН 2016
Анатолий Никулин
Коротко об AdTech
● Advertiser Technology -
технологии для рекламодателей.
● Это $60 B (только в США)
● Это десятки-сотни тысяч событий
в секунду
● Как следствие большие объемы
данных и нагрузки.
Что нужно рекламодателям, чтобы быть
эффективными
● Надо продать удочки
● Можно показать рекламу
Всему честному люду
● Но лучше выделить
определенную
группу - “Рыбаки”
● Их на порядок меньше,
экономия на порядок больше
Как им в этом помочь?
● Сбор и анализ пользовательской активности.
● Формирование профиля пользователя (интересы, увлечения,
профессиональная деятельность)*
● Группировка пользователей по заданным критериям, чтобы
можно было более точно и эффективно настраивать рекламные
кампании.
● Сделать рекламу более релевантной для пользователя, и
эффективной для рекламодателя.
*Анонимно
Как следствие требования
● Обработка и хранение больших объемов
исторических данных
● Оперативность принятия решений
● Устойчивость к отказам
● Горизонтальная масштабируемость
Трекинг входящих событий
ESB как единая точка входа данных
Spark как маршрутизатор данных
HDFS как хранилище сырых данных
● Распределенная файловая система
● Поддержка репликации
(надежность, ускорение вычислений)
● Файлы в формате Parquet
(компактное хранение, эффективный
последовательный доступ)
● Храним очень долго
HBase как хранилище консолидированных
профилей
● Распределенное колонко-ориентированное
хранилище
● Структура не фиксирована. 10 000 колонок - это
нормально
● Позволяет обособленно хранить сложные структуры
данных. Поддерживает версионность
● Отлично интегрирована с фреймворками
распределенных вычислений (Spark, MapReduce)
HBase как хранилище консолидированных
профилей
Внешние поставщики данных (3rd party data
providers)
● Соц. дем. (возраст, пол, семейное положение,
наличие детей)
● Интересы (хобби, увлечения)
● Профессиональная деятельность. (Организация,
отрасль, годовой оборот)
ASE сегментация пользователей.
Взять всех, да и поделить!
● Разбить профили на группы (сегменты). Чтобы
показывать релевантную рекламу.
● Сегментов может быть произвольное количество
● У сегмента есть
Правило и время жизни
Пример:
Сегмент: Охотники и рыбаки
Мужчины, 30-45, Сибирь,
Visits: www.hunters.ru
ASE как функция
Это и есть лямбда?
Плюсы
● Оперативность принятия решений
● Хранение сырых данных ( immutable, append-only)
● Возможность анализа всего исторического датасета
● Возможность репроцессинга всего исторического датасета
● Горизонтальная масштабируемость
● Отказоустойчивость
Минусы
● Сложность реализации
● Дороговизна реализации и владения
Вопросы?

Más contenido relacionado

La actualidad más candente

РИФ 2016, Data Monetization - Как зарабатывать на данных 2.0
РИФ 2016, Data Monetization - Как зарабатывать на данных 2.0РИФ 2016, Data Monetization - Как зарабатывать на данных 2.0
РИФ 2016, Data Monetization - Как зарабатывать на данных 2.0Тарасов Константин
 
Персонализация работы с пользователем на основе ваших данных
Персонализация работы с пользователем на основе ваших данных Персонализация работы с пользователем на основе ваших данных
Персонализация работы с пользователем на основе ваших данных Moscow Digital
 
Патентная защита Internet-разработок (Михаил Радченко)
Патентная защита Internet-разработок (Михаил Радченко)Патентная защита Internet-разработок (Михаил Радченко)
Патентная защита Internet-разработок (Михаил Радченко)Ontico
 
АНАЛИТИКА ПЛЮС, 5 декабря 2013 г., вебинар «MARKET BASKET ИЛИ АНАЛИЗ ПОКУПАТЕ...
АНАЛИТИКА ПЛЮС, 5 декабря 2013 г., вебинар «MARKET BASKET ИЛИ АНАЛИЗ ПОКУПАТЕ...АНАЛИТИКА ПЛЮС, 5 декабря 2013 г., вебинар «MARKET BASKET ИЛИ АНАЛИЗ ПОКУПАТЕ...
АНАЛИТИКА ПЛЮС, 5 декабря 2013 г., вебинар «MARKET BASKET ИЛИ АНАЛИЗ ПОКУПАТЕ...АНАЛИТИКА ПЛЮС
 
Roman styatugin clever_data_cxp_predictive marketing
Roman styatugin clever_data_cxp_predictive marketingRoman styatugin clever_data_cxp_predictive marketing
Roman styatugin clever_data_cxp_predictive marketingCleverDATA
 
Big data. Тренды и технологии. Использование в работе с клиентами.
Big data. Тренды и технологии. Использование в работе с клиентами.Big data. Тренды и технологии. Использование в работе с клиентами.
Big data. Тренды и технологии. Использование в работе с клиентами.CleverDATA
 
Internet reklama-i-universal-analytics
Internet reklama-i-universal-analyticsInternet reklama-i-universal-analytics
Internet reklama-i-universal-analyticsYanina Trofimenko
 
CleverDATA_Oracle Cloud BI Day 2015
CleverDATA_Oracle Cloud BI Day 2015CleverDATA_Oracle Cloud BI Day 2015
CleverDATA_Oracle Cloud BI Day 2015CleverDATA
 
Sip event - рекламные системы
Sip event - рекламные системыSip event - рекламные системы
Sip event - рекламные системыsslash65
 
Аудит аналитики вашего сайта: находим и устраняем структурные и функциональны...
Аудит аналитики вашего сайта: находим и устраняем структурные и функциональны...Аудит аналитики вашего сайта: находим и устраняем структурные и функциональны...
Аудит аналитики вашего сайта: находим и устраняем структурные и функциональны...Маркетинг-аналитика с OWOX BI
 
Facetz.DCA. Платформа по управлению данными
Facetz.DCA. Платформа по управлению даннымиFacetz.DCA. Платформа по управлению данными
Facetz.DCA. Платформа по управлению даннымиData-Centric_Alliance
 
CleverDATA _HybridConf16_Public
CleverDATA _HybridConf16_PublicCleverDATA _HybridConf16_Public
CleverDATA _HybridConf16_PublicCleverDATA
 
Сервисы гугл
Сервисы гуглСервисы гугл
Сервисы гуглAlenailinaa
 

La actualidad más candente (19)

РИФ 2016, Data Monetization - Как зарабатывать на данных 2.0
РИФ 2016, Data Monetization - Как зарабатывать на данных 2.0РИФ 2016, Data Monetization - Как зарабатывать на данных 2.0
РИФ 2016, Data Monetization - Как зарабатывать на данных 2.0
 
Персонализация работы с пользователем на основе ваших данных
Персонализация работы с пользователем на основе ваших данных Персонализация работы с пользователем на основе ваших данных
Персонализация работы с пользователем на основе ваших данных
 
Патентная защита Internet-разработок (Михаил Радченко)
Патентная защита Internet-разработок (Михаил Радченко)Патентная защита Internet-разработок (Михаил Радченко)
Патентная защита Internet-разработок (Михаил Радченко)
 
АНАЛИТИКА ПЛЮС, 5 декабря 2013 г., вебинар «MARKET BASKET ИЛИ АНАЛИЗ ПОКУПАТЕ...
АНАЛИТИКА ПЛЮС, 5 декабря 2013 г., вебинар «MARKET BASKET ИЛИ АНАЛИЗ ПОКУПАТЕ...АНАЛИТИКА ПЛЮС, 5 декабря 2013 г., вебинар «MARKET BASKET ИЛИ АНАЛИЗ ПОКУПАТЕ...
АНАЛИТИКА ПЛЮС, 5 декабря 2013 г., вебинар «MARKET BASKET ИЛИ АНАЛИЗ ПОКУПАТЕ...
 
Roman styatugin clever_data_cxp_predictive marketing
Roman styatugin clever_data_cxp_predictive marketingRoman styatugin clever_data_cxp_predictive marketing
Roman styatugin clever_data_cxp_predictive marketing
 
Universal Analytics
Universal AnalyticsUniversal Analytics
Universal Analytics
 
Big data. Тренды и технологии. Использование в работе с клиентами.
Big data. Тренды и технологии. Использование в работе с клиентами.Big data. Тренды и технологии. Использование в работе с клиентами.
Big data. Тренды и технологии. Использование в работе с клиентами.
 
Штрих-Клик
Штрих-КликШтрих-Клик
Штрих-Клик
 
Internet reklama-i-universal-analytics
Internet reklama-i-universal-analyticsInternet reklama-i-universal-analytics
Internet reklama-i-universal-analytics
 
CleverDATA_Oracle Cloud BI Day 2015
CleverDATA_Oracle Cloud BI Day 2015CleverDATA_Oracle Cloud BI Day 2015
CleverDATA_Oracle Cloud BI Day 2015
 
Sip event - рекламные системы
Sip event - рекламные системыSip event - рекламные системы
Sip event - рекламные системы
 
Аудит аналитики вашего сайта: находим и устраняем структурные и функциональны...
Аудит аналитики вашего сайта: находим и устраняем структурные и функциональны...Аудит аналитики вашего сайта: находим и устраняем структурные и функциональны...
Аудит аналитики вашего сайта: находим и устраняем структурные и функциональны...
 
CPA for media
CPA for mediaCPA for media
CPA for media
 
Facetz.DCA. Платформа по управлению данными
Facetz.DCA. Платформа по управлению даннымиFacetz.DCA. Платформа по управлению данными
Facetz.DCA. Платформа по управлению данными
 
CleverDATA _HybridConf16_Public
CleverDATA _HybridConf16_PublicCleverDATA _HybridConf16_Public
CleverDATA _HybridConf16_Public
 
Life cloud
Life cloud Life cloud
Life cloud
 
DCA (Data-Centric Alliance)
DCA (Data-Centric Alliance)DCA (Data-Centric Alliance)
DCA (Data-Centric Alliance)
 
Samba.DCA
Samba.DCASamba.DCA
Samba.DCA
 
Сервисы гугл
Сервисы гуглСервисы гугл
Сервисы гугл
 

Destacado

NoSQL thumbtack experience, Анатолий Никулин
NoSQL thumbtack experience, Анатолий НикулинNoSQL thumbtack experience, Анатолий Никулин
NoSQL thumbtack experience, Анатолий НикулинAnatoliy Nikulin
 
Vaadin thinking of u and i. Или как писать Rich Internet Applications, в стар...
Vaadin thinking of u and i. Или как писать Rich Internet Applications, в стар...Vaadin thinking of u and i. Или как писать Rich Internet Applications, в стар...
Vaadin thinking of u and i. Или как писать Rich Internet Applications, в стар...Anatoliy Nikulin
 
Архитектура продукта Thumbtack RTB Bidder
Архитектура продукта Thumbtack RTB BidderАрхитектура продукта Thumbtack RTB Bidder
Архитектура продукта Thumbtack RTB BidderAnatoliy Nikulin
 
Куда мы катимся. Анализ многолетних наблюдений омской ИТ отрасли в пяти минутах
Куда мы катимся. Анализ многолетних наблюдений омской ИТ отрасли  в пяти минутахКуда мы катимся. Анализ многолетних наблюдений омской ИТ отрасли  в пяти минутах
Куда мы катимся. Анализ многолетних наблюдений омской ИТ отрасли в пяти минутахAnatoliy Nikulin
 
Building a Self-Service Hadoop Platform at Linkedin with Azkaban
Building a Self-Service Hadoop Platform at Linkedin with AzkabanBuilding a Self-Service Hadoop Platform at Linkedin with Azkaban
Building a Self-Service Hadoop Platform at Linkedin with AzkabanDataWorks Summit
 
Лямбда-архитектура с обратной связью
Лямбда-архитектура с обратной связьюЛямбда-архитектура с обратной связью
Лямбда-архитектура с обратной связьюAlexander Makeev
 
Александр Куликов — Segmento — ICBDA2016
Александр Куликов — Segmento — ICBDA2016Александр Куликов — Segmento — ICBDA2016
Александр Куликов — Segmento — ICBDA2016rusbase
 
Строим плот - Как не утонуть в данных
Строим плот - Как не утонуть в данныхСтроим плот - Как не утонуть в данных
Строим плот - Как не утонуть в данныхVitebsk Miniq
 
Путь мониторинга 2.0 всё стало другим / Всеволод Поляков (Grammarly)
Путь мониторинга 2.0 всё стало другим / Всеволод Поляков (Grammarly)Путь мониторинга 2.0 всё стало другим / Всеволод Поляков (Grammarly)
Путь мониторинга 2.0 всё стало другим / Всеволод Поляков (Grammarly)Ontico
 
Hadoop presentation
Hadoop presentationHadoop presentation
Hadoop presentationVlad Orlov
 
Azkaban and Pig at LinkedIn
Azkaban and Pig at LinkedInAzkaban and Pig at LinkedIn
Azkaban and Pig at LinkedInRussell Jurney
 
Hadoop ecosystem framework n hadoop in live environment
Hadoop ecosystem framework  n hadoop in live environmentHadoop ecosystem framework  n hadoop in live environment
Hadoop ecosystem framework n hadoop in live environmentDelhi/NCR HUG
 
Interactive workflow management using Azkaban
Interactive workflow management using AzkabanInteractive workflow management using Azkaban
Interactive workflow management using Azkabandatamantra
 
Azkaban - WorkFlow Scheduler/Automation Engine
Azkaban - WorkFlow Scheduler/Automation EngineAzkaban - WorkFlow Scheduler/Automation Engine
Azkaban - WorkFlow Scheduler/Automation EnginePraveen Thirukonda
 
A Guide to SlideShare Analytics - Excerpts from Hubspot's Step by Step Guide ...
A Guide to SlideShare Analytics - Excerpts from Hubspot's Step by Step Guide ...A Guide to SlideShare Analytics - Excerpts from Hubspot's Step by Step Guide ...
A Guide to SlideShare Analytics - Excerpts from Hubspot's Step by Step Guide ...SlideShare
 

Destacado (19)

NoSQL thumbtack experience, Анатолий Никулин
NoSQL thumbtack experience, Анатолий НикулинNoSQL thumbtack experience, Анатолий Никулин
NoSQL thumbtack experience, Анатолий Никулин
 
Hive vs Pig
Hive vs PigHive vs Pig
Hive vs Pig
 
Vaadin thinking of u and i. Или как писать Rich Internet Applications, в стар...
Vaadin thinking of u and i. Или как писать Rich Internet Applications, в стар...Vaadin thinking of u and i. Или как писать Rich Internet Applications, в стар...
Vaadin thinking of u and i. Или как писать Rich Internet Applications, в стар...
 
Архитектура продукта Thumbtack RTB Bidder
Архитектура продукта Thumbtack RTB BidderАрхитектура продукта Thumbtack RTB Bidder
Архитектура продукта Thumbtack RTB Bidder
 
Куда мы катимся. Анализ многолетних наблюдений омской ИТ отрасли в пяти минутах
Куда мы катимся. Анализ многолетних наблюдений омской ИТ отрасли  в пяти минутахКуда мы катимся. Анализ многолетних наблюдений омской ИТ отрасли  в пяти минутах
Куда мы катимся. Анализ многолетних наблюдений омской ИТ отрасли в пяти минутах
 
HBase inside
HBase insideHBase inside
HBase inside
 
Apache Hive
Apache HiveApache Hive
Apache Hive
 
Building a Self-Service Hadoop Platform at Linkedin with Azkaban
Building a Self-Service Hadoop Platform at Linkedin with AzkabanBuilding a Self-Service Hadoop Platform at Linkedin with Azkaban
Building a Self-Service Hadoop Platform at Linkedin with Azkaban
 
Лямбда-архитектура с обратной связью
Лямбда-архитектура с обратной связьюЛямбда-архитектура с обратной связью
Лямбда-архитектура с обратной связью
 
Александр Куликов — Segmento — ICBDA2016
Александр Куликов — Segmento — ICBDA2016Александр Куликов — Segmento — ICBDA2016
Александр Куликов — Segmento — ICBDA2016
 
Azkaban
AzkabanAzkaban
Azkaban
 
Строим плот - Как не утонуть в данных
Строим плот - Как не утонуть в данныхСтроим плот - Как не утонуть в данных
Строим плот - Как не утонуть в данных
 
Путь мониторинга 2.0 всё стало другим / Всеволод Поляков (Grammarly)
Путь мониторинга 2.0 всё стало другим / Всеволод Поляков (Grammarly)Путь мониторинга 2.0 всё стало другим / Всеволод Поляков (Grammarly)
Путь мониторинга 2.0 всё стало другим / Всеволод Поляков (Grammarly)
 
Hadoop presentation
Hadoop presentationHadoop presentation
Hadoop presentation
 
Azkaban and Pig at LinkedIn
Azkaban and Pig at LinkedInAzkaban and Pig at LinkedIn
Azkaban and Pig at LinkedIn
 
Hadoop ecosystem framework n hadoop in live environment
Hadoop ecosystem framework  n hadoop in live environmentHadoop ecosystem framework  n hadoop in live environment
Hadoop ecosystem framework n hadoop in live environment
 
Interactive workflow management using Azkaban
Interactive workflow management using AzkabanInteractive workflow management using Azkaban
Interactive workflow management using Azkaban
 
Azkaban - WorkFlow Scheduler/Automation Engine
Azkaban - WorkFlow Scheduler/Automation EngineAzkaban - WorkFlow Scheduler/Automation Engine
Azkaban - WorkFlow Scheduler/Automation Engine
 
A Guide to SlideShare Analytics - Excerpts from Hubspot's Step by Step Guide ...
A Guide to SlideShare Analytics - Excerpts from Hubspot's Step by Step Guide ...A Guide to SlideShare Analytics - Excerpts from Hubspot's Step by Step Guide ...
A Guide to SlideShare Analytics - Excerpts from Hubspot's Step by Step Guide ...
 

Similar a Конференция Юкон. Процессинг данных на лямбда архитектуре.

Как перестать бояться и начать любить медийку. Алгоритмический маркетинг.
Как перестать бояться и начать любить медийку. Алгоритмический маркетинг.Как перестать бояться и начать любить медийку. Алгоритмический маркетинг.
Как перестать бояться и начать любить медийку. Алгоритмический маркетинг.Molinos
 
Как перестать бояться и начать любить медийку. Алгоритмический маркетинг
Как перестать бояться и начать любить медийку. Алгоритмический маркетингКак перестать бояться и начать любить медийку. Алгоритмический маркетинг
Как перестать бояться и начать любить медийку. Алгоритмический маркетингSPECIA
 
Перезентация с доклада на конференции MarketingOne2014
Перезентация с доклада на конференции MarketingOne2014Перезентация с доклада на конференции MarketingOne2014
Перезентация с доклада на конференции MarketingOne2014RTB-media RU
 
C8 for uadigital2012
C8 for uadigital2012C8 for uadigital2012
C8 for uadigital2012Elena Peday
 
http://www.slideshare.net/ssuser814757/cloud-2014-nc
http://www.slideshare.net/ssuser814757/cloud-2014-nchttp://www.slideshare.net/ssuser814757/cloud-2014-nc
http://www.slideshare.net/ssuser814757/cloud-2014-ncВиктор Кононов
 
Управление качеством клиентского портфеля “по- умному”.
Управление качеством клиентского портфеля “по- умному”. Управление качеством клиентского портфеля “по- умному”.
Управление качеством клиентского портфеля “по- умному”. iECARUS
 
Александр Шестаков и Дмитрий Буров, Sape и Likeberi: "Bigdata"
Александр Шестаков и Дмитрий Буров, Sape и Likeberi: "Bigdata"Александр Шестаков и Дмитрий Буров, Sape и Likeberi: "Bigdata"
Александр Шестаков и Дмитрий Буров, Sape и Likeberi: "Bigdata"web2win
 
Как запустить рекламу будущего Александр Шестаков (Руководитель отдела по раб...
Как запустить рекламу будущего Александр Шестаков (Руководитель отдела по раб...Как запустить рекламу будущего Александр Шестаков (Руководитель отдела по раб...
Как запустить рекламу будущего Александр Шестаков (Руководитель отдела по раб...BranchMarketing
 
Cвятослав Штумпф, Петер-Сервис: Грамотное использование Big Data
Cвятослав Штумпф, Петер-Сервис: Грамотное использование Big DataCвятослав Штумпф, Петер-Сервис: Грамотное использование Big Data
Cвятослав Штумпф, Петер-Сервис: Грамотное использование Big DataB2BConferenceGroup
 
Digital заffтрак с Игорем Нагорновым, Auditorius
Digital заffтрак с Игорем Нагорновым, AuditoriusDigital заffтрак с Игорем Нагорновым, Auditorius
Digital заffтрак с Игорем Нагорновым, AuditoriusAlexey Ivanov
 
Показатели эффективности интернет-рекламы
Показатели эффективности интернет-рекламыПоказатели эффективности интернет-рекламы
Показатели эффективности интернет-рекламыRegistratura.ru
 
Большие данные в маркетинге: обработка, хранение, монетизация (Big Data 2017)
Большие данные в маркетинге: обработка, хранение, монетизация (Big Data 2017)Большие данные в маркетинге: обработка, хранение, монетизация (Big Data 2017)
Большие данные в маркетинге: обработка, хранение, монетизация (Big Data 2017)CleverDATA
 
Big Data Now для агентств (agency perspective)
Big Data Now для агентств (agency perspective)Big Data Now для агентств (agency perspective)
Big Data Now для агентств (agency perspective)Kirill Chistov
 
Давыдов Выведение бренда через интернет
Давыдов Выведение бренда через интернетДавыдов Выведение бренда через интернет
Давыдов Выведение бренда через интернетRegistratura.ru
 
Cleekon презентация
Cleekon презентацияCleekon презентация
Cleekon презентацияsokolnikov
 

Similar a Конференция Юкон. Процессинг данных на лямбда архитектуре. (20)

Как перестать бояться и начать любить медийку. Алгоритмический маркетинг.
Как перестать бояться и начать любить медийку. Алгоритмический маркетинг.Как перестать бояться и начать любить медийку. Алгоритмический маркетинг.
Как перестать бояться и начать любить медийку. Алгоритмический маркетинг.
 
Как перестать бояться и начать любить медийку. Алгоритмический маркетинг
Как перестать бояться и начать любить медийку. Алгоритмический маркетингКак перестать бояться и начать любить медийку. Алгоритмический маркетинг
Как перестать бояться и начать любить медийку. Алгоритмический маркетинг
 
Перезентация с доклада на конференции MarketingOne2014
Перезентация с доклада на конференции MarketingOne2014Перезентация с доклада на конференции MarketingOne2014
Перезентация с доклада на конференции MarketingOne2014
 
C8 for uadigital2012
C8 for uadigital2012C8 for uadigital2012
C8 for uadigital2012
 
http://www.slideshare.net/ssuser814757/cloud-2014-nc
http://www.slideshare.net/ssuser814757/cloud-2014-nchttp://www.slideshare.net/ssuser814757/cloud-2014-nc
http://www.slideshare.net/ssuser814757/cloud-2014-nc
 
Управление качеством клиентского портфеля “по- умному”.
Управление качеством клиентского портфеля “по- умному”. Управление качеством клиентского портфеля “по- умному”.
Управление качеством клиентского портфеля “по- умному”.
 
Александр Шестаков и Дмитрий Буров, Sape и Likeberi: "Bigdata"
Александр Шестаков и Дмитрий Буров, Sape и Likeberi: "Bigdata"Александр Шестаков и Дмитрий Буров, Sape и Likeberi: "Bigdata"
Александр Шестаков и Дмитрий Буров, Sape и Likeberi: "Bigdata"
 
Как запустить рекламу будущего Александр Шестаков (Руководитель отдела по раб...
Как запустить рекламу будущего Александр Шестаков (Руководитель отдела по раб...Как запустить рекламу будущего Александр Шестаков (Руководитель отдела по раб...
Как запустить рекламу будущего Александр Шестаков (Руководитель отдела по раб...
 
Netpeak Talks #8 Запуск и ведение PPC проектов в СНГ и на Западе.
Netpeak Talks #8 Запуск и ведение PPC проектов в СНГ и на Западе.Netpeak Talks #8 Запуск и ведение PPC проектов в СНГ и на Западе.
Netpeak Talks #8 Запуск и ведение PPC проектов в СНГ и на Западе.
 
Сравнение инструментов для построения отчетов
Сравнение инструментов для построения отчетовСравнение инструментов для построения отчетов
Сравнение инструментов для построения отчетов
 
Cвятослав Штумпф, Петер-Сервис: Грамотное использование Big Data
Cвятослав Штумпф, Петер-Сервис: Грамотное использование Big DataCвятослав Штумпф, Петер-Сервис: Грамотное использование Big Data
Cвятослав Штумпф, Петер-Сервис: Грамотное использование Big Data
 
Бизнес ждет диджитализация
Бизнес ждет диджитализацияБизнес ждет диджитализация
Бизнес ждет диджитализация
 
Digital заffтрак с Игорем Нагорновым, Auditorius
Digital заffтрак с Игорем Нагорновым, AuditoriusDigital заffтрак с Игорем Нагорновым, Auditorius
Digital заffтрак с Игорем Нагорновым, Auditorius
 
Показатели эффективности интернет-рекламы
Показатели эффективности интернет-рекламыПоказатели эффективности интернет-рекламы
Показатели эффективности интернет-рекламы
 
Большие данные в маркетинге: обработка, хранение, монетизация (Big Data 2017)
Большие данные в маркетинге: обработка, хранение, монетизация (Big Data 2017)Большие данные в маркетинге: обработка, хранение, монетизация (Big Data 2017)
Большие данные в маркетинге: обработка, хранение, монетизация (Big Data 2017)
 
Big Data Now для агентств (agency perspective)
Big Data Now для агентств (agency perspective)Big Data Now для агентств (agency perspective)
Big Data Now для агентств (agency perspective)
 
Давыдов Выведение бренда через интернет
Давыдов Выведение бренда через интернетДавыдов Выведение бренда через интернет
Давыдов Выведение бренда через интернет
 
каванга
кавангакаванга
каванга
 
Cleekon презентация
Cleekon презентацияCleekon презентация
Cleekon презентация
 
Cleekon
CleekonCleekon
Cleekon
 

Конференция Юкон. Процессинг данных на лямбда архитектуре.

  • 1. Процессинг данных на lambda-архитектуре Препарируем Data Management Platform ЮКОН 2016 Анатолий Никулин
  • 2. Коротко об AdTech ● Advertiser Technology - технологии для рекламодателей. ● Это $60 B (только в США) ● Это десятки-сотни тысяч событий в секунду ● Как следствие большие объемы данных и нагрузки.
  • 3. Что нужно рекламодателям, чтобы быть эффективными ● Надо продать удочки ● Можно показать рекламу Всему честному люду ● Но лучше выделить определенную группу - “Рыбаки” ● Их на порядок меньше, экономия на порядок больше
  • 4. Как им в этом помочь? ● Сбор и анализ пользовательской активности. ● Формирование профиля пользователя (интересы, увлечения, профессиональная деятельность)* ● Группировка пользователей по заданным критериям, чтобы можно было более точно и эффективно настраивать рекламные кампании. ● Сделать рекламу более релевантной для пользователя, и эффективной для рекламодателя. *Анонимно
  • 5. Как следствие требования ● Обработка и хранение больших объемов исторических данных ● Оперативность принятия решений ● Устойчивость к отказам ● Горизонтальная масштабируемость
  • 7. ESB как единая точка входа данных
  • 9. HDFS как хранилище сырых данных ● Распределенная файловая система ● Поддержка репликации (надежность, ускорение вычислений) ● Файлы в формате Parquet (компактное хранение, эффективный последовательный доступ) ● Храним очень долго
  • 10. HBase как хранилище консолидированных профилей ● Распределенное колонко-ориентированное хранилище ● Структура не фиксирована. 10 000 колонок - это нормально ● Позволяет обособленно хранить сложные структуры данных. Поддерживает версионность ● Отлично интегрирована с фреймворками распределенных вычислений (Spark, MapReduce)
  • 11. HBase как хранилище консолидированных профилей
  • 12. Внешние поставщики данных (3rd party data providers) ● Соц. дем. (возраст, пол, семейное положение, наличие детей) ● Интересы (хобби, увлечения) ● Профессиональная деятельность. (Организация, отрасль, годовой оборот)
  • 13. ASE сегментация пользователей. Взять всех, да и поделить! ● Разбить профили на группы (сегменты). Чтобы показывать релевантную рекламу. ● Сегментов может быть произвольное количество ● У сегмента есть Правило и время жизни Пример: Сегмент: Охотники и рыбаки Мужчины, 30-45, Сибирь, Visits: www.hunters.ru
  • 15.
  • 16.
  • 17. Это и есть лямбда?
  • 18. Плюсы ● Оперативность принятия решений ● Хранение сырых данных ( immutable, append-only) ● Возможность анализа всего исторического датасета ● Возможность репроцессинга всего исторического датасета ● Горизонтальная масштабируемость ● Отказоустойчивость Минусы ● Сложность реализации ● Дороговизна реализации и владения