SlideShare una empresa de Scribd logo
1 de 32
Descargar para leer sin conexión
Облачный сервис персональных рекомендаций
для >20 000 магазинов — алгоритмы и технологии
Александр Сербул
руководитель направления
О чем поговорим…
 Рекомендательные сервисы – суть
 Снаружи: популярные алгоритмы и техники реализации
 А когда много данных…
 Изнутри: как устроен наш облачный сервис «1С-Битрикс BigData»
 Куда двигаться дальше
Персональные рекомендации – зачем?
 Предсказать мысли, желания клиента
 Если клиент готов – соблазнить его, привязать к себе
 Не спамить клиента мусором, не раздражать
 Соблазнять клиента – регулярно (рассылки, push)
1) Релевантность, 2) Разумность, 3) Вовремя, 4) Не пережать
Нас уже прослушивают:
Windows 10, Android, …
Как соблазнять?
 Не персональные «крючки»:
- Топ продаж (best sellers)
- С этим Товаром покупают
(аксессуары)
- С этим Товаром смотрят
- Другие смотрят сейчас
- Скидка на очень популярный товар
Небольшой набор товаров. Хвост. Спам
– для некоторых.
«Mining of Massive Datasets», 9.1.2: Leskovec,
Rajaraman, Ullman (Stanford University)
Amazon.com
 Персональные, не персональные
Amazon.com
 Не персональные?!
Как соблазнять?
 Персональные «крючки»:
Рекомендуем именно вам в данный
момент:
- Купить, посмотреть
- Люди, похожие на вас («близкие по
духу»)
- «Хорошая» скидка, «хорошая» цена
- Полезный контент
- Релевантный поиск
С целью персональных
рекомендаций – понятно. Теперь
сухая конкретика и код.
Карл…
Карл, я внедрил в
проекте
коллаборативную
фильтрацию
Это очень круто,
пап!
Карл… Карл, я специалист по
BigData….
Это очень круто,
пап!
Но я так и не понял,
как и почему она
работает.
СОВСЕМ!!!
Content-based рекомендации
 Купил пластиковые окна – теперь их
предлагают на всех сайтах и
смартфоне, в Windows 10 и во сне.
 Купил Toyota, ищу шины, предлагают
шины к Toyota вверху списка
 Vector space model, tf/idf
 word2vec
word2vec, SVD/PCA
 Сжимаем размерность
 «Склеиваем» синонимы
 Skip-gram
 Continuous bag of words (CBOW)
 «Похож» на матричную
факторизацию
Коллаборативная фильтрация
 Предложи Товары/Услуги,
которые есть у твоих друзей
(User-User)
 Предложи к твоим Товарам
другие, связанные с ними
Товары (Item-Item): «сухарики к
пиву»
Коллаборативная фильтрация - алгоритмы
 User-User: поиск похожих «в лоб» (kNN), k-d tree, LSH
 Item-Item: Amazon, работает гораздо быстрее
 Item-Item «плюшки» - с этим Товаром покупают
 Mahout Taste (матрица в памяти)
 Spark MLLib (ALS)
Товары в моем профиле
Их связи с другими Товарами
Взвешенное среднее для предсказания моих невыраженных
интересов
Коллаборативная фильтрация – сжатие Товаров
 «Единый» каталог
 Склеить дубликаты
 Передать «смысл» между Товарами
 Улучшить качество персональных рекомендаций
 Семантическое сжатие размерности, аналог матричной
факторизации
 Скорость
 Ранжирование результатов
Minhash
 Min-wise independent permutations locality sensitive
hashing scheme
 Снижаем размерность
 Совместима с LSH (следующий слайд)
Pr[ hmin(A) = hmin(B) ] = J(A,B)
 Размер сигнатуры: 50-500
simhash
Text shingling
 Shingle – «черепица»
 Устойчивость к вариантам, опечаткам
«Штаны красные махровые в полоску»
{«штан», «таны», «аны », «ны к», «ы кра», «крас», …}
«Красные полосатые штаны»
Векторизация описания Товара
 Текст: «Штаны красные махровые в полоску»
 Вектор «bag of words»: [0,0,0,1,0,…0,1,0] – ~ 10000 -
1000000 элементов (kernel hack)
 Minhash-сигнатура после shingling:
 [1243,823,-324,12312,…] – 100-500 элементов, совместима
с LSH
Locality-Sensitive Hashing (LSH)
 Вероятностный метод снижения размерности
 Использовали для minhashed-векторов
 Banding:
b – корзины, r – элементов в корзине.
P{ “Векторы совпадут хотя-бы в одной корзине” }:
Кластеризация каталога
 Apache Spark
 2-3 часа, 8 spot-серверов
 10-20 млн. Товаров => 1 млн. кластеров
 Адекватные по смыслу кластера
 Персональные рекомендации - стали в разы «лучше»
 DynamoDB – хранение кластроидов
Измерение качества персональных
рекомендаций
 Recall, precision
 Предсказываем на «старой» модели
 Смотрим фактические значения профиля – на текущей
модели
 Считаем recall
Архитектура нашего облачного
сервиса
Сервис «1С-Битрикс: BigData» - общий вид
Сервис “1С-Битрикс: BigData”
Сервис “1С-Битрикс: BigData”
Цифры кратко
 Тысячи запросов в секунду к сервису
 >20 тысяч интернет-магазинов
 Ощутимый рост конверсии – до 50-80%, зависит от размера
магазина
 Активное использование «С этим Товаром покупают»!?
 1 сервер рекомендаций (70G ОЗУ) + небольшой кластер Spark
 Уникальных профилей пользователей: ~ 100 миллионов
API. Персональная рекомендация
• https://analytics.bitrix.info/crecoms/v1_0/recoms.php?op=recommend&uid=#кука#&c
ount=3&aid=#хэш_лицензии#
• op=recommend
• uid – кука Пользователя
• aid – хэш от Лицензии
• сount – число рекомендаций
{
"id":"24aace52dc0284950bcff7b7f1b7a7f0de66aca9",
"items":["1651384","1652041","1651556"]
}
API. Похожие Товары на данный
• https://analytics.bitrix.info/crecoms/v1_0/recoms.php?op=simitems&aid=#хэш_лицен
зии#&eid=#id_товара#&count=3&type=combined&uid=#кука#
• op=simitems
• uid – кука Пользователя
• aid – хэш от Лицензии
• eid – ID Товара
• type - view|order|combined
• сount – размер выдачи
API. Топ Товаров на сайте
• https://analytics.bitrix.info/crecoms/v1_0/recoms.php?op=sim_domain_items&aid=#х
эш_лицензии#&domain=#домен#&count=50&type=combined&uid=#кука#
• op=sim_domain_items
• uid – кука Пользователя
• aid – хэш от Лицензии
• domain – домен сайта
• type - view|order|combined
• сount – размер выдачи
Куда развиваться
 Пол, возраст, ценовая категория клиента – машинное
обучение
 Разные виды товаров: возобновляемые,
невозобновляемые
 Цена товара
 Внутренние циклы (готов покупать), модели Маркова
 Классификация групп лояльности, кластерный анализ
 Релевантный поиск
Спасибо за внимание!
Вопросы?
Александр Сербул
serbul@1c-bitrix.ru
Alexandr Serbul
AlexSerbul

Más contenido relacionado

Destacado

Денис Противенский, Percona — Percona Server for MongoDB: обзор возможностей
Денис Противенский, Percona — Percona Server for MongoDB: обзор возможностейДенис Противенский, Percona — Percona Server for MongoDB: обзор возможностей
Денис Противенский, Percona — Percona Server for MongoDB: обзор возможностейDev_Party
 
Анастасия Распопина, Percona — Feel at Home в на 90% распределённой компании:...
Анастасия Распопина, Percona — Feel at Home в на 90% распределённой компании:...Анастасия Распопина, Percona — Feel at Home в на 90% распределённой компании:...
Анастасия Распопина, Percona — Feel at Home в на 90% распределённой компании:...Dev_Party
 
Александр Чистяков, Git in Sky — Современные тенденции в разработке программн...
Александр Чистяков, Git in Sky — Современные тенденции в разработке программн...Александр Чистяков, Git in Sky — Современные тенденции в разработке программн...
Александр Чистяков, Git in Sky — Современные тенденции в разработке программн...Dev_Party
 
Андрей Валдуев, Playrix — Основы тестирования и примеры использования базовых...
Андрей Валдуев, Playrix — Основы тестирования и примеры использования базовых...Андрей Валдуев, Playrix — Основы тестирования и примеры использования базовых...
Андрей Валдуев, Playrix — Основы тестирования и примеры использования базовых...Dev_Party
 
Денис Каленбет, АО «Эр-Стайл Софтлаб» — Самокапитализация программиста. Как п...
Денис Каленбет, АО «Эр-Стайл Софтлаб» — Самокапитализация программиста. Как п...Денис Каленбет, АО «Эр-Стайл Софтлаб» — Самокапитализация программиста. Как п...
Денис Каленбет, АО «Эр-Стайл Софтлаб» — Самокапитализация программиста. Как п...Dev_Party
 
Елена Никитина, Аналитический центр при Правительстве РФ — Путь питониста, ил...
Елена Никитина, Аналитический центр при Правительстве РФ — Путь питониста, ил...Елена Никитина, Аналитический центр при Правительстве РФ — Путь питониста, ил...
Елена Никитина, Аналитический центр при Правительстве РФ — Путь питониста, ил...Dev_Party
 
Игорь Иванов, Playrix — Статистические предсказания игровой активности
Игорь Иванов, Playrix — Статистические предсказания игровой активностиИгорь Иванов, Playrix — Статистические предсказания игровой активности
Игорь Иванов, Playrix — Статистические предсказания игровой активностиDev_Party
 
Владимир Варнавский, интернет-студия «33 Кита» — Идеальный программист
Владимир Варнавский, интернет-студия «33 Кита» — Идеальный программистВладимир Варнавский, интернет-студия «33 Кита» — Идеальный программист
Владимир Варнавский, интернет-студия «33 Кита» — Идеальный программистDev_Party
 
Анатолий Полицын, агентство интернет-маркетинга «Синапс» — Корпоративный хост...
Анатолий Полицын, агентство интернет-маркетинга «Синапс» — Корпоративный хост...Анатолий Полицын, агентство интернет-маркетинга «Синапс» — Корпоративный хост...
Анатолий Полицын, агентство интернет-маркетинга «Синапс» — Корпоративный хост...Dev_Party
 
Анна Крижановская, Playrix — Продвижение мобильных приложений: Deep Dive
Анна Крижановская, Playrix — Продвижение мобильных приложений: Deep DiveАнна Крижановская, Playrix — Продвижение мобильных приложений: Deep Dive
Анна Крижановская, Playrix — Продвижение мобильных приложений: Deep DiveDev_Party
 
Игорь Цупко, Notamedia — Документация? Не слышал
Игорь Цупко, Notamedia — Документация? Не слышалИгорь Цупко, Notamedia — Документация? Не слышал
Игорь Цупко, Notamedia — Документация? Не слышалDev_Party
 
Дмитрий Ивакин, ООО «Пайлабс» — Node.js: realtime приложение на примере систе...
Дмитрий Ивакин, ООО «Пайлабс» — Node.js: realtime приложение на примере систе...Дмитрий Ивакин, ООО «Пайлабс» — Node.js: realtime приложение на примере систе...
Дмитрий Ивакин, ООО «Пайлабс» — Node.js: realtime приложение на примере систе...Dev_Party
 
Сергей Яркин, Тензор — RabbitMQ. Насколько ценен мех и вкусно мясо?
Сергей Яркин, Тензор — RabbitMQ. Насколько ценен мех и вкусно мясо?Сергей Яркин, Тензор — RabbitMQ. Насколько ценен мех и вкусно мясо?
Сергей Яркин, Тензор — RabbitMQ. Насколько ценен мех и вкусно мясо?Dev_Party
 
Роман Приходько, Владимир Беспрозванных, «Сбербанк-Технологии» — Платформа ЕФС
Роман Приходько, Владимир Беспрозванных, «Сбербанк-Технологии» — Платформа ЕФСРоман Приходько, Владимир Беспрозванных, «Сбербанк-Технологии» — Платформа ЕФС
Роман Приходько, Владимир Беспрозванных, «Сбербанк-Технологии» — Платформа ЕФСDev_Party
 

Destacado (14)

Денис Противенский, Percona — Percona Server for MongoDB: обзор возможностей
Денис Противенский, Percona — Percona Server for MongoDB: обзор возможностейДенис Противенский, Percona — Percona Server for MongoDB: обзор возможностей
Денис Противенский, Percona — Percona Server for MongoDB: обзор возможностей
 
Анастасия Распопина, Percona — Feel at Home в на 90% распределённой компании:...
Анастасия Распопина, Percona — Feel at Home в на 90% распределённой компании:...Анастасия Распопина, Percona — Feel at Home в на 90% распределённой компании:...
Анастасия Распопина, Percona — Feel at Home в на 90% распределённой компании:...
 
Александр Чистяков, Git in Sky — Современные тенденции в разработке программн...
Александр Чистяков, Git in Sky — Современные тенденции в разработке программн...Александр Чистяков, Git in Sky — Современные тенденции в разработке программн...
Александр Чистяков, Git in Sky — Современные тенденции в разработке программн...
 
Андрей Валдуев, Playrix — Основы тестирования и примеры использования базовых...
Андрей Валдуев, Playrix — Основы тестирования и примеры использования базовых...Андрей Валдуев, Playrix — Основы тестирования и примеры использования базовых...
Андрей Валдуев, Playrix — Основы тестирования и примеры использования базовых...
 
Денис Каленбет, АО «Эр-Стайл Софтлаб» — Самокапитализация программиста. Как п...
Денис Каленбет, АО «Эр-Стайл Софтлаб» — Самокапитализация программиста. Как п...Денис Каленбет, АО «Эр-Стайл Софтлаб» — Самокапитализация программиста. Как п...
Денис Каленбет, АО «Эр-Стайл Софтлаб» — Самокапитализация программиста. Как п...
 
Елена Никитина, Аналитический центр при Правительстве РФ — Путь питониста, ил...
Елена Никитина, Аналитический центр при Правительстве РФ — Путь питониста, ил...Елена Никитина, Аналитический центр при Правительстве РФ — Путь питониста, ил...
Елена Никитина, Аналитический центр при Правительстве РФ — Путь питониста, ил...
 
Игорь Иванов, Playrix — Статистические предсказания игровой активности
Игорь Иванов, Playrix — Статистические предсказания игровой активностиИгорь Иванов, Playrix — Статистические предсказания игровой активности
Игорь Иванов, Playrix — Статистические предсказания игровой активности
 
Владимир Варнавский, интернет-студия «33 Кита» — Идеальный программист
Владимир Варнавский, интернет-студия «33 Кита» — Идеальный программистВладимир Варнавский, интернет-студия «33 Кита» — Идеальный программист
Владимир Варнавский, интернет-студия «33 Кита» — Идеальный программист
 
Анатолий Полицын, агентство интернет-маркетинга «Синапс» — Корпоративный хост...
Анатолий Полицын, агентство интернет-маркетинга «Синапс» — Корпоративный хост...Анатолий Полицын, агентство интернет-маркетинга «Синапс» — Корпоративный хост...
Анатолий Полицын, агентство интернет-маркетинга «Синапс» — Корпоративный хост...
 
Анна Крижановская, Playrix — Продвижение мобильных приложений: Deep Dive
Анна Крижановская, Playrix — Продвижение мобильных приложений: Deep DiveАнна Крижановская, Playrix — Продвижение мобильных приложений: Deep Dive
Анна Крижановская, Playrix — Продвижение мобильных приложений: Deep Dive
 
Игорь Цупко, Notamedia — Документация? Не слышал
Игорь Цупко, Notamedia — Документация? Не слышалИгорь Цупко, Notamedia — Документация? Не слышал
Игорь Цупко, Notamedia — Документация? Не слышал
 
Дмитрий Ивакин, ООО «Пайлабс» — Node.js: realtime приложение на примере систе...
Дмитрий Ивакин, ООО «Пайлабс» — Node.js: realtime приложение на примере систе...Дмитрий Ивакин, ООО «Пайлабс» — Node.js: realtime приложение на примере систе...
Дмитрий Ивакин, ООО «Пайлабс» — Node.js: realtime приложение на примере систе...
 
Сергей Яркин, Тензор — RabbitMQ. Насколько ценен мех и вкусно мясо?
Сергей Яркин, Тензор — RabbitMQ. Насколько ценен мех и вкусно мясо?Сергей Яркин, Тензор — RabbitMQ. Насколько ценен мех и вкусно мясо?
Сергей Яркин, Тензор — RabbitMQ. Насколько ценен мех и вкусно мясо?
 
Роман Приходько, Владимир Беспрозванных, «Сбербанк-Технологии» — Платформа ЕФС
Роман Приходько, Владимир Беспрозванных, «Сбербанк-Технологии» — Платформа ЕФСРоман Приходько, Владимир Беспрозванных, «Сбербанк-Технологии» — Платформа ЕФС
Роман Приходько, Владимир Беспрозванных, «Сбербанк-Технологии» — Платформа ЕФС
 

Similar a Александр Сербул, 1С-Битрикс — Облачный сервис персональных рекомендаций для 20 000 магазинов — алгоритмы и технологии

Бигдата — как добывать золото из данных / Александр Сербул (1С-Битрикс)
Бигдата — как добывать золото из данных / Александр Сербул (1С-Битрикс)Бигдата — как добывать золото из данных / Александр Сербул (1С-Битрикс)
Бигдата — как добывать золото из данных / Александр Сербул (1С-Битрикс)Ontico
 
Семантическое ядро рунета
Семантическое ядро рунетаСемантическое ядро рунета
Семантическое ядро рунетаCEE-SEC(R)
 
imu2010 - Особенности продвижения низкочастотных, распределенных по множеств...
imu2010 -  Особенности продвижения низкочастотных, распределенных по множеств...imu2010 -  Особенности продвижения низкочастотных, распределенных по множеств...
imu2010 - Особенности продвижения низкочастотных, распределенных по множеств...UAMASTER Digital Agency
 
Н. Хлебинский Retail Rocket eRetailForum2015
Н. Хлебинский  Retail Rocket eRetailForum2015Н. Хлебинский  Retail Rocket eRetailForum2015
Н. Хлебинский Retail Rocket eRetailForum2015InSales
 
Поиск и персонализация как основные инструменты развития бизнеса
Поиск и персонализация как основные инструменты развития бизнеса Поиск и персонализация как основные инструменты развития бизнеса
Поиск и персонализация как основные инструменты развития бизнеса Тарасов Константин
 
Поиск и персонализация как основные инструменты развития бизнеса
Поиск и персонализация как основные инструменты развития бизнесаПоиск и персонализация как основные инструменты развития бизнеса
Поиск и персонализация как основные инструменты развития бизнесаADV/web-engineering
 
На что нужно обращать внимание при смене CMS системы для сайта: маркетинг и т...
На что нужно обращать внимание при смене CMS системы для сайта: маркетинг и т...На что нужно обращать внимание при смене CMS системы для сайта: маркетинг и т...
На что нужно обращать внимание при смене CMS системы для сайта: маркетинг и т...AMP Academy
 
Столбов Володимир “Забудьте про SEO. Як покращити трафік і конверсію, піклуюч...
Столбов Володимир “Забудьте про SEO. Як покращити трафік і конверсію, піклуюч...Столбов Володимир “Забудьте про SEO. Як покращити трафік і конверсію, піклуюч...
Столбов Володимир “Забудьте про SEO. Як покращити трафік і конверсію, піклуюч...Lviv Startup Club
 
Александр Сербул. 1С Битрикс. Массовый скоринг в CRM — секреты и подводные камни
Александр Сербул. 1С Битрикс. Массовый скоринг в CRM — секреты и подводные камниАлександр Сербул. 1С Битрикс. Массовый скоринг в CRM — секреты и подводные камни
Александр Сербул. 1С Битрикс. Массовый скоринг в CRM — секреты и подводные камниGlobal Innovation Labs
 
1С-Битрикс Платформа для разрабоки интернет-магазина
1С-Битрикс Платформа для разрабоки интернет-магазина1С-Битрикс Платформа для разрабоки интернет-магазина
1С-Битрикс Платформа для разрабоки интернет-магазинаIRCIT
 
Тестирование высоконагруженных облачных веб-сервисов в Amazon - подводные кам...
Тестирование высоконагруженных облачных веб-сервисов в Amazon - подводные кам...Тестирование высоконагруженных облачных веб-сервисов в Amazon - подводные кам...
Тестирование высоконагруженных облачных веб-сервисов в Amazon - подводные кам...SQALab
 
Потроха рекомендательных систем. Большие данные в рекомендательных системах
Потроха рекомендательных систем. Большие данные в рекомендательных системахПотроха рекомендательных систем. Большие данные в рекомендательных системах
Потроха рекомендательных систем. Большие данные в рекомендательных системахNick Mikhailovsky
 
20 апреля, DEV {highload} - конференция о Highload веб-разработке, "Когда сто...
20 апреля, DEV {highload} - конференция о Highload веб-разработке, "Когда сто...20 апреля, DEV {highload} - конференция о Highload веб-разработке, "Когда сто...
20 апреля, DEV {highload} - конференция о Highload веб-разработке, "Когда сто...IT-Portfolio
 
Dev {highload}. When you should do your own db.
Dev {highload}. When you should do your own db.Dev {highload}. When you should do your own db.
Dev {highload}. When you should do your own db.Oleg Kwerty
 
Konstantin Obukhov - Customer Experience Technologies
Konstantin Obukhov - Customer Experience TechnologiesKonstantin Obukhov - Customer Experience Technologies
Konstantin Obukhov - Customer Experience TechnologiesAIST
 
3 5 3_miheeva_natalia
3 5 3_miheeva_natalia3 5 3_miheeva_natalia
3 5 3_miheeva_nataliaNika Stuard
 
Александр Сербул —1С-Битрикс — ICBDA 2015
Александр Сербул —1С-Битрикс — ICBDA 2015Александр Сербул —1С-Битрикс — ICBDA 2015
Александр Сербул —1С-Битрикс — ICBDA 2015rusbase
 
Business intelligence в Ozon.ru
Business intelligence в Ozon.ruBusiness intelligence в Ozon.ru
Business intelligence в Ozon.ruRoman Zykov
 

Similar a Александр Сербул, 1С-Битрикс — Облачный сервис персональных рекомендаций для 20 000 магазинов — алгоритмы и технологии (20)

Бигдата — как добывать золото из данных / Александр Сербул (1С-Битрикс)
Бигдата — как добывать золото из данных / Александр Сербул (1С-Битрикс)Бигдата — как добывать золото из данных / Александр Сербул (1С-Битрикс)
Бигдата — как добывать золото из данных / Александр Сербул (1С-Битрикс)
 
Семантическое ядро рунета
Семантическое ядро рунетаСемантическое ядро рунета
Семантическое ядро рунета
 
imu2010 - Особенности продвижения низкочастотных, распределенных по множеств...
imu2010 -  Особенности продвижения низкочастотных, распределенных по множеств...imu2010 -  Особенности продвижения низкочастотных, распределенных по множеств...
imu2010 - Особенности продвижения низкочастотных, распределенных по множеств...
 
Н. Хлебинский Retail Rocket eRetailForum2015
Н. Хлебинский  Retail Rocket eRetailForum2015Н. Хлебинский  Retail Rocket eRetailForum2015
Н. Хлебинский Retail Rocket eRetailForum2015
 
Поиск и персонализация как основные инструменты развития бизнеса
Поиск и персонализация как основные инструменты развития бизнеса Поиск и персонализация как основные инструменты развития бизнеса
Поиск и персонализация как основные инструменты развития бизнеса
 
Поиск и персонализация как основные инструменты развития бизнеса
Поиск и персонализация как основные инструменты развития бизнесаПоиск и персонализация как основные инструменты развития бизнеса
Поиск и персонализация как основные инструменты развития бизнеса
 
Presty
PrestyPresty
Presty
 
На что нужно обращать внимание при смене CMS системы для сайта: маркетинг и т...
На что нужно обращать внимание при смене CMS системы для сайта: маркетинг и т...На что нужно обращать внимание при смене CMS системы для сайта: маркетинг и т...
На что нужно обращать внимание при смене CMS системы для сайта: маркетинг и т...
 
Столбов Володимир “Забудьте про SEO. Як покращити трафік і конверсію, піклуюч...
Столбов Володимир “Забудьте про SEO. Як покращити трафік і конверсію, піклуюч...Столбов Володимир “Забудьте про SEO. Як покращити трафік і конверсію, піклуюч...
Столбов Володимир “Забудьте про SEO. Як покращити трафік і конверсію, піклуюч...
 
Александр Сербул. 1С Битрикс. Массовый скоринг в CRM — секреты и подводные камни
Александр Сербул. 1С Битрикс. Массовый скоринг в CRM — секреты и подводные камниАлександр Сербул. 1С Битрикс. Массовый скоринг в CRM — секреты и подводные камни
Александр Сербул. 1С Битрикс. Массовый скоринг в CRM — секреты и подводные камни
 
1С-Битрикс Платформа для разрабоки интернет-магазина
1С-Битрикс Платформа для разрабоки интернет-магазина1С-Битрикс Платформа для разрабоки интернет-магазина
1С-Битрикс Платформа для разрабоки интернет-магазина
 
Тестирование высоконагруженных облачных веб-сервисов в Amazon - подводные кам...
Тестирование высоконагруженных облачных веб-сервисов в Amazon - подводные кам...Тестирование высоконагруженных облачных веб-сервисов в Amazon - подводные кам...
Тестирование высоконагруженных облачных веб-сервисов в Amazon - подводные кам...
 
Потроха рекомендательных систем. Большие данные в рекомендательных системах
Потроха рекомендательных систем. Большие данные в рекомендательных системахПотроха рекомендательных систем. Большие данные в рекомендательных системах
Потроха рекомендательных систем. Большие данные в рекомендательных системах
 
20 апреля, DEV {highload} - конференция о Highload веб-разработке, "Когда сто...
20 апреля, DEV {highload} - конференция о Highload веб-разработке, "Когда сто...20 апреля, DEV {highload} - конференция о Highload веб-разработке, "Когда сто...
20 апреля, DEV {highload} - конференция о Highload веб-разработке, "Когда сто...
 
Dev {highload}. When you should do your own db.
Dev {highload}. When you should do your own db.Dev {highload}. When you should do your own db.
Dev {highload}. When you should do your own db.
 
Konstantin Obukhov - Customer Experience Technologies
Konstantin Obukhov - Customer Experience TechnologiesKonstantin Obukhov - Customer Experience Technologies
Konstantin Obukhov - Customer Experience Technologies
 
3 5 3_miheeva_natalia
3 5 3_miheeva_natalia3 5 3_miheeva_natalia
3 5 3_miheeva_natalia
 
Александр Сербул —1С-Битрикс — ICBDA 2015
Александр Сербул —1С-Битрикс — ICBDA 2015Александр Сербул —1С-Битрикс — ICBDA 2015
Александр Сербул —1С-Битрикс — ICBDA 2015
 
Business intelligence в Ozon.ru
Business intelligence в Ozon.ruBusiness intelligence в Ozon.ru
Business intelligence в Ozon.ru
 
Ad Labs фомин 2010 2
Ad Labs фомин 2010 2Ad Labs фомин 2010 2
Ad Labs фомин 2010 2
 

Александр Сербул, 1С-Битрикс — Облачный сервис персональных рекомендаций для 20 000 магазинов — алгоритмы и технологии

  • 1. Облачный сервис персональных рекомендаций для >20 000 магазинов — алгоритмы и технологии Александр Сербул руководитель направления
  • 2. О чем поговорим…  Рекомендательные сервисы – суть  Снаружи: популярные алгоритмы и техники реализации  А когда много данных…  Изнутри: как устроен наш облачный сервис «1С-Битрикс BigData»  Куда двигаться дальше
  • 3. Персональные рекомендации – зачем?  Предсказать мысли, желания клиента  Если клиент готов – соблазнить его, привязать к себе  Не спамить клиента мусором, не раздражать  Соблазнять клиента – регулярно (рассылки, push) 1) Релевантность, 2) Разумность, 3) Вовремя, 4) Не пережать Нас уже прослушивают: Windows 10, Android, …
  • 4.
  • 5. Как соблазнять?  Не персональные «крючки»: - Топ продаж (best sellers) - С этим Товаром покупают (аксессуары) - С этим Товаром смотрят - Другие смотрят сейчас - Скидка на очень популярный товар Небольшой набор товаров. Хвост. Спам – для некоторых. «Mining of Massive Datasets», 9.1.2: Leskovec, Rajaraman, Ullman (Stanford University)
  • 8. Как соблазнять?  Персональные «крючки»: Рекомендуем именно вам в данный момент: - Купить, посмотреть - Люди, похожие на вас («близкие по духу») - «Хорошая» скидка, «хорошая» цена - Полезный контент - Релевантный поиск
  • 9. С целью персональных рекомендаций – понятно. Теперь сухая конкретика и код.
  • 10. Карл… Карл, я внедрил в проекте коллаборативную фильтрацию Это очень круто, пап!
  • 11. Карл… Карл, я специалист по BigData…. Это очень круто, пап! Но я так и не понял, как и почему она работает. СОВСЕМ!!!
  • 12. Content-based рекомендации  Купил пластиковые окна – теперь их предлагают на всех сайтах и смартфоне, в Windows 10 и во сне.  Купил Toyota, ищу шины, предлагают шины к Toyota вверху списка  Vector space model, tf/idf  word2vec
  • 13. word2vec, SVD/PCA  Сжимаем размерность  «Склеиваем» синонимы  Skip-gram  Continuous bag of words (CBOW)  «Похож» на матричную факторизацию
  • 14. Коллаборативная фильтрация  Предложи Товары/Услуги, которые есть у твоих друзей (User-User)  Предложи к твоим Товарам другие, связанные с ними Товары (Item-Item): «сухарики к пиву»
  • 15. Коллаборативная фильтрация - алгоритмы  User-User: поиск похожих «в лоб» (kNN), k-d tree, LSH  Item-Item: Amazon, работает гораздо быстрее  Item-Item «плюшки» - с этим Товаром покупают  Mahout Taste (матрица в памяти)  Spark MLLib (ALS) Товары в моем профиле Их связи с другими Товарами Взвешенное среднее для предсказания моих невыраженных интересов
  • 16. Коллаборативная фильтрация – сжатие Товаров  «Единый» каталог  Склеить дубликаты  Передать «смысл» между Товарами  Улучшить качество персональных рекомендаций  Семантическое сжатие размерности, аналог матричной факторизации  Скорость  Ранжирование результатов
  • 17. Minhash  Min-wise independent permutations locality sensitive hashing scheme  Снижаем размерность  Совместима с LSH (следующий слайд) Pr[ hmin(A) = hmin(B) ] = J(A,B)  Размер сигнатуры: 50-500 simhash
  • 18. Text shingling  Shingle – «черепица»  Устойчивость к вариантам, опечаткам «Штаны красные махровые в полоску» {«штан», «таны», «аны », «ны к», «ы кра», «крас», …} «Красные полосатые штаны»
  • 19. Векторизация описания Товара  Текст: «Штаны красные махровые в полоску»  Вектор «bag of words»: [0,0,0,1,0,…0,1,0] – ~ 10000 - 1000000 элементов (kernel hack)  Minhash-сигнатура после shingling:  [1243,823,-324,12312,…] – 100-500 элементов, совместима с LSH
  • 20. Locality-Sensitive Hashing (LSH)  Вероятностный метод снижения размерности  Использовали для minhashed-векторов  Banding: b – корзины, r – элементов в корзине. P{ “Векторы совпадут хотя-бы в одной корзине” }:
  • 21. Кластеризация каталога  Apache Spark  2-3 часа, 8 spot-серверов  10-20 млн. Товаров => 1 млн. кластеров  Адекватные по смыслу кластера  Персональные рекомендации - стали в разы «лучше»  DynamoDB – хранение кластроидов
  • 22. Измерение качества персональных рекомендаций  Recall, precision  Предсказываем на «старой» модели  Смотрим фактические значения профиля – на текущей модели  Считаем recall
  • 27. Цифры кратко  Тысячи запросов в секунду к сервису  >20 тысяч интернет-магазинов  Ощутимый рост конверсии – до 50-80%, зависит от размера магазина  Активное использование «С этим Товаром покупают»!?  1 сервер рекомендаций (70G ОЗУ) + небольшой кластер Spark  Уникальных профилей пользователей: ~ 100 миллионов
  • 28. API. Персональная рекомендация • https://analytics.bitrix.info/crecoms/v1_0/recoms.php?op=recommend&uid=#кука#&c ount=3&aid=#хэш_лицензии# • op=recommend • uid – кука Пользователя • aid – хэш от Лицензии • сount – число рекомендаций { "id":"24aace52dc0284950bcff7b7f1b7a7f0de66aca9", "items":["1651384","1652041","1651556"] }
  • 29. API. Похожие Товары на данный • https://analytics.bitrix.info/crecoms/v1_0/recoms.php?op=simitems&aid=#хэш_лицен зии#&eid=#id_товара#&count=3&type=combined&uid=#кука# • op=simitems • uid – кука Пользователя • aid – хэш от Лицензии • eid – ID Товара • type - view|order|combined • сount – размер выдачи
  • 30. API. Топ Товаров на сайте • https://analytics.bitrix.info/crecoms/v1_0/recoms.php?op=sim_domain_items&aid=#х эш_лицензии#&domain=#домен#&count=50&type=combined&uid=#кука# • op=sim_domain_items • uid – кука Пользователя • aid – хэш от Лицензии • domain – домен сайта • type - view|order|combined • сount – размер выдачи
  • 31. Куда развиваться  Пол, возраст, ценовая категория клиента – машинное обучение  Разные виды товаров: возобновляемые, невозобновляемые  Цена товара  Внутренние циклы (готов покупать), модели Маркова  Классификация групп лояльности, кластерный анализ  Релевантный поиск
  • 32. Спасибо за внимание! Вопросы? Александр Сербул serbul@1c-bitrix.ru Alexandr Serbul AlexSerbul