SlideShare a Scribd company logo
1 of 23
Download to read offline
МИФИ, Нейроинформатика - 2014

Перечитывая
Лео Бреймана
Сергей А. Терехов, ООО «Алгоритмы и Технологии»
Что в этой лекции?
▪ Leo Breiman – профессор, практик и изобретатель
▪ Из наследия – методология случайного леса (Random Forest)
▪ О фундаментальных проблемах в математической статистике: Leo Breiman.
Statistical Modeling: The Two Cultures, 2001
▪ Дискуссия: D.R. Cox, Brad Efron, Bruce Hoadley, Emanuel Parzen
▪ Проекция на “здесь и сейчас”: нейроинформатика и наука о данных
Лео Брейман
▪ 1954 PhD, 7 лет научной работы UCLA.
▪ Консультирование прикладных проектов (по
программам UNESCO, Агентства по
окружающей среде EPA, военные разработки).
▪ 1980 – возврат в университет в Беркли, чтобы
создать методологию и работающие
инструменты для прикладных специалистов,
работающих с данными.
▪ Технологии решающих деревьев, CART,
Bagging, Random Forests для данных высокой
размерности.

▪ Промышленные реализации алгоритмов,
Salford Systems

Leo Breiman, 1928 - 2005
Wald Lectures
▪ Три лекции для: 7th meeting of the Institute of Mathematical Statistics, held in
Banff, Alberta, Canada (July 28 to July 31, 2002)

▪ Машинное Обучение [http://www.stat.berkeley.edu/~breiman/wald2002-1.pdf]
▪ Заглядывая Внутрь Черного Ящика
[http://www.stat.berkeley.edu/~breiman/wald2002-2.pdf]

▪ Компьютерные Программы Для Масс
[http://www.stat.berkeley.edu/~breiman/wald2002-3.pdf]
Случайный Лес - 1
▪ Базовые идеи
▪ Имеющийся набор данных – лишь один из представителей множества возможных
выборок данного размера
▪ Все входные переменные должны иметь существенный шанс участвовать в
классификации. Это повышает устойчивость к ошибкам и пропускам
▪ Комитеты моделей могут значительно уменьшить разброс (variance), без значимого
роста смещения (bias). Для этого нужно повысить разнообразие членов комитета.
▪ Разные переменные могут по-разному работать в различных областях
пространства, занятого данными. Универсальные коэффициенты регрессии на
такое не способны.

▪ Результат: случайный комитет («лес») решающих деревьев с
рандомизированными решениями в узлах. Random Forest (2001).
Случайный Лес - 2
▪ Суть алгоритма классификации
▪ Для набора данных размера N получить бутстрэп-выборку такого же размера.

▪ Для M входных переменных выбрать параметр m << M. Построить
классифицирующее дерево с использованием Gini-индекса при выборе
решающего правила в каждом узле. При этом наилучшее правило строится только
среди подмножества их m переменных, выбранных случайно.
▪ Рост дерева продолжается до конца (примеры только одного класса в узле, либо
невозможность уменьшить Gini).
▪ Построить комитет большинства (простое голосование) из большого числа
деревьев.
Случайный Лес - 3

Leo: We use every
bit of the pig except
its squeal 

▪ Оценка ошибки обобщения путем классификации примеров, не
использовавшихся при обучении данного дерева (out-of-bag, oob).
▪ Оценка значимости входов путем классификации oob примеров, в которых
применена случайная перестановка значений данного входа.
▪ Вычисление окрестности для каждого примера (попарная схожесть примеров) из
статистики одновременного попадания пар в общие листья деревьев.

▪ Обучение с пропусками в данных (по статистике примеров в узле, а также с
учетом попарной схожести примеров).
▪ Обучение без меток (исходная выборка против выборки с независимыми
перестановками для каждого входа)

▪ Поиск выбросов, кластеризация, корректирование меток, балансирование
классов, детектор новизны, …
Статистичеcкое
моделирование:
Две Культуры
Leo Breiman. Statistical Modeling: The Two Cultures. Statistical Science, 2001, 16, 3, 199-231
Всё начинается с данных
Есть (X,Y) и чёрный ящик

Y

Природа
(Чёрный Ящик)

Что нужно?
▪ Прогноз Y для новых условий X
X

▪ Информация о том, как природа
ассоциирует X и Y
Y

Природа
(Чёрный Ящик)

X

Чёрный Ящик и Две Культуры
Подход моделирования данных

Алгоритмический подход

▪ Черный ящик описывается явной
моделью, порождающей данные

▪ Содержимое чёрного ящика
остается неизвестным, он
заменяется функцией выходов от
входов

▪ Основная задача – оценить
параметры этой модели из данных
▪ Инструментарий – многомерный
Гаусс, обощенная линейная
регрессия, тесты и невязки
▪ Классическая матстатистика
𝑃 𝑦 𝑥
Предполагаю, что находится в ящике,
но рискую ошибиться

▪ Основная задача – имитация
поведения черного ящика
▪ Инструментарий – деревья, ЭС,
нечеткие алгоритмы, нейронные
сети++, (кросс-)валидация
▪ Обучение машин, раскопка данных
Не знаю, что находится в ящике,
но умею ему подражать

𝑦 = 𝑓(𝑥)
Проблемы моделирования данных
Фокус на модели данных:
▪ Может приводить к неадекватной
теории и спорным научным
заключениям в предметных
областях

▪ Не позволяет исследовать более
подходящие алгоритмические
модели
▪ Сужает круг актуальных задач
рамками доступных классических
статистических методов
Flaw of Averages
Множество моделей

Rashomon

Проблемы
▪ Расёмон: множественность
хороших моделей реальности
▪ Оккам: Конфликт между простотой
и точностью
▪ Беллман: Размерность –
проклятие или благо?
Статистические тесты goodness-of-fit (R2…) не способны
выявить достоверные модели из множества
почти одинаково хороших кандидатов
Расёмон, Куросава 1950)
Как Лео Брейман пришел к этим вопросам
Более 13 лет практики консультанта
по проектам для EPA, ETA, military
▪ Прогноз уровня озона на следующий день
▪ Обнаружение присутсвия хлора в образцах (“отпечатки
хлора”)
▪ Выявление галогена по данным масс-спектроскопии

▪ Прогнозирование класса корабля по данным радаров
▪ Тип подводной лодки по данным сонаров
▪ Идентичность ручного потока кода Морзе

▪ Оценка степени токсичности химсоединений

О чём в это время (80-е) писали
научные журналы по матстатистике
▪ “Предположим, что данные порождены
следующей моделью...”
▪ Делаются заключения о свойствах самих
моделей, а не о природном механизме. Если
модель не очень точна при описании данных, то
выводы могут содержать серьёзные ошибки.
▪ Вера во всемогущество статистических моделей
в прикладных областях почти религиозна
▪ Tukey (77) “вся ... регрессия полна интеллектуальных,
статистических, вычислительных и субъективных
трудностей”

▪ Онлайн прогноз причин пробок на автострадах
▪ Причины задержех делопроизводства в судах

Значительное расхождение университетской науки
с тем, что требует и чем занята практика
Полемика: Суть процесса решения задачи
Leo Breiman
▪ Фокус на поиск хорошего решения
▪ Нужно “пожить с данными” прежде
чем приступать к моделированию

David Cox
▪ Одна из наших ошибок – упор на общность вне контекста
приложения. Начать надо не с данных, а с вопроса
(проблемы или гипотезы). Вероятностная модель может
быть построена и без данных.

▪ Поиск подхода, который дает
решение (модель данных, либо
алгоритм)

▪ Эмпирические прогнозы (из данных) – не единственная
потребность. Стратегические прогнозы строятся в условиях,
где нет данных. Являются ли более сложные алгоритмы,
основанные на данных, более полезными?

▪ Основной критерий – точность
прогноза на тестовых выборках

▪ Основное направление – построение моделей с учетом
прикладных запросов, анализ этих моделей МК методами.

▪ Принципиальное использование
компьютера

▪ - Связь в с предыдущими работами и результатами
- Четкое описание процесса генерации данных
- Выбор понятных для прикладной области параметров
- Точность должна быть адекватной. Точность не есть основа для
выбора модели.

▪ Выбор модели, адекватной запросу – ключевой аспект

Мой вопрос: Что все-таки делать, если нет вероятностной модели порождения данных?
Комментарий Брэда Эфрона (Brad Efron)
Leo Breiman
▪ Модели случайного леса имеют
высокую структурную сложность,
однако специалисты в анализе
экспрессии генов изначально готовы
к такого рода усложнениям
▪ Анализ социологических данных,
действительно, больше нуждается в
объяснении, чем в прогнозах. Однако
объяснение из не точной модели
подвержено ошибкам
▪ Понятие важности переменной пока
не имеет строгого теоритического
определения. Практический критерий
– влияние на точность.

Brad Efron
▪ XX столетие – “столетие несмещенности (оценок)”, вслед за
Фишером. Но это требует большого отношения “сигнал шум”.
Но появились новые задачи, где число переменных меньше
числа примеров. Появляются новые алгоритмы, хороший
знак.
▪ Проблема алгоритмов с большим числом свободных
параметров – смещённость оценок (вносимых при
регуляризации, удалении связей и др.). Для смещенных
оценок нет хорошей теории.
▪ Эмпирика имеет две особенности
- Новые методы всегда выглядят лучше старых
- Сложные методы труднее критиковать, чем простые
▪ Прогноз не есть главная целью Требуется объяснение
причинных связей.

▪ Основная задача науки – открывать черные ящики.

Кросс-валидация и проблема смещенности оценок!
Взгляд практика (Bruce Hoadley)
▪ Подробный пример из практики Fair, Isaac по созданию алгоритма оценки риска кредитования
(методология INFORM)
▪ Разработана инженерами и специалистами в исследовании операций в 60-х, без использования базовых
методов матстатистики (кроме бутстрэп-выборок).

▪ Данные: входы – параметры клиента из корпоративных баз или от кредитных бюро, выход – индикатор риска
кредитования. Упрощенный вариант – 24 входа (месячные счета и платежи за год) – т.е. два временных ряда.
▪ Алгоритмическое решение – segmented scorecards (описание рядов сотнями функционалов, разделение
клиентов на группы, обучаемые рейтинги признаков в каждой группе). Сложная уникальная технология,
критерий качества – точность.

▪ Индустриальный стандарт в течение нескольких десятилетий! Сегодня для отбора признаков используется
генетический алгоритм, сегментация клиентов также автоматизирована.

▪ Наблюдения и рекомендации:
▪ Добивайтесь равноценности входов (без доминирования отдельных признаков)
▪ Используйте благо, даваемое высокой размерностью (простота решения в расширенном пространстве)
▪ Используйте регуляризацию и ограничения при обучении (оптимизации)
▪ Игнорируйте большинство советов из учебников! Но тщательно проводите валидацию.
Emanuel Parzen и множественность культур
▪ Этическая цель: обещать клиенту, что ошибки, которые будут сделаны в исследовании
для него, не будут похожи на ошибки, сделанные статистиками ранее.

▪ Прогноз/информация <=> Менеджмент/Наука. Менеджменту нужна практическая выгода,
наука ищет истину.
▪ Проблемы: коррелированные факторы при регрессии, много-модальные распределения
при классификации. Важен систематический путь: Проблема-План-Данные-АнализВыводы
▪ Множество культур в статистике.
▪ + Использование теории аппроксимации и численного анализа при аппроксимации данных +
Использование понятийного аппарата вероятностей для описания данных (без предположения об
их вероятностной природе)
▪ Одна из культур - философия Парзена – исчисление квантилей. Сжатое описание данных.
http://stat.tamu.edu.

Срочно изучить исчисление квантилей и постановки основных задач на этом языке!
Итог по Лео Брейману
▪ …Многие из ведущих статистиков, с которыми я беседовал в последние
несколько лет, имеют серьезные опасения по поводу жизнеспособности
статистики, как отрасли. Это кажется странным, ведь мы живем в период, в
котором, как никогда ранее, возникает огромное количество статистических
задач и источников данных. Опасность состоит в том, что если определим
границы нашей области исходя из знакомых инструментов и знакомых
решенных задач, мы не сможем понять и воспользоваться новыми
возможностями (2001).

А нейроинформатика жизнеспособна?
Наука о Данных
(вчера-сегодня)
▪ Доклад: National Research Council.
2013. Frontiers in Massive Data
Analysis. Washington, D.C.: The
National Academies Press

▪ Dealing with highly distributed data sources,
▪ Tracking data provenance, from data generation through data
preparation,

▪ Validating data,
▪ Coping with sampling biases and heterogeneity,
▪ Working with different data formats and structures,

▪ MkKinsey: Не хватает от 140,000 до
190,000 специалистов в области
анализа данных, и 1.5 млн
менеджеров, способных принимать
решения на основе данных

▪ Developing algorithms that exploit parallel and distributed
architectures,

▪ Forbes: 4 триллиона (12 нулей) GB
данных в 2013

▪ Enabling data discovery and integration,

▪ Нейроинформатика
должна быть здесь, или
ее постигнет участь
классической статистики

▪ Ensuring data integrity,
▪ Ensuring data security,

▪ Enabling data sharing,
▪ Developing methods for visualizing massive data,

▪ Developing scalable and incremental algorithms, and
▪ Coping with the need for real-time analysis and decision-making.
Динамика потребности в специалистах Big
Data
По оценкам Microsoft,
специалистов в области IT в
России нужно в два раза больше,
чем есть сейчас. Если сегодня
посчитать всех айтишников от
программистов до ТОП менеджеров получится около
полутора миллионов человек. Для
развития технологической отрасли
нужно как минимум три миллиона
(BusinessFM)

During September 2013, more than 88,000 “big data” jobs were available
online in the United States, a 13% year-over-year increase in demand.
(according to WANTED Analytics™.)

Статистика объявлений о найме
от ведущих кадровых агентств
(2010-2013)
Смена поколений: вычислить или найти?
Молодое поколение 80-х

Молодое поколение 10-х

▪ Нейронные сети, решающие деревья,
позже SVM. Матстатистика не входит в
число активно используемых методов.

▪ MapReduce, Hadoop, облачные
вычисления, супер-параллельность,
масштабирование “вширь”

▪ Цель – точность прогноза

▪ Большие данные, социальные сети

▪ Новые приложения: временные ряды и
финансовые рынки, распознавание
рукописного текста, речи, изображений.
Статмоделей таких данных, конечно, нет.

▪ Компьютер полноправный член
интернет-сообщества, машины
побеждают в соревнованиях по
“интеллекту”. Компьютеров больше, чем
людей.

▪ Большинство публикаций анализируют
реальные данные
▪ Средний возраст на NIPS – 30 лет

▪ Новые приложения: маркетинг, продажи,
сенсорные данные, геном,
безопасность, адаптация в реальном
мире

Получение ответа состоит в его поиске в сети (с аналитикой “на лету”),
а не в традиционном решении технической задачи
Смена задачи (парадигмы?)
▪ Классика: нейронная сеть путем
ассоциаций ищет ответ в своей памяти.

▪ Надо сегодня и завтра: компьютерная
система ищет ответ путем ассоциаций
в огромной внешней “памяти”,
включающей большие данные и
реальный мир.
Н.Г.Макаренко, 2013

Как быстро формировать ассоциации запроса с “другим” пространством ответов?

More Related Content

Similar to Перечитывая Лео Бреймана

Интерпретация моделей машинного обучения
Интерпретация моделей машинного обученияИнтерпретация моделей машинного обучения
Интерпретация моделей машинного обученияДмитрий Колодезев
 
Введение в машинное обучение
Введение в машинное обучениеВведение в машинное обучение
Введение в машинное обучениеGrigory Sapunov
 
Сергей Терехов — Активное обучение при малой доле примеров с известными ответами
Сергей Терехов — Активное обучение при малой доле примеров с известными ответамиСергей Терехов — Активное обучение при малой доле примеров с известными ответами
Сергей Терехов — Активное обучение при малой доле примеров с известными ответамиYandex
 
машинное обучение и анализ данных
машинное обучение и анализ данныхмашинное обучение и анализ данных
машинное обучение и анализ данныхYandex
 
Марк Шафир - Программа курса "Современные методы анализа данных" (НИУ ВШЭ)
Марк Шафир - Программа курса "Современные методы анализа данных" (НИУ ВШЭ)Марк Шафир - Программа курса "Современные методы анализа данных" (НИУ ВШЭ)
Марк Шафир - Программа курса "Современные методы анализа данных" (НИУ ВШЭ)Mark Shaphir
 
Data Mining - lecture 1 - 2014
Data Mining - lecture 1 - 2014Data Mining - lecture 1 - 2014
Data Mining - lecture 1 - 2014Andrii Gakhov
 
Гринчук Александр - Практическое применение Data mining технологий-ооо «нанот...
Гринчук Александр - Практическое применение Data mining технологий-ооо «нанот...Гринчук Александр - Практическое применение Data mining технологий-ооо «нанот...
Гринчук Александр - Практическое применение Data mining технологий-ооо «нанот...WG_ Events
 
Plakhov urfu 2013
Plakhov urfu 2013Plakhov urfu 2013
Plakhov urfu 2013Yandex
 
20120415 videorecognition konushin_lecture06
20120415 videorecognition konushin_lecture0620120415 videorecognition konushin_lecture06
20120415 videorecognition konushin_lecture06Computer Science Club
 
Современные методы анализа данных
Современные методы анализа данныхСовременные методы анализа данных
Современные методы анализа данныхDEVTYPE
 
Ускоряем исследования с помощью конкурсов как их готовить и выигрывать / Иван...
Ускоряем исследования с помощью конкурсов как их готовить и выигрывать / Иван...Ускоряем исследования с помощью конкурсов как их готовить и выигрывать / Иван...
Ускоряем исследования с помощью конкурсов как их готовить и выигрывать / Иван...Ontico
 
Dsml for business.full version
Dsml for business.full versionDsml for business.full version
Dsml for business.full versionDmitry Guzenko
 
Сверточные нейронные сети
Сверточные нейронные сетиСверточные нейронные сети
Сверточные нейронные сетиIvan Kavalerov
 
Машинное обучение (Открытый семинар по средам)
Машинное обучение (Открытый семинар по средам)Машинное обучение (Открытый семинар по средам)
Машинное обучение (Открытый семинар по средам)Pavel Egorov
 
Моделирование сложных систем и обработка больших объемов данных: ищем общие п...
Моделирование сложных систем и обработка больших объемов данных: ищем общие п...Моделирование сложных систем и обработка больших объемов данных: ищем общие п...
Моделирование сложных систем и обработка больших объемов данных: ищем общие п...Skolkovo Robotics Center
 
Hub AI&BigData meetup / Дмитрий Сподарец: Введение в машинное обучение
Hub AI&BigData meetup / Дмитрий Сподарец: Введение в машинное обучениеHub AI&BigData meetup / Дмитрий Сподарец: Введение в машинное обучение
Hub AI&BigData meetup / Дмитрий Сподарец: Введение в машинное обучениеHub-IT-School
 
BigData Week Moscow 2013 - Case: Personalization
BigData Week Moscow 2013 - Case: PersonalizationBigData Week Moscow 2013 - Case: Personalization
BigData Week Moscow 2013 - Case: PersonalizationAnton Gorokhov
 

Similar to Перечитывая Лео Бреймана (20)

смирнов Data mining
смирнов Data miningсмирнов Data mining
смирнов Data mining
 
Интерпретация моделей машинного обучения
Интерпретация моделей машинного обученияИнтерпретация моделей машинного обучения
Интерпретация моделей машинного обучения
 
Введение в машинное обучение
Введение в машинное обучениеВведение в машинное обучение
Введение в машинное обучение
 
Сергей Терехов — Активное обучение при малой доле примеров с известными ответами
Сергей Терехов — Активное обучение при малой доле примеров с известными ответамиСергей Терехов — Активное обучение при малой доле примеров с известными ответами
Сергей Терехов — Активное обучение при малой доле примеров с известными ответами
 
машинное обучение и анализ данных
машинное обучение и анализ данныхмашинное обучение и анализ данных
машинное обучение и анализ данных
 
Марк Шафир - Программа курса "Современные методы анализа данных" (НИУ ВШЭ)
Марк Шафир - Программа курса "Современные методы анализа данных" (НИУ ВШЭ)Марк Шафир - Программа курса "Современные методы анализа данных" (НИУ ВШЭ)
Марк Шафир - Программа курса "Современные методы анализа данных" (НИУ ВШЭ)
 
Data Mining - lecture 1 - 2014
Data Mining - lecture 1 - 2014Data Mining - lecture 1 - 2014
Data Mining - lecture 1 - 2014
 
Гринчук Александр - Практическое применение Data mining технологий-ооо «нанот...
Гринчук Александр - Практическое применение Data mining технологий-ооо «нанот...Гринчук Александр - Практическое применение Data mining технологий-ооо «нанот...
Гринчук Александр - Практическое применение Data mining технологий-ооо «нанот...
 
Plakhov urfu 2013
Plakhov urfu 2013Plakhov urfu 2013
Plakhov urfu 2013
 
SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных
SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данныхSECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных
SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных
 
Лекция 9
Лекция 9Лекция 9
Лекция 9
 
20120415 videorecognition konushin_lecture06
20120415 videorecognition konushin_lecture0620120415 videorecognition konushin_lecture06
20120415 videorecognition konushin_lecture06
 
Современные методы анализа данных
Современные методы анализа данныхСовременные методы анализа данных
Современные методы анализа данных
 
Ускоряем исследования с помощью конкурсов как их готовить и выигрывать / Иван...
Ускоряем исследования с помощью конкурсов как их готовить и выигрывать / Иван...Ускоряем исследования с помощью конкурсов как их готовить и выигрывать / Иван...
Ускоряем исследования с помощью конкурсов как их готовить и выигрывать / Иван...
 
Dsml for business.full version
Dsml for business.full versionDsml for business.full version
Dsml for business.full version
 
Сверточные нейронные сети
Сверточные нейронные сетиСверточные нейронные сети
Сверточные нейронные сети
 
Машинное обучение (Открытый семинар по средам)
Машинное обучение (Открытый семинар по средам)Машинное обучение (Открытый семинар по средам)
Машинное обучение (Открытый семинар по средам)
 
Моделирование сложных систем и обработка больших объемов данных: ищем общие п...
Моделирование сложных систем и обработка больших объемов данных: ищем общие п...Моделирование сложных систем и обработка больших объемов данных: ищем общие п...
Моделирование сложных систем и обработка больших объемов данных: ищем общие п...
 
Hub AI&BigData meetup / Дмитрий Сподарец: Введение в машинное обучение
Hub AI&BigData meetup / Дмитрий Сподарец: Введение в машинное обучениеHub AI&BigData meetup / Дмитрий Сподарец: Введение в машинное обучение
Hub AI&BigData meetup / Дмитрий Сподарец: Введение в машинное обучение
 
BigData Week Moscow 2013 - Case: Personalization
BigData Week Moscow 2013 - Case: PersonalizationBigData Week Moscow 2013 - Case: Personalization
BigData Week Moscow 2013 - Case: Personalization
 

Recently uploaded (9)

Ransomware_Q3 2023. The report [RU].pdf
Ransomware_Q3 2023.  The report [RU].pdfRansomware_Q3 2023.  The report [RU].pdf
Ransomware_Q3 2023. The report [RU].pdf
 
CVE. The Fortra's GoAnywhere MFT [RU].pdf
CVE. The Fortra's GoAnywhere MFT [RU].pdfCVE. The Fortra's GoAnywhere MFT [RU].pdf
CVE. The Fortra's GoAnywhere MFT [RU].pdf
 
2023 Q4. The Ransomware report. [RU].pdf
2023 Q4. The Ransomware report. [RU].pdf2023 Q4. The Ransomware report. [RU].pdf
2023 Q4. The Ransomware report. [RU].pdf
 
Cyberprint. Dark Pink Apt Group [RU].pdf
Cyberprint. Dark Pink Apt Group [RU].pdfCyberprint. Dark Pink Apt Group [RU].pdf
Cyberprint. Dark Pink Apt Group [RU].pdf
 
Malware. DCRAT (DARK CRYSTAL RAT) [RU].pdf
Malware. DCRAT (DARK CRYSTAL RAT) [RU].pdfMalware. DCRAT (DARK CRYSTAL RAT) [RU].pdf
Malware. DCRAT (DARK CRYSTAL RAT) [RU].pdf
 
ИСТОЧНИКИ ИННОВАЦИОННОСТИ КИТАЯ (ПО ВЕРСИИ DGAP) | The Sources of China’s Inn...
ИСТОЧНИКИ ИННОВАЦИОННОСТИ КИТАЯ (ПО ВЕРСИИ DGAP) | The Sources of China’s Inn...ИСТОЧНИКИ ИННОВАЦИОННОСТИ КИТАЯ (ПО ВЕРСИИ DGAP) | The Sources of China’s Inn...
ИСТОЧНИКИ ИННОВАЦИОННОСТИ КИТАЯ (ПО ВЕРСИИ DGAP) | The Sources of China’s Inn...
 
СИСТЕМА ОЦЕНКИ УЯЗВИМОСТЕЙ CVSS 4.0 / CVSS v4.0 [RU].pdf
СИСТЕМА ОЦЕНКИ УЯЗВИМОСТЕЙ CVSS 4.0 / CVSS v4.0 [RU].pdfСИСТЕМА ОЦЕНКИ УЯЗВИМОСТЕЙ CVSS 4.0 / CVSS v4.0 [RU].pdf
СИСТЕМА ОЦЕНКИ УЯЗВИМОСТЕЙ CVSS 4.0 / CVSS v4.0 [RU].pdf
 
MS Navigating Incident Response [RU].pdf
MS Navigating Incident Response [RU].pdfMS Navigating Incident Response [RU].pdf
MS Navigating Incident Response [RU].pdf
 
Cyber Defense Doctrine Managing the Risk Full Applied Guide to Organizational...
Cyber Defense Doctrine Managing the Risk Full Applied Guide to Organizational...Cyber Defense Doctrine Managing the Risk Full Applied Guide to Organizational...
Cyber Defense Doctrine Managing the Risk Full Applied Guide to Organizational...
 

Перечитывая Лео Бреймана

  • 1. МИФИ, Нейроинформатика - 2014 Перечитывая Лео Бреймана Сергей А. Терехов, ООО «Алгоритмы и Технологии»
  • 2. Что в этой лекции? ▪ Leo Breiman – профессор, практик и изобретатель ▪ Из наследия – методология случайного леса (Random Forest) ▪ О фундаментальных проблемах в математической статистике: Leo Breiman. Statistical Modeling: The Two Cultures, 2001 ▪ Дискуссия: D.R. Cox, Brad Efron, Bruce Hoadley, Emanuel Parzen ▪ Проекция на “здесь и сейчас”: нейроинформатика и наука о данных
  • 3. Лео Брейман ▪ 1954 PhD, 7 лет научной работы UCLA. ▪ Консультирование прикладных проектов (по программам UNESCO, Агентства по окружающей среде EPA, военные разработки). ▪ 1980 – возврат в университет в Беркли, чтобы создать методологию и работающие инструменты для прикладных специалистов, работающих с данными. ▪ Технологии решающих деревьев, CART, Bagging, Random Forests для данных высокой размерности. ▪ Промышленные реализации алгоритмов, Salford Systems Leo Breiman, 1928 - 2005
  • 4. Wald Lectures ▪ Три лекции для: 7th meeting of the Institute of Mathematical Statistics, held in Banff, Alberta, Canada (July 28 to July 31, 2002) ▪ Машинное Обучение [http://www.stat.berkeley.edu/~breiman/wald2002-1.pdf] ▪ Заглядывая Внутрь Черного Ящика [http://www.stat.berkeley.edu/~breiman/wald2002-2.pdf] ▪ Компьютерные Программы Для Масс [http://www.stat.berkeley.edu/~breiman/wald2002-3.pdf]
  • 5. Случайный Лес - 1 ▪ Базовые идеи ▪ Имеющийся набор данных – лишь один из представителей множества возможных выборок данного размера ▪ Все входные переменные должны иметь существенный шанс участвовать в классификации. Это повышает устойчивость к ошибкам и пропускам ▪ Комитеты моделей могут значительно уменьшить разброс (variance), без значимого роста смещения (bias). Для этого нужно повысить разнообразие членов комитета. ▪ Разные переменные могут по-разному работать в различных областях пространства, занятого данными. Универсальные коэффициенты регрессии на такое не способны. ▪ Результат: случайный комитет («лес») решающих деревьев с рандомизированными решениями в узлах. Random Forest (2001).
  • 6. Случайный Лес - 2 ▪ Суть алгоритма классификации ▪ Для набора данных размера N получить бутстрэп-выборку такого же размера. ▪ Для M входных переменных выбрать параметр m << M. Построить классифицирующее дерево с использованием Gini-индекса при выборе решающего правила в каждом узле. При этом наилучшее правило строится только среди подмножества их m переменных, выбранных случайно. ▪ Рост дерева продолжается до конца (примеры только одного класса в узле, либо невозможность уменьшить Gini). ▪ Построить комитет большинства (простое голосование) из большого числа деревьев.
  • 7. Случайный Лес - 3 Leo: We use every bit of the pig except its squeal  ▪ Оценка ошибки обобщения путем классификации примеров, не использовавшихся при обучении данного дерева (out-of-bag, oob). ▪ Оценка значимости входов путем классификации oob примеров, в которых применена случайная перестановка значений данного входа. ▪ Вычисление окрестности для каждого примера (попарная схожесть примеров) из статистики одновременного попадания пар в общие листья деревьев. ▪ Обучение с пропусками в данных (по статистике примеров в узле, а также с учетом попарной схожести примеров). ▪ Обучение без меток (исходная выборка против выборки с независимыми перестановками для каждого входа) ▪ Поиск выбросов, кластеризация, корректирование меток, балансирование классов, детектор новизны, …
  • 8.
  • 9. Статистичеcкое моделирование: Две Культуры Leo Breiman. Statistical Modeling: The Two Cultures. Statistical Science, 2001, 16, 3, 199-231
  • 10. Всё начинается с данных Есть (X,Y) и чёрный ящик Y Природа (Чёрный Ящик) Что нужно? ▪ Прогноз Y для новых условий X X ▪ Информация о том, как природа ассоциирует X и Y
  • 11. Y Природа (Чёрный Ящик) X Чёрный Ящик и Две Культуры Подход моделирования данных Алгоритмический подход ▪ Черный ящик описывается явной моделью, порождающей данные ▪ Содержимое чёрного ящика остается неизвестным, он заменяется функцией выходов от входов ▪ Основная задача – оценить параметры этой модели из данных ▪ Инструментарий – многомерный Гаусс, обощенная линейная регрессия, тесты и невязки ▪ Классическая матстатистика 𝑃 𝑦 𝑥 Предполагаю, что находится в ящике, но рискую ошибиться ▪ Основная задача – имитация поведения черного ящика ▪ Инструментарий – деревья, ЭС, нечеткие алгоритмы, нейронные сети++, (кросс-)валидация ▪ Обучение машин, раскопка данных Не знаю, что находится в ящике, но умею ему подражать 𝑦 = 𝑓(𝑥)
  • 12. Проблемы моделирования данных Фокус на модели данных: ▪ Может приводить к неадекватной теории и спорным научным заключениям в предметных областях ▪ Не позволяет исследовать более подходящие алгоритмические модели ▪ Сужает круг актуальных задач рамками доступных классических статистических методов Flaw of Averages
  • 13. Множество моделей Rashomon Проблемы ▪ Расёмон: множественность хороших моделей реальности ▪ Оккам: Конфликт между простотой и точностью ▪ Беллман: Размерность – проклятие или благо? Статистические тесты goodness-of-fit (R2…) не способны выявить достоверные модели из множества почти одинаково хороших кандидатов Расёмон, Куросава 1950)
  • 14. Как Лео Брейман пришел к этим вопросам Более 13 лет практики консультанта по проектам для EPA, ETA, military ▪ Прогноз уровня озона на следующий день ▪ Обнаружение присутсвия хлора в образцах (“отпечатки хлора”) ▪ Выявление галогена по данным масс-спектроскопии ▪ Прогнозирование класса корабля по данным радаров ▪ Тип подводной лодки по данным сонаров ▪ Идентичность ручного потока кода Морзе ▪ Оценка степени токсичности химсоединений О чём в это время (80-е) писали научные журналы по матстатистике ▪ “Предположим, что данные порождены следующей моделью...” ▪ Делаются заключения о свойствах самих моделей, а не о природном механизме. Если модель не очень точна при описании данных, то выводы могут содержать серьёзные ошибки. ▪ Вера во всемогущество статистических моделей в прикладных областях почти религиозна ▪ Tukey (77) “вся ... регрессия полна интеллектуальных, статистических, вычислительных и субъективных трудностей” ▪ Онлайн прогноз причин пробок на автострадах ▪ Причины задержех делопроизводства в судах Значительное расхождение университетской науки с тем, что требует и чем занята практика
  • 15. Полемика: Суть процесса решения задачи Leo Breiman ▪ Фокус на поиск хорошего решения ▪ Нужно “пожить с данными” прежде чем приступать к моделированию David Cox ▪ Одна из наших ошибок – упор на общность вне контекста приложения. Начать надо не с данных, а с вопроса (проблемы или гипотезы). Вероятностная модель может быть построена и без данных. ▪ Поиск подхода, который дает решение (модель данных, либо алгоритм) ▪ Эмпирические прогнозы (из данных) – не единственная потребность. Стратегические прогнозы строятся в условиях, где нет данных. Являются ли более сложные алгоритмы, основанные на данных, более полезными? ▪ Основной критерий – точность прогноза на тестовых выборках ▪ Основное направление – построение моделей с учетом прикладных запросов, анализ этих моделей МК методами. ▪ Принципиальное использование компьютера ▪ - Связь в с предыдущими работами и результатами - Четкое описание процесса генерации данных - Выбор понятных для прикладной области параметров - Точность должна быть адекватной. Точность не есть основа для выбора модели. ▪ Выбор модели, адекватной запросу – ключевой аспект Мой вопрос: Что все-таки делать, если нет вероятностной модели порождения данных?
  • 16. Комментарий Брэда Эфрона (Brad Efron) Leo Breiman ▪ Модели случайного леса имеют высокую структурную сложность, однако специалисты в анализе экспрессии генов изначально готовы к такого рода усложнениям ▪ Анализ социологических данных, действительно, больше нуждается в объяснении, чем в прогнозах. Однако объяснение из не точной модели подвержено ошибкам ▪ Понятие важности переменной пока не имеет строгого теоритического определения. Практический критерий – влияние на точность. Brad Efron ▪ XX столетие – “столетие несмещенности (оценок)”, вслед за Фишером. Но это требует большого отношения “сигнал шум”. Но появились новые задачи, где число переменных меньше числа примеров. Появляются новые алгоритмы, хороший знак. ▪ Проблема алгоритмов с большим числом свободных параметров – смещённость оценок (вносимых при регуляризации, удалении связей и др.). Для смещенных оценок нет хорошей теории. ▪ Эмпирика имеет две особенности - Новые методы всегда выглядят лучше старых - Сложные методы труднее критиковать, чем простые ▪ Прогноз не есть главная целью Требуется объяснение причинных связей. ▪ Основная задача науки – открывать черные ящики. Кросс-валидация и проблема смещенности оценок!
  • 17. Взгляд практика (Bruce Hoadley) ▪ Подробный пример из практики Fair, Isaac по созданию алгоритма оценки риска кредитования (методология INFORM) ▪ Разработана инженерами и специалистами в исследовании операций в 60-х, без использования базовых методов матстатистики (кроме бутстрэп-выборок). ▪ Данные: входы – параметры клиента из корпоративных баз или от кредитных бюро, выход – индикатор риска кредитования. Упрощенный вариант – 24 входа (месячные счета и платежи за год) – т.е. два временных ряда. ▪ Алгоритмическое решение – segmented scorecards (описание рядов сотнями функционалов, разделение клиентов на группы, обучаемые рейтинги признаков в каждой группе). Сложная уникальная технология, критерий качества – точность. ▪ Индустриальный стандарт в течение нескольких десятилетий! Сегодня для отбора признаков используется генетический алгоритм, сегментация клиентов также автоматизирована. ▪ Наблюдения и рекомендации: ▪ Добивайтесь равноценности входов (без доминирования отдельных признаков) ▪ Используйте благо, даваемое высокой размерностью (простота решения в расширенном пространстве) ▪ Используйте регуляризацию и ограничения при обучении (оптимизации) ▪ Игнорируйте большинство советов из учебников! Но тщательно проводите валидацию.
  • 18. Emanuel Parzen и множественность культур ▪ Этическая цель: обещать клиенту, что ошибки, которые будут сделаны в исследовании для него, не будут похожи на ошибки, сделанные статистиками ранее. ▪ Прогноз/информация <=> Менеджмент/Наука. Менеджменту нужна практическая выгода, наука ищет истину. ▪ Проблемы: коррелированные факторы при регрессии, много-модальные распределения при классификации. Важен систематический путь: Проблема-План-Данные-АнализВыводы ▪ Множество культур в статистике. ▪ + Использование теории аппроксимации и численного анализа при аппроксимации данных + Использование понятийного аппарата вероятностей для описания данных (без предположения об их вероятностной природе) ▪ Одна из культур - философия Парзена – исчисление квантилей. Сжатое описание данных. http://stat.tamu.edu. Срочно изучить исчисление квантилей и постановки основных задач на этом языке!
  • 19. Итог по Лео Брейману ▪ …Многие из ведущих статистиков, с которыми я беседовал в последние несколько лет, имеют серьезные опасения по поводу жизнеспособности статистики, как отрасли. Это кажется странным, ведь мы живем в период, в котором, как никогда ранее, возникает огромное количество статистических задач и источников данных. Опасность состоит в том, что если определим границы нашей области исходя из знакомых инструментов и знакомых решенных задач, мы не сможем понять и воспользоваться новыми возможностями (2001). А нейроинформатика жизнеспособна?
  • 20. Наука о Данных (вчера-сегодня) ▪ Доклад: National Research Council. 2013. Frontiers in Massive Data Analysis. Washington, D.C.: The National Academies Press ▪ Dealing with highly distributed data sources, ▪ Tracking data provenance, from data generation through data preparation, ▪ Validating data, ▪ Coping with sampling biases and heterogeneity, ▪ Working with different data formats and structures, ▪ MkKinsey: Не хватает от 140,000 до 190,000 специалистов в области анализа данных, и 1.5 млн менеджеров, способных принимать решения на основе данных ▪ Developing algorithms that exploit parallel and distributed architectures, ▪ Forbes: 4 триллиона (12 нулей) GB данных в 2013 ▪ Enabling data discovery and integration, ▪ Нейроинформатика должна быть здесь, или ее постигнет участь классической статистики ▪ Ensuring data integrity, ▪ Ensuring data security, ▪ Enabling data sharing, ▪ Developing methods for visualizing massive data, ▪ Developing scalable and incremental algorithms, and ▪ Coping with the need for real-time analysis and decision-making.
  • 21. Динамика потребности в специалистах Big Data По оценкам Microsoft, специалистов в области IT в России нужно в два раза больше, чем есть сейчас. Если сегодня посчитать всех айтишников от программистов до ТОП менеджеров получится около полутора миллионов человек. Для развития технологической отрасли нужно как минимум три миллиона (BusinessFM) During September 2013, more than 88,000 “big data” jobs were available online in the United States, a 13% year-over-year increase in demand. (according to WANTED Analytics™.) Статистика объявлений о найме от ведущих кадровых агентств (2010-2013)
  • 22. Смена поколений: вычислить или найти? Молодое поколение 80-х Молодое поколение 10-х ▪ Нейронные сети, решающие деревья, позже SVM. Матстатистика не входит в число активно используемых методов. ▪ MapReduce, Hadoop, облачные вычисления, супер-параллельность, масштабирование “вширь” ▪ Цель – точность прогноза ▪ Большие данные, социальные сети ▪ Новые приложения: временные ряды и финансовые рынки, распознавание рукописного текста, речи, изображений. Статмоделей таких данных, конечно, нет. ▪ Компьютер полноправный член интернет-сообщества, машины побеждают в соревнованиях по “интеллекту”. Компьютеров больше, чем людей. ▪ Большинство публикаций анализируют реальные данные ▪ Средний возраст на NIPS – 30 лет ▪ Новые приложения: маркетинг, продажи, сенсорные данные, геном, безопасность, адаптация в реальном мире Получение ответа состоит в его поиске в сети (с аналитикой “на лету”), а не в традиционном решении технической задачи
  • 23. Смена задачи (парадигмы?) ▪ Классика: нейронная сеть путем ассоциаций ищет ответ в своей памяти. ▪ Надо сегодня и завтра: компьютерная система ищет ответ путем ассоциаций в огромной внешней “памяти”, включающей большие данные и реальный мир. Н.Г.Макаренко, 2013 Как быстро формировать ассоциации запроса с “другим” пространством ответов?