Докладчик Андрей Логвиненко — руководитель юридического отдела SupportYourApp и Label Your Data, специалист GDPR, CCPA и имплементации ІТ стандартов PCI DSS, ISO 27001.
В программе:
актуальность информационной безопасности в разработке искусственного интеллекта (случаи нарушений и их последствия);
датасеты и их легальное использование (сбор данных и использование датасетов);
правовые нормы в разработке моделей искусственного интеллекта (законные основания использования чужой модели и Federated learning);
что необходимо учитывать при аутсорсинге искусственного интеллекта и обработки данных.
Ознакомиться с деталями митапа: https://bit.ly/305mG7e
8 и 15 августа пройдет бесплатная Data Science fwdays'20 онлайн-конференция.
Участие бесплатно, но регистрация обязательна☝️
Узнать детали и зарегистрироваться: https://bit.ly/32gM7VO
4. Почему я могу говорить
на эту тему?
Андрей Логвиненко
• Руководитель юридического отдела SupportYourApp и Label
Your Data
• Специалист по GDPR, CCPA и имлпиментации ІТ стандартов
PCI DSS и ISO 27001
5. О чем мы сегодня поговорим?
Актуальность информационной безопасности в разработке искусственного
интеллекта (случаи нарушений и последствия этих нарушений)
Датасеты и их легальное использование:
Сбор данных: юридические рамки scraping & crawling
Использование датасетов: лицензии на big data от социальных сетей и провайдеров
Правовые нормы в разработке моделей искусственного интеллекта:
Законные нормы использования чужой модели
Federated learning и безопасность данных
Что необходимо учитывать при аутсорсинге искусственного интеллекта
6. Датасеты и их легальное использование
Сбор данных: юридические рамки scraping & crawling
Публичные данные
не защищены
GDPR???W
RONG
7. Датасеты и их легальное использование
Сбор данных: юридические рамки scraping & crawling
Стоит ли вам беспокоиться о GDPR?
Вы собираете персональные данные
Вы собираете данные граждан ЕС
Welcome toGDPR
8. Датасеты и их легальное использование
Сбор данных: юридические рамки scraping & crawling
Ваша роль в обработке данных?
КонтроллерПроцессор
9. Датасеты и их легальное использование
Сбор данных: юридические рамки scraping & crawling
Вы Процессор
Важно! Правильное документальное оформление взаимоотношений с Контроллером.
В договоре с Контроллером необходимо четко обозначить, то что вы являетесь Процессором, а
заказчик — Контроллером.
Контроллер будет обязан найти и указать законные основания для сбора и обработки данных, а также
уведомить пользователей о таком сборе.
Желательно! Получить от контроллера способы и цели сбора данных для обработки и наличие согласия
пользователей.
10. Датасеты и их легальное использование
Сбор данных: юридические рамки scraping & crawling
Вы Контроллер
Определите законное основание для обработки данных при выполнении одного из условий:
пользователь дал согласие на обработку своих персональных данных для одной/нескольких
конкретных целей;
обработка необходима для исполнения договора, в котором пользователь является одной из сторон,
либо для принятия мер по требованию пользователя до заключения договора;
обработка необходима для соблюдения законодательных требований, возлагаемых на Контроллера;
обработка необходима для защиты жизненных интересов пользователя, либо иного физического
лица;
обработка необходима для выполнения задачи, осуществляемой в общественных интересах или при
осуществлении официальных полномочий, возложенных на Контроллера данных;
обработка необходима для обеспечения законных интересов Контроллера данных или третьего лица,
за исключением случаев, когда такие интересы не принимают во внимание интересы или основные
права и свободы пользователя, которые требуют защиты персональных данных, в частности, в
случаях, когда пользователем является ребенок.
11. Датасеты и их легальное использование
Сбор данных: юридические рамки scraping & crawling
Вы Контроллер
!!! Определите одно или несколько законных оснований до момента сбора данных
Наиболее популярные для Data Scraping:
Согласие пользователя;
Законные интересы владельца данных.
12. Датасеты и их легальное использование
Сбор данных: юридические рамки scraping & crawling
Примеры реализации законных оснований
При согласии на обработку данных у
пользователя есть:
Реальный выбор;
Возможность ознакомиться с полной
информацией о том:
какие данные собираются;
для каких целей они будут
использованы;
кому они будут переданы;
какие у пользователя есть права.
Успешный пример следования GDPR компании
предоставляющие пользователям сервисы агрегации
их данных с разных источников для отображения их в
одном приложении
(см. mint.com)
При обеспечении законного интереса
Контроллера:
компания должна доказать, что
обработка данных совершается для ее
законного интереса, и права и
интересы пользователя не нарушены.
Пример:
Компания в поиске новых сотрудников.
В процессе были собраны и обработаны данные
потенциальных кандидатов, публично
размещенные на сайте по поиску работы.
Важно! Размещая свои данные в открытом
доступе, кандидат ожидает что его данные могут
быть обработаны для рассмотрения его
кандидатуры (но не для других целей!)
13. Датасеты и их легальное использование
Сбор данных: юридические рамки scraping & crawling
Полезно учитывать
Сбор особых категорий данных накладывает на компанию дополнительные требования, которые могут
включать в себя обязательное согласие такого лица. По возможности избегать сбора данных о:
Расовой или этнической принадлежности;
Политических взглядах;
Религиозных или философских взглядах;
Членстве в профсоюзе;
Генетических данных;
Биометрических данных для однозначной идентификации физического лица;
Здоровье, половой принадлежности или сексуальной ориентации.
Важным принципом GDPR является, минимизация данных: компании должны хранить и обрабатывать
только те данные, которые нужны для выполнения определенной задачи.
Пример: вам нужно проанализировать возраст группы людей. Вы собираете информацию о возрасте
человека, а не о его дате рождения.
Необходимо обрабатывать данные для выполнения только тех целей, для которых они были собраны.
Пример: при сборе данных для проведения исследования, они не могут быть использованы для рассылки
рекламных объявлений.
14. Датасеты и их легальное использование
Сбор данных: юридические рамки scraping & crawling
Полезно учитывать
В момент сбора данных вы обязаны уведомлять пользователей о следующем:
кто вы;
какие данные вы собрали и для чего;
законное основание для обработки;
какие права есть у пользователя.
Если вы получаете данные не от пользователя, уведомление должно быть предоставлено:
в течение одного месяца после их сбора;
или не позднее обращения к этому пользователю, если персональные данные должны использоваться
для связи с этим пользователем;
или не позднее момента первоначального раскрытия персональных данных, если предусмотрено
раскрытие данных другому получателю.
🇵🇱
200 ТЫС €
15. Датасеты и их легальное использование
Сбор данных: юридические рамки scraping & crawling
Полезно учитывать
Компания обязана иметь надлежащие политики по хранению, доступу к данным, а также обработке
запросов пользователей.
Пример:
Получен запрос на удаление данных.
Вы должны удалить данные либо анонимизировать их.
Если цель обработки данных выполнена, вы обязаны удалить такие данные.
Важно!
Если у вас есть данные, собранные до мая 2018 года, вы должны провести их аудит на соответствие GDPR.
В случае если у вас нет законного основания обрабатывать эти данные или вы не соответствуете
другим требованиям GDPR, вы обязаны их удалить. В ином случае вам грозит штраф.
16. Датасеты и их легальное использование
Сбор данных: юридические рамки scraping & crawling
Полезно учитывать
Кроме GDPR!
Вы можете работать с данными, которые защищены авторским правом.
К таким данным относятся статьи, видео, изображения, музыка, базы данных.
В случае сбора таких данных следует проанализировать, каким образом можно законно их использовать.
Google it: добросовестное использование (fair use).
Обратите внимание: условия использования ресурса (Terms of Use).
При создании аккаунта (log-in) вы принимаете условия использование сайта = заключаете договор с компанией-владельцем ресурса.
Как правило, такой договор запрещает сбор данных.
!!!Всегда предварительно ознакамливайтесь с условиями соглашения перед тем, как его нарушить
17. Датасеты и их легальное использование
Сбор данных: юридические рамки scraping & crawling
Итого:
1. Определитесь с ролью
2. Зафиксируйте
законное основание
3. Помните о других законах,
кроме GDPR
18. Что мы узнали? Что дальше?
Актуальность информационной безопасности в разработке искусственного
интеллекта (случаи нарушений и последствия этих нарушений)
Датасеты и их легальное использование:
Сбор данных: юридические рамки scraping & crawling
Использование датасетов: лицензии на big data от социальных сетей и провайдеров
Правовые нормы в разработке моделей искусственного интеллекта:
Законные нормы использования чужой модели
Federated learning и безопасность данных
Что необходимо учитывать при аутсорсинге искусственного интеллекта
19. Датасеты и их легальное использование
Использование датасетов: лицензии на big data от социальных сетей и
провайдеров
Life hack
Как понять с каких ресурсов можно
брать данные, а с каких нельзя?читайте условия использования этого сервиса
читайте условия использования этого сервиса
читайте условия использования этого сервиса
читайте условия использования этого сервиса
читайте условия использования этого сервиса
читайте условия использования этого сервиса
читайте условия использования этого сервиса
читайте условия использования этого сервиса
читайте условия использования этого сервиса
читайте условия использования этого сервиса
читайте условия использования этого сервиса
читайте условия использования этого сервиса
читайте условия использования этого сервиса
читайте условия использования этого сервиса
читайте условия использования этого сервиса
читайте условия использования этого сервиса
читайте условия использования этого сервиса
читайте условия использования этого сервиса
читайте условия использования этого сервиса
читайте условия использования этого сервиса
читайте условия использования этого сервиса
читайте условия использования этого сервиса
читайте условия использования этого сервиса
читайте условия использования этого сервиса
читайте условия использования этого сервиса
20. Датасеты и их легальное использование
Использование датасетов: лицензии на big data от социальных сетей и
провайдеров
Прямо запрещает автоматизированный сбор данных
Вариант:
Получить письменное разрешение Facebook на сбор данных.
Обычно такие разрешение выдаются только для проведения исследований и получения статистических данных.
21. Датасеты и их легальное использование
Использование датасетов: лицензии на big data от социальных сетей и
провайдеров
Предоставляет определённую свободу для сбора и анализа данных
Но! Сбор данных должен осуществляться через API Твиттера.
Запрещено:
Использовать данные взятые с Twitter для сопоставления с информацией о конкретном пользователе для его
идентификации на других ресурсах.
Использовать, таргетировать, профилировать или сегментировать пользователей по чувствительным данным.
Мониторить события, связанные с протестами, столкновениями и митингами.
22. Датасеты и их легальное использование
Использование датасетов: лицензии на big data от социальных сетей и
провайдеров
Разрешает сбор данных через свое API
При сборе данных для коммерческих целей необходимо получить отдельное разрешение.
23. Датасеты и их легальное использование
Использование датасетов: лицензии на big data от социальных сетей и
провайдеров
Что будет если вы нарушите условия пользовательского соглашения?
В США владелец ресурса может подать в суд.
Самые громкие дела были связаны со скрейпингом данных Facebook и LinkedIn.
Результат: нарушители заплатили штрафы.
24. Датасеты и их легальное использование
Использование датасетов: лицензии на big data от социальных сетей и
провайдеров
1. Читайте условия
использования
2. В некоторых случая можно
получить данные,
запросив разрешение
3. Нарушения соглашений =
Судебные разбирательства =
Штрафы
Итого:
25. Что мы узнали? Что дальше?
Актуальность информационной безопасности в разработке искусственного
интеллекта (случаи нарушений и последствия этих нарушений)
Датасеты и их легальное использование:
Сбор данных: юридические рамки scraping & crawling
Использование датасетов: лицензии на big data от социальных сетей и провайдеров
Правовые нормы в разработке моделей искусственного интеллекта:
Законные нормы использования чужой модели
Federated learning и безопасность данных
Что необходимо учитывать при аутсорсинг искусственного интеллекта
26. Правовые нормы в разработке моделей искусственного интеллекта
Законные нормы использования чужой модели
При использовании чужой модели – ознакомьтесь с условиями ее распространения (license agreement)!
Обратите внимание:
Возможно ли коммерческое использование модели?
Возможно ли патентование модели?
Есть ли обязательство сохранять все последующие переработки этой модели в открытом коде?
Отсутствие права на коммерческое использование или патентование либо же обязательство сохранения модели в
открытом коде в большинстве случаев делает невозможным дальнейшее использование модели для создания вашего
продукта.
27. Что мы узнали? Что дальше?
Актуальность информационной безопасности в разработке искусственного
интеллекта (случаи нарушений и последствия этих нарушений)
Датасеты и их легальное использование:
Сбор данных: юридические рамки scraping & crawling
Использование датасетов: лицензии на big data от социальных сетей и провайдеров
Правовые нормы в разработке моделей искусственного интеллекта:
Законные нормы использования чужой модели
Federated learning и безопасность данных
Что необходимо учитывать при аутсорсинге искусственного интеллекта
28. Правовые нормы в разработке моделей искусственного интеллекта
Federated learning и безопасность данных
Как обучать искусственный интеллект не
нарушая GDPR?
анонимизация данных
использование синтетических данных
федеративное обучение
29. Правовые нормы в разработке моделей искусственного интеллекта
Анонимизация
данных?
Данные обработаны таким образом, что невозможно идентифицировать какое-либо физическое лицо.
GDPR не будет применяться.
Важно! Иногда это требует значительного вмешательства в данные обучения, и может привести к потере ценной
информации.
База может включать в себя не только персональные данные, прямо указывающие на конкретное физическое лицо, но и
другую информацию, которая (хоть и не является персональными данными), может косвенно идентифицировать
конкретное физическое лицо.
Объем данных, которые необходимо удалить во время анонимизации, может быть значительным и имеет все шансы
снизить эффективность обучаемых моделей
30. Правовые нормы в разработке моделей искусственного интеллекта
Синтетические
данные
Данные, сгенерированные искусственным путем (без привлечения конечного пользователя).
GDPR не будет применяться.
Важно! Статистическая природа синтетических данных должна в достаточной мере напоминать исходные данные, в противном
случае модель не сможет делать точные прогнозы.
Чтобы минимизировать этот дефицит, исходные данные можно было бы использовать для генерации синтетических данных, но
это попадает под действие GDPR.
31. Правовые нормы в разработке моделей искусственного интеллекта
Federated
Learning
Способ машинного обучения, при котором алгоритм обучается на децентрализованных устройствах или серверах (пример:
мобильные телефоны пользователей), которые хранят данные локально.
При этом обмен или передача данными между устройствами — исключены.
Данные обучения никогда не покидают локальный источник.
Не освобождает от GDPR, но эффективность обучения модели будет значительно выше.
В рамках GDPR федеративное обучение будет весомым аргументом для использования основания “законный интерес” для
обработки данных.
При условии, что вы обеспечите защиту данных находящихся на локальных хранилищах от доступа третьих лиц.
32. Правовые нормы в разработке моделей искусственного интеллекта
GDPR не применяется
GDPR может применятся
При использовании реальных
данных для генерации
синтетических данных GDPR применяется
Доступ к чувствительным
данным
?
Итого:
Анонимизация
данных
Синтетические
данные
Федеративное
обучение
33. Что мы узнали? Что дальше?
Актуальность информационной безопасности в разработке искусственного
интеллекта (случаи нарушений и последствия этих нарушений)
Датасеты и их легальное использование:
Сбор данных: юридические рамки scraping & crawling
Использование датасетов: лицензии на big data от социальных сетей и провайдеров
Правовые нормы в разработке моделей искусственного интеллекта:
Законные нормы использования чужой модели
Federated learning и безопасность данных
Что необходимо учитывать при аутсорсинге искусственного интеллекта
34. Если вы собираете данные
от имени заказчика
Какие именно данные необходимо будет собирать?
Есть ли в запросе особые категории данных, для которых применяются
дополнительные требования GDPR во время обработки?
Есть ли у Заказчика необходимое разрешение от владельцев веб-ресурса на
сбор и обработку данных?
Есть ли согласие пользователей?
Можно ли избежать сбора персональных данных?
Check-list
Важно! Зафиксировать ответы на эти вопросы в договоре
35. Что мы узнали? Что дальше?
Актуальность информационной безопасности в разработке искусственного
интеллекта (случаи нарушений и последствия этих нарушений)
Датасеты и их легальное использование:
Сбор данных: юридические рамки scraping & crawling
Использование датасетов: лицензии на big data от социальных сетей и провайдеров
Правовые нормы в разработке моделей искусственного интеллекта:
Законные нормы использования чужой модели
Federated learning и безопасность данных
Что необходимо учитывать при аутсорсинг искусственного интеллекта
36. Что важно помнить!
Знайте свою роль и
обязанности
Читайте и проверяйте условия
использования данных
Используйте
различные методы
сбора данных