Debriefing fait à l'École 42 après une rencontre avec la CNIL concernant les enjeux numériques en matière de données de santé et de soi quantifié.
Attention: ceci est un résumé personnel, ce n'est pas des parôles de loi!
Enjeux et réglementations numériques en matière de données de santé et de soi quantifié
1. Debrief d’une rencontre avec
la sur les enjeux
numériques des données de
santé et de soi quantifié
Guillaume Dumas, Génétique Humaine & Fonctions Cognitives, Institut Pasteur
Courriel: guillaume.dumas@pasteur.fr — Twitter: @introspection
NOTE: Ceci est un compte-rendu, pas des paroles de loi !
30 avril 2016
2. Kezako la CNIL?
š une autorité
administrative
indépendante
š ~ 200 personnes
š 10000 demandes/an
š 13000 organismes ont
un correspondant CIL
3. Anonymity (les 3 critères du G29)
1. is it still possible to single out an individual?
2. is it still possible to link records relating to an individual?
3. can information be inferred concerning an individual?
4. Types de données
š Du coup, une adresse électronique est pleinement une donnée à caractère personnel, surtout
avec des entreprises où l'on a choisi d'utiliser un schéma de construction des adresses E-mail
trop nominatif : prenom.nom@pasteur.fr
š beaucoup de personnes, et même une majorité d'nformaticiens, se méprennent lourdement
sur ce qui permet d'identifier une personne physique.Tout le monde pense facilement à son
numéro INSEE, mais pour vous donner un exemple inverse, une année de naissance, des
initiales sont des DCP (données à caractère personnel). Car par recoupement avec d'autres
info. publiques, elles permettent de remonter à une personne physique.
š La question de ce qu’est une donnée de santé dépend de la finalité. Par exemple dans le cas
de mPower de Sage Bionetworks, ils ont retirés la correction orthographique et prennent le
nombre de fautes d’orthographe et les statistiques du clavier en général comme une donnée
prédictive.
5. Types de données
š Pour rapatrier les données hors de la bulle d’un projet, le mieux est de procéder à une
pseudonimisation (note: pas toujours possible, e.g. données génétiques).
š Du point de vue de l’utilisateur, il faut être clair au niveau des destinataires des données
quant à l’objectif du recueil des données et à sa finalité via la transmission d’une
information de non opposition à l’utilisation des données.
š Il est conseillé d’utiliser un tableau de bord dynamique accessible à tous moment et avec
un bouton de révocation totale de la non opposition. Exemple de celui de Withings:
6.
7.
8.
9.
10.
11. Consentement éclairé
š Nécessité d’un consentement écrit uniquement lorsque les
données sont dites “interventionnelles” —i.e. lors de prélèvement
d’échantillons biologiques. La loi va toutefois changé et il est
possible de passer en dématerialisé après avoir fait un premier
consentement écrit .
š Pour faire un consentement numérique (eConsent à la Sage
Bionetworks) il faut mettre les coordonnées d’un médecin pour
poser des questions ci-besoin. On pourrait également imaginer de
faire un chat/hotline également. Il y aussi a un contenu minimal à
avoir, avec notamment l’article 57 de la loi informatique et liberté
et préciser que les conditions de la recherche peuvent évoluer.
12. Consentement éclairé
š Il y a un devoir d’informer la personne en cas de changement des
conditions. Celles-ci sont considérées comme admise mais la
personne est dans le droit de s’opposer. Une simple notification
mobile n’est en revanche pas suffisante, il faut un email avec la
possibilité de garder une trace de ce changement et la démarche
pour s’opposer doit également être claire.
š Concernant les types de données, du moment où c’est explicité
dans le consentement et validé par la CNIL, tout est enregistrable.
16. Hébergement
š Dans tous les cas, cela demande de définir le périmètre des
applications. L’hébergement des données est critique, surtout si c’est
des données de santé (i.e. prévention, diagnostique ou soin).
š Dans ce cas, il faut être agréé par l’ASIP comme hébergeur de
données de santé. Il y a plus d’information sur leur site avec notamment
la liste des hébergeurs agréés (note: ni Google, Amazon, ou Dropbox!).
š Il faut donc se poser la question si on héberge soi-même sur le long
terme ou si on passe par un prestataire. Si on veut être agréé, il faut
remplir un dossier (note: dans 1 ou 2 ans ça passerq à une certification).
17. Hébergement
š Même si les données ne sont pas des données de santé, il faut
déclarer un responsable de traitement auprès de la CNIL.
š Ce responsable doit assurer la protection des données du capteur
jusqu’au stockage de l’information. Cela inclue l’authentification,
l’encryption des transferts, et le maintien de l’intégrité des données
(e.g. altération malveillante).
š Il y a une nécessité d’autorisation d’accès aux données.
L’interruption de service est tolérée.
18. Techniquement
A ce jour, les conseils en matière de sécurité sont:
š Pour la communication: dernière version de TLS
š Pour le stockage: AES 128, les mots de passe ne sont
jamais en clair, il faut passer par un algorithme de
hashmac SHA2
š Pour les API: OAUTH2, en passant obligatoirement par le
Responsable de Traitement pour avoir l’autorisation
d’accéder au données, celle de l’utilisateur ne suffit pas.
19. Conclusion
š Il faut un cahier des charges clair pour pouvoir
faire une déclaration auprès de la CNIL
š La CNIL n’est pas opposée mais au contraire très
intéressée par les projets innovants
š Il faut faire de la veille sur ce qui existe afin de ne
pas réinventer la pluie …
20. Conclusion
Il est important de définir les périmètres des données:
š Quelles sont celles essentielles au service?
š Quelles sont celles qui permettent un meilleur suivie?
š Quelles sont celles qui n’apportent rien au service
mais peuvent être utiles aux chercheurs/developeurs?
22. “The data-sharing
agreement gives Google
access to information on
millions of NHS patients”
“What DeepMind is
trying to do is build a
generic algorithm that
can do this for
anything – anything
you can do a test for.”