The creation of a data warehouse for biomedical research is the major step to obtain reliable data for the clinical research, publications, retrospective or prospective evaluation of the activity. Without replacing the existing information system, they must allow optimize clinical research.
Cahier des charges pour la création d'un data warehouse medical
1. Hupertan, MD, MR
N°SIREN 448 931 915 00038
RPPS : 1000 39 70 315 N° Ordre : 75 1 68044 8
h u p e r t a n . s t a t @ m e . c o m
h u p e r t a n @ g m a i l . c o m
Mobile + 3 3 6 7 6 8 3 8 9 0 1
MD, Urologist-Sexologist, Hospital Doctor, Consultant
Clinical Research, Data Mining & Statistics
http://about.me/hupertan
Cahier de charges pour la création d’un
« entrepôt de données » pour le suivi des
patients dans un but de recheche bio-médicale
Aspect méthodologique, éthiques, pratiques
Vincent Hupertan
MR HUPERTAN VINCENT HOREA
3 avenue de Wailly, 78290 Croissy Sur Seine, Paris
2. Cahier des charges «DataWarehouse urologie»" 1/5
Cahier des charges pour la création dʼun «entrepôt de données»
pour le suivi des cohortes des patients dans un but de recherche biomédi-cale
»
Vincent Hupertan Statistics
Master en Extraction des Connaissances à partir de données
(Ingénieurie des connaissances)
hupertan.stat@me.com 06.76.83.89.01
Data analysis, Statistics @ RD consulting
Conseil en statistique et recherche médicale
(1) Définition et historique
Entrepôt de données («DataWarehouse») est constitué par l’ensemble d'éléments matériels et
logiciels qui ont comme objectif de stockage numérique des données générées pas l’activité d’une
entreprise (au sens très large). Le stockage n’est pas une finalité en soi mais une issue logique de
l’informatisation de l’activité humaine. Ainsi les entrepôts de données sont devenus la mémoire de
l'activité de l’entreprise. Après une première période d’archivage pur, au fur et à mesure du baisse
du cout du stockage, d’explosion de la volumétrie les entrepôts avaient commencé à être considérée
comme source d’information pour évaluer et améliorer les performances. Progressivement il y a eu
l’évolution inéluctable en passant du stockage, à la l’analyse grâce à des tableaux de bord (OLAP)
dans les années ’90, à des analyses plus poussée et au Data Mining (extraction des connaissances à
partir des données) au début des années 2000.
Si les entreprises ont vite compris la nécessité des constituer ces entrepôts, avec la création
des véritable Data Center (Carrefour un des plus important DataCenter français près de Lille,
GlaxoSmithKline – Research Triangle Park at North Carolina – « KNOWLEDGE DISCOVERY
CENTER »). A contrario, les établissement de santé et notamment les hôpitaux ont toujours resté à
la traine. Si l’informatisation c’est développé avec l’avénement du PMSI, T2A le recueil de données
à visé recherche continue à se faire essentiellement grâce à des tableurs (Excel).
(2) Principes
La constitution des bases de données orientées recherche médicale (en excluant d’emblée les
essais cliniques), notamment celles utilisées dans le suivi des cohortes la réflexion autour de la créa-tion
des bases doit faire l'objet d’une réflexion approfondie pour éviter un certains nombre d’erreur.
C’est toujours délicat de soumettre un article et ensuite avoir une question de reviewer sur un para-mètre
que l’on a pas inclue dans la base (exemple récent avec l’indice de CLAVIEN dans les né-phrectomie
partielles).
Un certain nombre des principes et des conditions sont à connaître:
I. Récupérer l’intégralité des donnée existantes quelque soit le format (Excel!).
jeudi 31 mars 2011" Document confidentiel
3. Cahier des charges «DataWarehouse urologie»" 2/5
II. Respecter la traçabilité de l’information1. En effet si besoin y est ont devrait pouvoir retrouver
le cheminement pour revenir à la source primaire d’information à partir de la base:
A. Identifiant unique (PATIDENT) pour un patient qui doit être identique entre la base et le do-cument
original (le dossier papier dit aussi «mille feuilles», CR anapath, CR imagerie).
B. Tous les corrections et les codages appliqués aux données originelle doivent être annotés et
documentées.
C. Un journal de data management doit accompagner la base.
III. Respecter l’étapes du procèsus standard2 pour la constitution de la base:
A. Design des données à enregistrer. Il s’agit d’une projection en terme de (1) enregistrements
et (2) d’organisation des tables à l'intérieur de la base de données.
1. Quels enregistrements ( terminologie variée: variables, champs, colonnes).
a) Nécessité absolue de faire un audit des données existantes (sous forme de tableur ou
base de données). Cet audit ne doit pas être dissocié d’un approche théorique sur les
items à recueilli pour améliorer le contenu information de la cohorte. Des nouvel
items peuvent ainsi apparaître.
b) Après l'identification des items il faut faire une choix pour ceux qui sont à garder.
L’arbitrage qui permet de faire le choix des items à garder dans la base devrait ré-pondre
à un bon compromis entre l’exhaustivité de données et le risque d’avoir des
données manquantes.
2. Type et contenu des enregistrements. Les règles de bon sens sont à appliquer:
a) Utiliser un identifiant unique sans risque de doublon;
b) Utiliser un «livre de codage» (Codebook) détaillé avec le nom, descriptif, codage de
chaque variable. Les codage doit être validé. Si possible préférer les données brutes.
c) Eviter les textes libres, évidement avoir une préférence aux données brutes sans cal-cul
AVANT la saisie (poids et taille et non pas le BMI, densité de PSA). Enregistrer
que les dates et pas les calculs sur dates (âge, durée de recul).
d) Assurer une gestion adéquate des données manquantes. Dans la situation d’une item
vide on va s’interroger s’il agit d’un oubli, d’une erreur, donnée effacée etc; Pour ce
la il faut:
(1) Éviter les «blanc» si la données est manquante;
(2) Appliquer un codage standard (ec. 99, 98);
(3) Faire la différence entre:
(a) «missing» 99;
1 Audit Trail
2 La création de bases pour les essais cliniques prospectifs nécessitent un processus particulier en accord avec le de-sign
de lʼétude: (1) à partir des objectifs de lʼétude=> (b) méthodologie statistique, (c) données à recueillir et terminer
avec le (d)design de la base
jeudi 31 mars 2011" Document confidentiel
4. des charges «DataWarehouse urologie»" 3/5
(b) N/A (non applicable): 98 (ex. score de Gleason avec des biopsies négati-ves,
ou antécédents obstétricaux chez des hommes).
3. Les items doivent ensuite être organisés en tables, une structure à l’intérieur de la base
selon une structure relationnelle de type3 1 - n, plus rarement n à m. Cette organisation
doit tenir compte des «éléments unitaires»4.
Visite 1
Visite nr 2
Acte nr 1
Patient 1
Patient 2
Patient 3
................
1 à n
B. Définir l'ergonomie de la saisie ains que la fonctionnalité. Par exemple, dans une et même
base il faut associer des consultation et des actes. Un ou plusieurs actes ( une base «biopsie
prostate» et une base différente «prostatectomie»). Limiter le recueil à des pathologies parti-culières
ou la totalité des patients?
IV. Saisie des donnée uniquement à l’aide des logiciels spécialisés. Les TABLEURS ne sont pas
des bases de donnée et sont à proscrire!
V. Dans la mesure il peut toujours y avoir des erreurs après la saisie dès la conception de la bases
il faut imaginer un processus de validation et de correction des erreurs pendant et ou après la
saisie. A part les erreurs de saisie les erreurs qui peuvent apparaître sont du à une interprétation
erroné des questions, ou encore à un codage ambigu.
VI. Ne jamais modifier les données originales après la saisie et la validation et garder un journal
des modification apportées à la base (qui a modifié la donnée et quand).
VII. Archivage des données est obligatoire, pendant la saisie et évidement à la fin de l’étude. L’ar-chivage
peut se faire sur place (disque de sauvegarde) ou encore à distance via internet.
VIII.Considérations de sécurité et confidentialité.
A. Le traitement des données à caractère personnel est soumis à des règles très strictes (cf à la
loi du 6 janvier 1978 relative à l’informatique, aux fichiers et aux libertés modifiée). Dans la
mesure ou sur le plan méthodologique le recueil prospectif de données de patients suivis
dans un établissement publique santé, dans un objectif de recherche biomédicale, peut être
considéré comme une recherche épidémiologique au sens des articles L1121--1 et suivants
du Code de la Santé Publique, les recherches épidémiologiques(études de cohortes, et ou
études d'usage des médicaments) les dispositions de la «METHODOLOGIE DE RE-Cahier
3 un patient qui à plusieurs visites
4 éléments unitaires: un patients, une visite, un acte, une carotte biopsique
jeudi 31 mars 2011" Document confidentiel
5. Cahier des charges «DataWarehouse urologie»" 4/5
FERENCE POUR LES TRAITEMENTS DE DONNEES PERSONNELLES OPERES
DANS LE CADRE DES RECHERCHES BIOMEDICALES»5
B. Les fichiers doivent être déclarés à la CNIL;
C. Les patients doivent être informés du recueil des données, et dispose d’un droit d’accès.
D. L’ensemble des procédures doivent mis en place pour assurer la sécurité des données (cryp-tage
des données, mot de passe d’une longueur minimale, l’existence d’un gestionnaire des
mot de passe, le recueil des données sensibles (sexualité) doit être justifié).
(3) Mise en oeuvre
(A)L’étape de design de la table est sous la responsabilité «des experts» et doit aboutir à
l’identification des items à enregistrer. Ce n’est qu’après que le choix du logiciel et la réalisation
pratique du projet peut se faire.
(B) En terme de réalisation plusieurs scénarios sont possibles:
I. Base de données sur intranet de l’hôpital.
A. Avantages:
1. Possibilité de lier la base via le NIP avec des éléments du dossier médical (comptes ren-dus
MediWeb Ⓡet CRWEBⓇ voir avec le PACS).
2. Droit du recueil du nom et le prénom.
3. Moins de formalités auprès de la CNIL.
4. Choix possible du logiciel de bases de données: logiciel réseaux ou d’une logiciel fonc-tionnement
via une interface browser(Internet ExplorerⓇ).
5. La protection et la sécurité de la base est assurée par l’institution.
B. Désavantages:
1. Inaccessibilité de la base de l’extérieur pour des analyses ad hoc (congrès, questions ur-gentes
des reviewers)
2. Dépendance totale du service informatique de l’hôpital:
a) Complexité de la mise ne oeuvre;
b) Lourdeur si panne informatique;
c) Choix logiciel et du OS (Microsoft WindowⓇ est obligatoire)
d) Localisation du serveur (service informatique)
e) Eventuel coût lié à l’achat du logiciel, si l’institution n’a pas de licence.
II. La base stocké sur un serveur internet
5 Méthodologie de référence homologuée par décision du 5 janvier 2006 la par la Commission nationale de lʼinformatique
et libertés, après concertation avec le Comité consultatif sur le traitement de lʼinformation en matière de recherche dans
le domaine de la santé et consultation dʼorganismes de recherches publics et privés représentatifs, en application des
dispositions de lʼarticle 54 alinéa 5 de la loi du 6 janvier 1978 relative à lʼinformatique, aux fichiers et aux libertés modi-fiée.
jeudi 31 mars 2011" Document confidentiel
6. Cahier des charges «DataWarehouse urologie»" 5/5
A. Avantages
a) Accessibilité 24/24 des bases
b) Choix du serveur, de l’OS (Windows, Linux et MAC OS Serveur).
c) Choix du logiciel et terme de performance, coût de licence.
d) Autonomie totale de la gestion de la base: maintenance, stockage, archiva et back-up,
exploitation.
B. Désavantages:
a) Impossibilité de stocker le NOM et le PRENOM;
b) Lourdeur administrative (CNIL):
c) Coût de domiciliation de la base;
d) Protection et sécurité des données à assurer.
(4) Etapes:
I. Sans informaticien:
A. Nommer des responsables pour auditer chacune des bases existantes=> projets de design e
tables.
B. Discuter la pertinence des design proposés en réunion.
II. Avec l’aide du programmateur informatique:
A. Discuter le design de la table de donnée: structure, organisation
B. Choix du logiciel, serveur physique.
C. Discuter le type de maintenance de la base et les responsabilités.
(5) Conclusion
La création d’un entrepôt de données se fait un trois étapes, avec une première lié au organisation
de l’information. Ensuite les étapes de réalisation et de mise en place.
jeudi 31 mars 2011" Document confidentiel