SlideShare una empresa de Scribd logo
1 de 137
Conception d’un essai
                                     Aspects statistiques
                                                    Michel Cucherat




Ce(tte) œuvre est mise à disposition selon les termes de la Licence Creative Commons
Attribution - Pas d’Utilisation Commerciale - Partage dans les Mêmes Conditions 3.0 France
But à atteindre

 Un effet démontré par un résultat statistiquement significatif
  sans inflation du risque alpha

 Cela nécessite de prévoir
   – Une absence de multiplicité des comparaisons
   – Ou une procédure de contrôle du risque alpha lors de comparaisons
     multiples

   – Un effectif suffisant pour garantir une puissance satisfaisante à l’essai
Fluctuations aléatoires


                                       Échantillon 1
                                           48%



                                       Échantillon 2
                                           52%
         Obtenir pile à pile ou face
            (Probabilité = 50%)
                                       Échantillon 3
                                           50%



                                       Échantillon 4
                                           45%
Fluctuations aléatoires


                                     Échantillon 1
                                         9%



                                     Échantillon 2
                                         12%
          Même type de patients
         (Probabilité d'AVC = 12%)
                                     Échantillon 3
                                         16%



                                     Échantillon 4
                                         26%
 Conséquences pour la comparaison de 2 échantillons

   – les proportions observées dans 2 échantillons peuvent être différentes
   – uniquement du fait du hasard
   – même si dans ces 2 échantillons la vraie probabilité était la même


 les FAE sont susceptibles de fausser les comparaisons
Conséquences des fluctuations

                         Effet du traitement = 0


       Vrai risque = 10%                       Vrai risque = 10%

             Groupe T+                              Groupe T-




      Risque observé = 6%                    Risque observé = 12%


                    Différence observée = -6%
Problématique des comparaisons

 Quand on ignore la réalité,
  la différence observée de -6% est-elle ?

   – une manifestation des fluctuations aléatoires,
     donc due uniquement au hasard

   – la traduction d’une réelle différence entre les deux groupes,
     donc d’un effet non nul du traitement


 Comment départager ces 2 possibilités ?


                                        Solution : test statistique   .
But des comparaisons

 Quel est le but des comparaisons ?



        Grp T
                            Conclure à l'existence          Décider d'utiliser le
      diff -6%                d'une différence              nouveau traitement


        Grp C




            La conclusion doit être conforme à la réalité
            mais elle se base uniquement sur l’observé
Effets des fluctuations dans une comparaison

 Le hasard peut faire apparaître une différence qui n'existe pas
  en réalité

 Inversement, le hasard peut réduire une différence qui existe
  réellement

 donc 2 façons de fausser la conclusion
Erreur statistique alpha


 Conclure à l'existence d'une différence qui n'existe pas en
  réalité : faux positif

                                     Échantillon 1
                                        7.5%

                                                         Différence
             Vrai valeur                                 non réelle
                12%
                                      Échantillon 2
                                          15%
Erreur statistique bêta

 Ne pas conclure à une différence qui existe pourtant en réalité :
  faux négatif


           Vrai valeur              Échantillon 1
              12%                       15%

                                                     Fausse absence
                                                     de différence


           Vrai valeur               Échantillon 2
              19%                        15%
Conclusion


                               Différence     Pas de différence


             Différence                         Erreur bêta
Réalité




          Pas de différence   Erreur alpha
Application à l’essai thérapeutique

 Risque alpha : considérer comme efficace un traitement qui ne
  l’est pas
 Risque bêta : ne pas conclure alors que le traitement est
  efficace
 Puissance : montrer l’efficacité d’un traitement réellement
  efficace
Tests statistiques

 Outils d'aide à la décision


 Principe
   – conclure à une différence
   – que si le risque de faire une erreur (de première espèce) est faible


 Quantification du risque d'erreur alpha
   – à partir des données disponibles


 (Risque de commettre une erreur alpha = risque alpha)
Démarche du test statistique

 Calcul de la probabilité p
   – p : probabilité que "la différence observée soit due uniquement au
     hasard"
 p représente le risque de faire une conclusion erronée si l'on
  décidait de conclure
 p est une quantification du risque alpha
 On ne conclut que si ce risque d'erreur est suffisamment petit
5% ?

 Un risque de 5% est-il acceptable pour décider de l'utilisation
  d'un traitement

 Exigence réglementaire de 2 essais significatifs
   – alpha de la décision 5%*5%=2.5/1000
CRITÈRE DE JUGEMENT COMPOSITE
Exemples

 Événements coronariens majeurs (« MACE Major Coronary
  Events ») : décès, infarctus, nécessité de revascularisation
 Survie sans progression : durée jusqu’au critère composite
  décès ou progression de la maladie nécessitant un traitement
  (chirurgie)
Intérêts

 regrouper des équivalents du même phénomène clinique.
 mesurer directement le rapport bénéfice/risque
 sensibiliser la recherche d'un effet,
Interprétation 1



      Décès

      Ev non mortels

       Crit. composite


                   0.4 0.6 0.8 1.0 1.2 1.4 1.6
                           Risque relatif
Interprétation 2



      Décès

      Ev non mortels

       Crit. composite


                   0.4 0.6 0.8 1.0 1.2 1.4 1.6
                           Risque relatif
Interprétation 3



       Décès

       Ev non mortels

       Crit. composite


                   0.4 0.6 0.8 1.0 1.2 1.4 1.6
                           Risque relatif
Exemple Benestent

                          Angioplasty   Stent   Relative risk
                            n=410       n=413     (95%)

 Death                        1           2

 Q-wave myocardial
                              7           5
 infarction
 Non Q-wave myocardial
                              6          10
 infarction
 Coronary artery bypass
                              6           6
 surgery

 Repeat PTCA                  56         33

                                                   0,67
 Composite endpoint           79         53
                                                (0,48;0,92)
CARDS
 Exemple
ANALYSES INTERMÉDIAIRES
Analyses intermédiaires

 en cours d’essai, avant que tous les patients prévus aient été
  recrutés
 et/ou avant la fin de la période de suivi initialement prévue


 But arrêter prématurément
   – pour efficacité
   – pour toxicité
   – pour futilité
Ajustement du seuil de signification


 Méthode de Bonferroni
   – Pour k comparaisons, le seuil ajusté est :     saj
   – Pour k=3, saj = 5% / 3 = 1.67%
                                                          k
   – Quand est petit,
          k
      1     1 k
                    k
     1 1          k
   – Donc pour conserver un risque alpha global de 5% :
        k    0.05
            0.05
             k
   – Inconvénient : fait l’hypothèse d’une stricte indépendance des variables
     testées  méthode conservatrice
Cas 1



   Analyse intermédiaire        Analyse
   1          2            3    finale
   p = 0.10   p = 0.011




 3 analyses intermédiaires + 1 analyse finale = 4 comparaisons

  s     5% / 4 1.25%
 Arrêt prématuré de l’essai
   aj
Cas 2


   Analyse intermédiaire              Analyse
   1          2            3          finale
   p = 0.25   p = 0.08     p = 0.04   p = 0.01




 Pas d’arrêt prématuré mais conclusion à l’efficacité
Cas 3


   Analyse intermédiaire              Analyse
   1          2            3          finale
   p = 0.42   p = 0.28     p = 0.12   p = 0.04




 Pas d’arrêt prématuré et résultat non significatif (p=4%>saj)
Cas 4


    Analyse intermédiaire              Analyse
    1          2            3          finale
    P = 0.89   p = 0.48     p = 0.25   p = 0.10




 Résultat non significatif
Autres méthodes

       Méthode        Analyses intermédiaires       Analyse
                    1       2        3        4      finale
       Pocock      0.017    0.017   0.017   0.017    0.017
       O’Brien et
                  0.00005   0.004   0.012   0.025    0.04
       Flemming
       Lan et
                   0.015    0.016   0.017   0.018    0.019
       Demets 1
       Lan et
                  0.00001   0.002   0.011   0.025    0.041
       Demets 2
       Peto        0.001    0.001   0.001   0.001    0.05

 Fonctions de dépenses du risque alpha
P ajusté



  paj    pk
 Problème : différents p donnés par les tests
   – exemple : 0.01, 0.02, 0.20


 Problème de l'intervalle de confiance
Méthode séquentielle

 Analyse en continue
 Test triangulaire
CARDS

 interim analysis when 25%, 50%, and 75% of the total
  anticipated primary endpoints had accrued.
 The interim analyses used an asymmetric (Peto-Haybittle)
  type rule and we prespecified that the board might advise
  termination if a significant difference emerged
   – in favour of atorvastatin (at p<0·0005 one-sided, p<0·001 twosided
     at any analysis) or
   – in favour of placebo (at p<0·005, 0·1, and 0·2 one-sided, for the
     three interim analyses, respectively).
 At the second interim analysis a significant difference was
  reported in favour of atorvastatin at p<0·001 (two-sided)
CARDS
PUISSANCE
Puissance

 Aptitude d'une comparaison à mettre en évidence une
    différence qui existe réellement
   Pour une situation donnée, dépend du nombre de sujets
   1-β
   β ne se calcule pas comme le p
   Conditionnée par le nombre de sujets
   Calcul du nombre de sujets +++
Conséquences d'une puissance insuffisante

 Forte probabilité d'obtenir un résultat négatif (différence non
  significative)
   – coût
 Force de conviction faible des petits essais
   – partie visible de l'iceberg
 Difficulté d'interprétation d'une différence non significative
 Calcul a priori du nombre de sujets nécessaires
   – pour garantir une puissance élevée (80 - 95%)
 Le calcul dépend
   –   de alpha (5%)
   –   de la puissance recherchée (90%)
   –   de la différence à mettre en évidence (vrai effet)
   –   de la fréquence de l'événement r0 (dans le groupe placebo)
 nécessaire de faire des hypothèses sur r0 et le vrai effet
   – car inconnu avant de recueillir les observations
 La démarche est spéculative
   – si le vrai effet du traitement est de -7%
   – si la fréquence r0 est de 10%
   – un nombre de sujets de 578
   – donne une puissance de 90%
         • l'essai a 90% de chance de mettre en évidence cet effet
 Mais si en réalité
   – le vrai effet est plus petit
   – ou r0 < 10%
   – la probabilité d'obtenir un résultat significatif est < 90%
Influence du nombre de sujets

 La signification statistique et la valeur de p
   – dépend du nombre de sujets (observations) n
 p1=7% p0=13%
   – n=100             p = 0.56 (NS)
   – n=1000            p = 0.01 (p<0.05)
 Visualisation avec les IC



          n=100                                NS

          n=1000                                   P<0.05

                                                            Différence
                              -6%    0
Taille de l'effet


                     100%



                     75%
         Puissance




                     50%



                     25%


                      0%
                            0.4   0.5      0.6         0.7        0.8        0.9   1
                                        Taille de l'effet (risque relatif)
N


                100%


                75%
    Puissance




                50%


                25%


                 0%
                       0   1000     2000      3000     4000   5000
                              Nombre de sujets par groupe
Risque de base


                   100%



                   75%
       Puissance




                   50%



                   25%



                    0%
                          0   0.1   0.2        0.3         0.4   0.5   0.6
                                          Risque de base
INTERVALLE DE CONFIANCE
Pertinence clinique

 Signification statistique      pertinence clinique

 Réduction de mortalité de 25% à 12%, p<0.05
   – réduction statistiquement significative
   – pertinente cliniquement
 Réduction de mortalité de 2.3% à 2.1%, p<0.05
   – réduction statistiquement significative
   – peu pertinente cliniquement
Intervalle de confiance

 Différence = -6%
 IC 95% = [-8%;-4%]
 L’intervalle *-8%;-4%] à 95% de chance de contenir la vraie
  valeur de la différence
 reflète l'incertitude de l'estimation
 Il n'est pas possible d'exclure que le vrai effet ne soit que de -
  4%
   – situation la pire
   – efficacité plus faible que les -6% de l'estimation ponctuelle
Interprétation des IC

 ensemble des valeurs raisonnablement possibles pour la vraie
  moyenne
 il est raisonnable de parier que la vraie valeur est dans
  l'intervalle (prob de 95%)
 95% = degré de confiance
 il est peu probable (prob 5%)
   – que la vraie valeur soit > à bs
   – ou que la vraie valeur soit < à bi

   – il est donc peu raisonnable de parier que la vraie valeur soit à l'extérieur
     de l'IC
Relation entre IC et test




  -5% [-10%,-2%]                P<0.05


  -2% [-9%;+2%]                 NS



                                         Différence
                            0
Intervalle de confiance - test statistique



     -7.5%     -5.0%     -2.5%      0.0%     2.5%



                                      5%
Nombre de sujets et largeur de l'IC



     -15.0%   -10.0%    -5.0%     0.0%   5.0%

  100


  200

  300

  400
Rôle de la vraie valeur



     -20.0%   -15.0%   -10.0%   -5.0%     0.0%   5.0%



                                        -2%


                                -5%


                       -10%
Intervalles de confiance


  Essai A

  Essai B

  Essai C

  Essai D

  Essai E


   0.40     0.60   0.80       1.00   1.20   1.40
                    Risque relatif
AJUSTEMENT
Exposé de la problématique


           25




                                 25
                                          Groupe 1
                                          Groupe 2
           20




                                 20
       Y




                             Y
           15




                                 15
           10




                                 10
           5




                                 5


                G1    G2              2      4       6    8   10

                 Groupe                      Covariable
Exposé de la problématique 2


           25




                               25
                                        Groupe 1
                                        Groupe 2
           20




                               20
       Y




                           Y
           15




                               15
           10




                               10
           5




                               5


                G1    G2            2      4       6    8   10

                 Groupe                    Covariable
Ajustement

 L'ajustement consiste à corriger un résultat des effets parasites
  induits par des covariables influençant aussi le critère de
  jugement
 Réaliser la recherche de l'effet du traitement en ajustant sur un
  autre facteur
Intérêts

 Augmenter la précision de l'estimation
 Supprimer l'effet des facteurs de confusion
Augmenter la précision
                  a                  b



            18
            16
            14
            12
        Y
            10
            8
            6
            4




                 y1 y0    1   2     3    4     5   6
                 Groupe           Covariable
Augmenter la précision de l'estimation


                        Décès / n
                                            RR
                                 G.                      p
                  G. traité              [IC 95%]
                             contrôle
                   5 / 200 10 / 200         0,50
bon pronostic                                             -
                    2,5%       5,0%     [0,17 ; 1,44]
mauvais            6 / 20     12 / 20       0,50
                                                          -
pronostic           30%         60%     [0,23 ; 1,07]
Analyse non       11 / 220 22 / 220         0,50         p=
ajustée              5%         10%     [0,25 ; 1,01]   0,052
                                            0,50         p=
Analyse ajustée      -          -
                                        [0,27 ; 0,93]   0,027
Supprimer l'effet des facteurs de confusion

                       Décès / n
                                           RR
                                G.                      p
                  G. traité             [IC 95%]
                            contrôle
mauvais           35 / 141 30 / 61         0,50
                                                         -
pronostique        25%         49%     [0,34 ; 0,74]
                   3 / 59   14 / 138       0,50
bon pronostique                                          -
                    5%         10%     [0,15 ; 1,68]
Analyse non       38 / 200 44 / 199        0,86
                                                        NS
ajustée            19%         22%     [0,58 ; 1,27]
                                           0,50         p<
Analyse ajustée      -         -
                                       [0,35 ; 0,73]   0,001
Supprimer l'effet des facteurs de confusion -
stratification


                         Décès / n
                                             RR
                                  G.                       p
                    G. traité             [IC 95%]
                              contrôle
  mauvais           37 / 150 74 / 150        0,50
                                                           -
  pronostique        25%         50%     [0,36 ; 0,69]
                     2 / 50     4 / 50       0,50
  bon pronostique                                          -
                      4%         8%      [0,10 ; 2,60]
  Analyse non       39 / 200 78 / 199        0,50
                                                         0.0004
  ajustée            19%         22%     [0,36 ; 0,70]
                                             0,50         p<
  Analyse ajustée      -         -
                                         [0,35 ; 0,73]   0,001
En pratique

 Risque de sur-ajustement en cas de
   – ajustement sur les variables déséquilibrées entre les groupes
   – choix post hoc
 Ajustement
   – Sur des variables pronostiques connues
   – défini a priori
ANALYSE DES DONNÉES DE SURVIE
Données de survie

 Objectif : montrer que le traitement recul le moment de
 survenue du décès (ou de n'importe quel événement)
 comparaison des temps moyens de survie


 Nécessite de suivre tous les patients jusqu'au décès
   – quasiment impossible


 A la fin de l'étude, une proportion variable de sujets sont
  toujours vivants
 Durée moyenne de survie
   – moyenne des durées de survie de chaque patient de l'échantillon
 Exemple
   –   n = 4 : 6 mois, 2 ans, 3 ans, 10 ans
   –   moyenne = 3,9 ans
   –   analyse impossible avant 10 ans !!!
   –   Moyenne des données partielles est fausse (sous estime)
        • Calcul à 3 ans (3 décès / 4) = 1.83 ans
Calcul de la fréquence des décès

 Durées de suivi variables
 Les patients sont suivis + ou - longtemps
 Calcul de la fréquence des décès à un temps donné
  problématique
   – sous estime la mortalité


 Solution partielle
   – raisonnement en patients années
   – sous entend que le nombre de décès est proportionnel au temps
     d'observation --> Faux
 En pratique
   –   suivi des patients sur une certaine période calendaire
   –   arrêt du suivi à une date de point
   –   détermination de l'état (VV ou DCD) à la date de point
   –   2 types de données
        • patients DCD avant la date de point : durée de survie
        • patients toujours vivant à la date de point


 Censure du suivi
   – patient VV à la date de point
   – suivi censuré avant la survenue du décès
Référentiel initial des données

 Temps calendaire


                     DC
                                           VV
                                 DC
                                           VV
                                                   Calendrier
      2001             2002             Date de
                                         point
   – les durées de suivi des censurés dépendent du recul (inclusion du
     patient - date de point)
Temps de survie

 Abscisse = temps de survie après inclusion


                      DC
                                     VV
              DC
              VV
                                                    Temps
        t=0

    – pour chaque patient : durée de suivie ou de survie à partir de son t = 0
      (inclusion)
 Autre source de censure : les perdus de vue
   – patients impossibles à contacter à la date de point
   – état à la date de point inconnu
   – date de dernières nouvelles (< date de point)
       • censure à cette date
Les différents types de censures



 3                           DC

 2                                         DC

 1                      DC
                                                temps

         Période de suivi

                                  Fin du
                                   suivi
Courbe de survie

 Estimation suivant la méthode de Kaplan Meier
   – prise en compte des suivis censurés pour la période de temps où ils sont
     informatifs
   – le nb de patients pris en compte diminue au cours du temps au fur et à
     mesure des censures
Estimateur de Kaplan Meier


                  0.8
    Survie S(t)

                  0.4
                  0.0




                        0   2   4      6     8   10   12

                                    Temps (an)
 Courbe en escalier
   – la survie ne change que lorsque survient un décès

   S(t)                   Décès

 100%                                     Censure



  90%


                                                         t
Précision de l'estimation




                                     0.0 0.2 0.4 0.6 0.8 1.0
 Intervalle de
   confiance à 95%
                     S urvie S (t)




                                                               0   1   2     3       4   5

                                                                       Tem ps (an)
Conséquence des censures

 Diminution de la quantité d'information
   – une censure est non informative pour la durée de survie
   – mais il est partiellement informatif
          • (durée de survie au moins égale à x)
   – Perte de précision
          • la précision diminue au fur et à mesure de l'accumulation des censures


 Biais
   – Les différents types de censure
          • perdus de vue
          • censures à la date de point
   – ne vont pas avoir les mêmes conséquences sur l'estimation en terme de
     biais
Essai à durée de suivi fixe


    Premier patient
                           1 an de suivi




                          Dernier patient
    Période d'inclusion                     1 an de suivi

                                                            temps
Essai à date de point

                         Date de fin

       Premier patient




                               Dernier patient
      Période d'inclusion

                                                 temps
Cas mixte

                                           Date
                                           de fin

   Premier patient




                         Dernier patient
   Période d'inclusion

                                                    temps
Essai à durée de suivi fixe (ou mixte)

 Censures sont liées à la




                                            1.0
  fin de l'essai
 L'étalement des




                                            0.8
                              Survie S(t)
  censures correspond à



                                            0.6
  l'étalement des
  inclusions
 elles ne faussent pas la
                                            0.4
  partie de la courbe où il
                                            0.2

  n’y a pas de censure
                                                  0   5           10     15

                                                          Temps (mois)
Essai à date de point


 Censures




                                         0 .2 0 .4 0 .6 0 .8 1 .0
  représentent
  l'étalement des

                        S urvi e S (t)
  inclusions
 Signification de la
  durée moyenne de
  suivi ?



                                                                    0   5         10           15

                                                                        T e m p s (m o i s )
Durée moyenne de suivi

 Courbe de survie représentée jusqu'à 12 mois,
    – mais seulement 30% des sujets ont été suivis aussi longtemps
 Valeur de la l'estimation à 1 mois ?


 Il faut :
    – la durée de suivi durant laquelle tous les patients ont été suivis
    – la durée moyenne ou médiane

    – l’estimation de la survie n’est vraiment informative qu’à la médianne de
      survie
Censures non aléatoires


 Correspondent à des




                                          1.0
  perdus de vue ou à des
  sorties d'essais




                                          0.8
                            Survie S(t)
 Non indépendantes du




                                          0.6
  traitement ou de l'état
  du patient

                                          0.4
 Biais dans l'estimation
  de la courbe                            0.2


                                                0   5         10       15

                                                        Temps (mois)
Enox 40mg
    t0 : n=360
    t100 : n=73
    360-73 = 287
    287/360 = 80%
Lecture verticale des courbes de survie

                                      Essai thérapeutique en cancero, nouvelle
100%                                  chimio comparée à chimio standard



50%                               51%
                                            Nouvelle chimio
                                  25%
                                            Chimio standard
 0%
                              3 ans
 Lecture verticale
   – comparaison à un temps donné des taux de survie ou du taux de décès
   – idem analyse à un temps de suivi donné
Lecture horizontale

              100%


                50%
                                                                Nouvelle chimio

                                                                Chimio standard
                0%
                        10 mois      30 mois
 Le temps t50 pour lequel la survie est de 50%
    = médiane des temps de survie
    – 50% des sujets sont DCD, donc ont
       une durée de survie < t50
    – 50% sont VV, donc ont une durée de survie > t50
 Lecture horizontale
    – augmentation de la médiane de survie liée au traitement
Comparaison de 2 courbes

 Test du Logrank
   – hypothèse nulle : les 2 courbes sont superposées
   – test "globalement" si les 2 courbes sont différentes
   – peut être significatif même si la lecture horizontale ou verticale ne l'est
     pas
 Modèle de Cox
   – ajustement multivarié
Modèle de Cox

 Méthode multivariée d'analyse des données de survie
 Permet de faire des ajustements
 coefficients
   – exp(coeff.) = risque relatif instantané
   – facteur multiplicatif de la probabilité de décéder à un instant t


 test H0: coeff.=0 (RR instantané = 1)
   – le facteur modifie t-il la survie ?
Quantification de l'effet traitement

 Rapport des risques instantanés
   – HR (hazard ratio)
   – assimilable à un risque relatif


 Estimable avec
   – le logrank
   – le modèle de Cox
 The median overall survival was 12.3 months in the paclitaxel–
  carboplatin–bevacizumab group, as compared with 10.3
  months in the paclitaxel–carboplatin group (hazard ratio for
  death, 0.79; 95% CI, 0.67 to 0.92; P = 0.003) (Fig. 2A). Survival
  rates were 51% in the paclitaxel–carboplatin–bevacizumab
  group, as compared with 44% in the paclitaxel–carboplatin
  group, at 1 year and 23%, as compared with 15%, respectively,
  at 2 years.
MULTIPLICITÉ DES COMPARAISONS
Répétition des tests

 Plusieurs tests réalisés pour répondre à une même question
   – par exemple plusieurs critère de jugement
 Conclusion à un effet à partir du moment où il existe au moins
  un test significatif
 Le risque de la conclusion est bien supérieure à 5%
   = Inflation du risque alpha


 Rappel, avec un ttt. sans effet,
   – sur 100 tests, il y en aura 5 significatifs (en moyenne)
Contrôle parfait du risque
   1 test               Conclusion              alpha (5%)
(seuil de 5%)




   Test 1

   Test 2
                                                Le risque de conclure à tort est
                        Conclusion              > à 5%
   Test 3
                A partir du moment où au
   Test 4       moins 1 test est significatif
Comparaisons multiples

 Avec un traitement sans efficacité
 en faisant 10 tests statistiques (p.e. 10 essais)
 nous avons 40% de risque de faire au moins une conclusion (à
  tort)


                                      Nb de tests     Risque alpha
                                                         global
                               k          5               0.23

    global     1     1                    10              0.40
                                          20              0.64
                                          50              0.92
Inflation risque alpha

 Situations d’inflation du risque        par répétition des
  comparaisons :
   –   Essai multi-bras (multi doses par exemples)
   –   Absence de critère principal
   –   Analyses en sous groupes
   –   Analyses intermédiaires « non protégées »
   –   Recherche de l’effet répété dans le temps
N Engl J Med 2008;358:1663-71.
The significance level used in the pairwise comparisons
between the groups receiving experimental treatment and the
group receiving standard treatment was 0.017 on the basis of
the Bonferroni correction for multiple comparisons,
corresponding to an overall type I error rate of 0.05.




                                                  N Engl J Med 2008;358:1663-71.
Critère de jugement principal

• Décès de toute cause            Critère principal
• Décès cardiovasculaire            • Décès de toute cause
• Mort subite                     Critères secondaires
• Infarctus                         • Décès cardiovasculaire
• Accident vasculaire cérébraux     • Mort subite
• Chirurgie                         • Infarctus
                                    • Accident vasculaire cérébraux
                                    • Chirurgie                          Définition a priori
        Pas de définition                                              d ’un critère principal
       de critère principal
                                                                      Un seul test statistique
      6 tests statistiques

     Risque de conclure à                                             Risque de conclure à
      tort à l ’efficacité du                                          tort à l ’efficacité du
       traitement = 30%                                                  traitement = 5%
Critère principal

 Conclusion que si le critère principal est significatif
 Critères secondaires : explicatifs
Multiplicité des comparaisons - Exemple




     In women, however (Table 2), a positive effect on BMD was observed
     at several sites (mostly trabecular bone zones), namely the femoral
     neck and the Ward’s triangle in the 60–69 y group, and upper and total
     radius in the 70–79 y group.
Critère principal

 Conclusion que si le critère principal est significatif
 Critères secondaires : explicatifs
Méthode séquentielle hiérarchique

  Permet de faire plusieurs tests                   Test 1
                                                                   NS
                                                                            stop
   statistiques
    – sans inflation du risque alpha
                                                          P<0.05
  Une conclusion est possible pour
   chaque test effectué                                            NS
                                                     Test 2                 stop
  Pour cela
    – les tests sont hiérarchisés a priori
                                                              P<0.05
    – Ils sont effectués ensuite de manière
      séquentielle                                                     NS
        • Le test suivant n’est autorisé que si le   Test 3                 stop
          précédent a été significatif
        • On s’arrête au 1er de la hiérarchie            P<0.05
          non significative
  Les tests peuvent concerner des                                     NS
   critères de jugement ou des sous                  Test 4                 stop
   groupes
Exemple : PLATO
  To address the issue of multiple testing, a hierarchical test sequence was planned. The
  secondary composite efficacy end points were tested individually, in the order in
  which they are listed above, until the first nonsignificant difference was found
  between the two treatment groups. Other treatment comparisons were examined in
  an exploratory manner.
Hiérarchie des critères

 Primary endpoint
 principal secondary efficacy endpoint = primary
    efficacy endpoint in the subgroup of invasive
    management
   composite of death from any cause, myocardial
                                                      Liste critère dans le protocole
    infarction, or stroke;
   composite of death from vascular causes,
    myocardial infarction, stroke, severe recurrent
    cardiac ischemia, recurrent cardiac ischemia,
    transient ischemic attack, or other arterial
    thrombotic events;
   myocardial infarction alone;
   death from cardiovascular causes alone;
   stroke alone;
   death from any cause
Résultat de la démarche hiérarchique de test

                                            1.   Primary endpoint
                                            2.   principal secondary efficacy
                            1                    endpoint = primary efficacy endpoint
                                                 in the subgroup of invasive
                                                 management
                            3               3.   composite of death from any cause,
                                        4        myocardial infarction, or stroke;
                                            4.   composite of death from vascular
                                5                causes, myocardial infarction, stroke,
                                        6        severe recurrent cardiac ischemia,
                        7                        recurrent cardiac ischemia, transient
                                                 ischemic attack, or other arterial
                                                 thrombotic events;
                                            5.   myocardial infarction alone;
                                            6.   death from cardiovascular causes
                                                 alone;
                                            7.   stroke alone;
                                            8.   death from any cause


                                    2
Autres situations de répétition des tests

 mesures répétées au cours du temps
Ajustement pour les critères secondaires

                                              Essai 1         Essai 2
   Infarctus mortels et non mortels           p=0.03          p=0.001
   infarctus non mortels                      p=0.05          p=0.010
  décès par infarctus                         p=0.02          p=0.010
  décès de toute cause                        p=0.06           p=0.03

 Conclusion essai 1
   – pas de démonstration de l'efficacité
 Conclusion essai 2
   – démonstration de l'efficacité de manière statistiquement significative
     (p<0.05)
   – sur les 3 premiers critères de jugement
SOUS GROUPE
On a comparé sur 2 groupes de 120 malades un oxygénateur
cérébral à un placebo.
Le critère d’évaluation principal était évalué par l’échelle
d’appréciation clinique en gériatrie (EACG).
Globalement les résultats ne montraient pas de différence
significative.
Cependant, si l’on éliminait les gens trop anxieux (score
d’Hamilton >18), en ne prenant en compte que les femmes (les
hommes semblent moins répondeurs), la différence devient
hautement significative sur la tranche d’âge 70 à 80 ans, ce qui
montre bien l’activité du produit chez les gens âgés.
Analyse en sous-groupes - Essai non concluant



 Essai                               0.92   NS

 1   Age<75                          0.92   NS
 2   Age>75                          0.95   NS

 3   Hommes                          0.92   NS
 4   Femmes                          0.99   NS

 5   Antécédents d'infarctus         0.87   NS
 6   Pas d'antécédents d'infarctus   1.03   NS

 7   Prise d'aspirine                0.78   p<0.05
 8   Pas d'aspirine                  1.09   NS
Limites- Multiplicité des tests




1   Age<75                    test 1 risque erreur 5%
2   Age>75                    test 2 risque erreur 5%

3   Hommes                    test 3 risque erreur 5%
4   Femmes                    test 4 risque erreur 5%

5   Antécédents d'infarctus   test 5 risque erreur 5%
6   Pas d'ATCD d'infarctus    test 6 risque erreur 5%

7   Prise d'aspirine          test 7 risque erreur 5%
8   Pas d'aspirine            test 8 risque erreur 5%
Analyses en sous groupes - Essai concluant



      Essai                              0.78   p<0.05

      1   Age<75                         0.65   p<0.01
      2   Age>75                         0.90   NS

      3   Hommes                         0.76   p<0.05
      4   Femmes                         0.78   p<0.05

      5   Antécédent d'infarctus         0.97   NS
      6   Pas d'antécédent d'infarctus   0.70   p<0.01

      7   Diabétique                     0.50   p<0.001
      8   Non diabétique                 0.91   p<0.05
Limites des sous groupes - 1




                               Lancet 2005; 365: 176–86
Utilisation correcte des sous groupes
Analyses en sous groupes

 Résultat de nature exploratoire
   – hypothèse non formulée a priori
   – aucune conclusion définitive possible
   – inflation risque alpha et bêta
Sous groupes (suite)

 Résultat global négatif
   – recherche du sous groupe dans lequel le traitement marche
   – comparaisons multiples : inflation du risque alpha
   – approche post hoc
       • l'hypothèse est testée sur les données qui ont permis de la générer


 Résultats global positif
   – recherche des patients chez lequel le traitement ne marche pas
   – inflation risque bêta
   – hypothèse d'absence d'effet
       • donc limite de non infériorité
Hétérogénéité

 Utilisation des sous groupes pour vérifier la stabilité de l'effet
 Test d'interaction
   – RRsg1<>RRsg2
 Aspect cognitif (non décisionnel)
 Génération de nouvelles hypothèses
Elite 2


  Losartan vs
  captopril

  Insuffisance
  cardiaque (NYHA
  2-4 et FE<40%)




Bertram Pitt,
Lancet 2000; 355: 1582–87
CHARM


 candesartan vs placebo on top IEC
 insuffisance cardiaque (NYHA 2-4 et FE<40%)
Exemple

 The objective was to test whether an adequate and well-
  balanced intake of antioxidant nutrients reduces the incidence
  of cancers and ischemic CVD in a middle-aged general
  population.

 A total of 13017 French adults (7876 women aged 35-60 years
  and 5141 men aged 45-60 years) were included.

 Conclusion : After 7.5 years, low-dose antioxidant
  supplementation lowered total cancer incidence and all-cause
  mortality in men but not in women.

                                         Arch Intern Med. 2004; 164:2335-2342
Conception d’un essai - Aspects statistiques

Más contenido relacionado

La actualidad más candente

Molecular biology of colo rectal cancers
Molecular biology of colo rectal cancersMolecular biology of colo rectal cancers
Molecular biology of colo rectal cancersNeha Seth
 
esophageal cancer surgery types and complications
esophageal cancer surgery types and complicationsesophageal cancer surgery types and complications
esophageal cancer surgery types and complicationsved sah
 
Neoadjuvant therapy for esophageal cancer
Neoadjuvant therapy for esophageal cancerNeoadjuvant therapy for esophageal cancer
Neoadjuvant therapy for esophageal cancerhr77
 
Principles of chemotherapy in Gynecologic oncology
Principles of chemotherapy in Gynecologic oncologyPrinciples of chemotherapy in Gynecologic oncology
Principles of chemotherapy in Gynecologic oncologyWonduBelayneh
 
Neoadjuvant or adjuvant immunotherapy in melanoma stage iii
Neoadjuvant or adjuvant immunotherapy in melanoma stage iiiNeoadjuvant or adjuvant immunotherapy in melanoma stage iii
Neoadjuvant or adjuvant immunotherapy in melanoma stage iiiSameer Rastogi
 
Adjuvant therapy in pancreatic cancer.pptx
Adjuvant therapy in pancreatic cancer.pptxAdjuvant therapy in pancreatic cancer.pptx
Adjuvant therapy in pancreatic cancer.pptxSujan Shrestha
 
The best way to treat locally advanced rectal cancer
The best way to treat locally advanced rectal cancerThe best way to treat locally advanced rectal cancer
The best way to treat locally advanced rectal cancerMohamed Abdulla
 
Cervix landmark trials- kiran
Cervix landmark trials- kiran   Cervix landmark trials- kiran
Cervix landmark trials- kiran Kiran Ramakrishna
 
Colon Cancer.pptx
Colon Cancer.pptxColon Cancer.pptx
Colon Cancer.pptxWinstonM3
 

La actualidad más candente (13)

Molecular biology of colo rectal cancers
Molecular biology of colo rectal cancersMolecular biology of colo rectal cancers
Molecular biology of colo rectal cancers
 
esophageal cancer surgery types and complications
esophageal cancer surgery types and complicationsesophageal cancer surgery types and complications
esophageal cancer surgery types and complications
 
Neoadjuvant therapy for esophageal cancer
Neoadjuvant therapy for esophageal cancerNeoadjuvant therapy for esophageal cancer
Neoadjuvant therapy for esophageal cancer
 
Romantismo breve introd
Romantismo breve introdRomantismo breve introd
Romantismo breve introd
 
Principles of chemotherapy in Gynecologic oncology
Principles of chemotherapy in Gynecologic oncologyPrinciples of chemotherapy in Gynecologic oncology
Principles of chemotherapy in Gynecologic oncology
 
TOGA trial
TOGA trialTOGA trial
TOGA trial
 
Neoadjuvant or adjuvant immunotherapy in melanoma stage iii
Neoadjuvant or adjuvant immunotherapy in melanoma stage iiiNeoadjuvant or adjuvant immunotherapy in melanoma stage iii
Neoadjuvant or adjuvant immunotherapy in melanoma stage iii
 
Sarcomi
SarcomiSarcomi
Sarcomi
 
Adjuvant therapy in pancreatic cancer.pptx
Adjuvant therapy in pancreatic cancer.pptxAdjuvant therapy in pancreatic cancer.pptx
Adjuvant therapy in pancreatic cancer.pptx
 
The best way to treat locally advanced rectal cancer
The best way to treat locally advanced rectal cancerThe best way to treat locally advanced rectal cancer
The best way to treat locally advanced rectal cancer
 
Cervix landmark trials- kiran
Cervix landmark trials- kiran   Cervix landmark trials- kiran
Cervix landmark trials- kiran
 
Colon Cancer.pptx
Colon Cancer.pptxColon Cancer.pptx
Colon Cancer.pptx
 
What's Hot in Breast Cancer Treatment
What's Hot in Breast Cancer TreatmentWhat's Hot in Breast Cancer Treatment
What's Hot in Breast Cancer Treatment
 

Destacado

Oficina de Software Libre - How to
Oficina de Software Libre - How toOficina de Software Libre - How to
Oficina de Software Libre - How toJuan J. Merelo
 
Gpm ppt promo_octobre 2014_finale
Gpm ppt promo_octobre 2014_finaleGpm ppt promo_octobre 2014_finale
Gpm ppt promo_octobre 2014_finalesboyard
 
Entretien avec Marc Dal Maso coach des avant du XV du Japon
Entretien avec Marc Dal Maso coach des avant du XV du JaponEntretien avec Marc Dal Maso coach des avant du XV du Japon
Entretien avec Marc Dal Maso coach des avant du XV du JaponMarc De Jongy
 
S3i Analyse de logo précédente nouvelle conception
S3i Analyse de logo précédente nouvelle conceptionS3i Analyse de logo précédente nouvelle conception
S3i Analyse de logo précédente nouvelle conceptionHector Cadena
 
Saisir du texte dans les cellules de Microsoft Excel
Saisir du texte dans les cellules de Microsoft ExcelSaisir du texte dans les cellules de Microsoft Excel
Saisir du texte dans les cellules de Microsoft ExcelPrénom Nom de famille
 
Etude iPad Kreactive Technologies / Altics
Etude iPad Kreactive Technologies / AlticsEtude iPad Kreactive Technologies / Altics
Etude iPad Kreactive Technologies / AlticsKreactive
 
Tableau évolution des comptes chauffeurs
Tableau évolution des comptes chauffeursTableau évolution des comptes chauffeurs
Tableau évolution des comptes chauffeursy0chi
 
Doctorat Persuasion Publicitaire, Stephanie Herault, Universite de Paris 1
Doctorat Persuasion Publicitaire, Stephanie Herault, Universite de Paris 1Doctorat Persuasion Publicitaire, Stephanie Herault, Universite de Paris 1
Doctorat Persuasion Publicitaire, Stephanie Herault, Universite de Paris 1Stéphanie Hérault
 
Diaporama sur la ville de Nantes
Diaporama sur la ville de NantesDiaporama sur la ville de Nantes
Diaporama sur la ville de NantesFreeSong
 
Mejora continua - Daniel Cruz
Mejora continua - Daniel CruzMejora continua - Daniel Cruz
Mejora continua - Daniel CruzDaniel Cruz
 
Protocolo diagnóstico y terapéutico de la diverticulitis aguda
Protocolo diagnóstico y terapéutico de la diverticulitis agudaProtocolo diagnóstico y terapéutico de la diverticulitis aguda
Protocolo diagnóstico y terapéutico de la diverticulitis agudaSERAUWEB
 
Uso de las TIC en Educación Primaria
Uso de las TIC en Educación PrimariaUso de las TIC en Educación Primaria
Uso de las TIC en Educación PrimariaPalomayCristina
 
Services client et vente : ce que vous ignorez peut vous coûter cher
Services client et vente : ce que vous ignorez peut vous coûter cherServices client et vente : ce que vous ignorez peut vous coûter cher
Services client et vente : ce que vous ignorez peut vous coûter cherSalesforce France
 
Wéziens : #INDESTRUCTIBLE!
Wéziens : #INDESTRUCTIBLE! Wéziens : #INDESTRUCTIBLE!
Wéziens : #INDESTRUCTIBLE! SAINT-WITZ DEMAIN
 

Destacado (20)

Tutoriel Mendeley 1.8
Tutoriel Mendeley 1.8Tutoriel Mendeley 1.8
Tutoriel Mendeley 1.8
 
Oficina de Software Libre - How to
Oficina de Software Libre - How toOficina de Software Libre - How to
Oficina de Software Libre - How to
 
Bienvenue à flanders lane !
Bienvenue à flanders lane !Bienvenue à flanders lane !
Bienvenue à flanders lane !
 
Gpm ppt promo_octobre 2014_finale
Gpm ppt promo_octobre 2014_finaleGpm ppt promo_octobre 2014_finale
Gpm ppt promo_octobre 2014_finale
 
Entretien avec Marc Dal Maso coach des avant du XV du Japon
Entretien avec Marc Dal Maso coach des avant du XV du JaponEntretien avec Marc Dal Maso coach des avant du XV du Japon
Entretien avec Marc Dal Maso coach des avant du XV du Japon
 
S3i Analyse de logo précédente nouvelle conception
S3i Analyse de logo précédente nouvelle conceptionS3i Analyse de logo précédente nouvelle conception
S3i Analyse de logo précédente nouvelle conception
 
Saisir du texte dans les cellules de Microsoft Excel
Saisir du texte dans les cellules de Microsoft ExcelSaisir du texte dans les cellules de Microsoft Excel
Saisir du texte dans les cellules de Microsoft Excel
 
Etude iPad Kreactive Technologies / Altics
Etude iPad Kreactive Technologies / AlticsEtude iPad Kreactive Technologies / Altics
Etude iPad Kreactive Technologies / Altics
 
Tableau évolution des comptes chauffeurs
Tableau évolution des comptes chauffeursTableau évolution des comptes chauffeurs
Tableau évolution des comptes chauffeurs
 
Doctorat Persuasion Publicitaire, Stephanie Herault, Universite de Paris 1
Doctorat Persuasion Publicitaire, Stephanie Herault, Universite de Paris 1Doctorat Persuasion Publicitaire, Stephanie Herault, Universite de Paris 1
Doctorat Persuasion Publicitaire, Stephanie Herault, Universite de Paris 1
 
Diaporama sur la ville de Nantes
Diaporama sur la ville de NantesDiaporama sur la ville de Nantes
Diaporama sur la ville de Nantes
 
Tendencias TIC para las MiPyME
Tendencias TIC para las MiPyME Tendencias TIC para las MiPyME
Tendencias TIC para las MiPyME
 
Mejora continua - Daniel Cruz
Mejora continua - Daniel CruzMejora continua - Daniel Cruz
Mejora continua - Daniel Cruz
 
Protocolo diagnóstico y terapéutico de la diverticulitis aguda
Protocolo diagnóstico y terapéutico de la diverticulitis agudaProtocolo diagnóstico y terapéutico de la diverticulitis aguda
Protocolo diagnóstico y terapéutico de la diverticulitis aguda
 
Realismo
RealismoRealismo
Realismo
 
Uso de las TIC en Educación Primaria
Uso de las TIC en Educación PrimariaUso de las TIC en Educación Primaria
Uso de las TIC en Educación Primaria
 
Services client et vente : ce que vous ignorez peut vous coûter cher
Services client et vente : ce que vous ignorez peut vous coûter cherServices client et vente : ce que vous ignorez peut vous coûter cher
Services client et vente : ce que vous ignorez peut vous coûter cher
 
rapport-Ouganda
rapport-Ougandarapport-Ouganda
rapport-Ouganda
 
Wéziens : #INDESTRUCTIBLE!
Wéziens : #INDESTRUCTIBLE! Wéziens : #INDESTRUCTIBLE!
Wéziens : #INDESTRUCTIBLE!
 
La doc au fil du temps
La doc au fil du tempsLa doc au fil du temps
La doc au fil du temps
 

Conception d’un essai - Aspects statistiques

  • 1. Conception d’un essai Aspects statistiques Michel Cucherat Ce(tte) œuvre est mise à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Partage dans les Mêmes Conditions 3.0 France
  • 2. But à atteindre  Un effet démontré par un résultat statistiquement significatif sans inflation du risque alpha  Cela nécessite de prévoir – Une absence de multiplicité des comparaisons – Ou une procédure de contrôle du risque alpha lors de comparaisons multiples – Un effectif suffisant pour garantir une puissance satisfaisante à l’essai
  • 3. Fluctuations aléatoires Échantillon 1 48% Échantillon 2 52% Obtenir pile à pile ou face (Probabilité = 50%) Échantillon 3 50% Échantillon 4 45%
  • 4. Fluctuations aléatoires Échantillon 1 9% Échantillon 2 12% Même type de patients (Probabilité d'AVC = 12%) Échantillon 3 16% Échantillon 4 26%
  • 5.  Conséquences pour la comparaison de 2 échantillons – les proportions observées dans 2 échantillons peuvent être différentes – uniquement du fait du hasard – même si dans ces 2 échantillons la vraie probabilité était la même  les FAE sont susceptibles de fausser les comparaisons
  • 6. Conséquences des fluctuations Effet du traitement = 0 Vrai risque = 10% Vrai risque = 10% Groupe T+ Groupe T- Risque observé = 6% Risque observé = 12% Différence observée = -6%
  • 7. Problématique des comparaisons  Quand on ignore la réalité, la différence observée de -6% est-elle ? – une manifestation des fluctuations aléatoires, donc due uniquement au hasard – la traduction d’une réelle différence entre les deux groupes, donc d’un effet non nul du traitement  Comment départager ces 2 possibilités ?  Solution : test statistique .
  • 8. But des comparaisons  Quel est le but des comparaisons ? Grp T Conclure à l'existence Décider d'utiliser le diff -6% d'une différence nouveau traitement Grp C La conclusion doit être conforme à la réalité mais elle se base uniquement sur l’observé
  • 9. Effets des fluctuations dans une comparaison  Le hasard peut faire apparaître une différence qui n'existe pas en réalité  Inversement, le hasard peut réduire une différence qui existe réellement  donc 2 façons de fausser la conclusion
  • 10. Erreur statistique alpha  Conclure à l'existence d'une différence qui n'existe pas en réalité : faux positif Échantillon 1 7.5% Différence Vrai valeur non réelle 12% Échantillon 2 15%
  • 11. Erreur statistique bêta  Ne pas conclure à une différence qui existe pourtant en réalité : faux négatif Vrai valeur Échantillon 1 12% 15% Fausse absence de différence Vrai valeur Échantillon 2 19% 15%
  • 12. Conclusion Différence Pas de différence Différence Erreur bêta Réalité Pas de différence Erreur alpha
  • 13. Application à l’essai thérapeutique  Risque alpha : considérer comme efficace un traitement qui ne l’est pas  Risque bêta : ne pas conclure alors que le traitement est efficace  Puissance : montrer l’efficacité d’un traitement réellement efficace
  • 14. Tests statistiques  Outils d'aide à la décision  Principe – conclure à une différence – que si le risque de faire une erreur (de première espèce) est faible  Quantification du risque d'erreur alpha – à partir des données disponibles  (Risque de commettre une erreur alpha = risque alpha)
  • 15. Démarche du test statistique  Calcul de la probabilité p – p : probabilité que "la différence observée soit due uniquement au hasard"  p représente le risque de faire une conclusion erronée si l'on décidait de conclure  p est une quantification du risque alpha  On ne conclut que si ce risque d'erreur est suffisamment petit
  • 16. 5% ?  Un risque de 5% est-il acceptable pour décider de l'utilisation d'un traitement  Exigence réglementaire de 2 essais significatifs – alpha de la décision 5%*5%=2.5/1000
  • 17. CRITÈRE DE JUGEMENT COMPOSITE
  • 18. Exemples  Événements coronariens majeurs (« MACE Major Coronary Events ») : décès, infarctus, nécessité de revascularisation  Survie sans progression : durée jusqu’au critère composite décès ou progression de la maladie nécessitant un traitement (chirurgie)
  • 19. Intérêts  regrouper des équivalents du même phénomène clinique.  mesurer directement le rapport bénéfice/risque  sensibiliser la recherche d'un effet,
  • 20. Interprétation 1 Décès Ev non mortels Crit. composite 0.4 0.6 0.8 1.0 1.2 1.4 1.6 Risque relatif
  • 21. Interprétation 2 Décès Ev non mortels Crit. composite 0.4 0.6 0.8 1.0 1.2 1.4 1.6 Risque relatif
  • 22. Interprétation 3 Décès Ev non mortels Crit. composite 0.4 0.6 0.8 1.0 1.2 1.4 1.6 Risque relatif
  • 23. Exemple Benestent Angioplasty Stent Relative risk n=410 n=413 (95%) Death 1 2 Q-wave myocardial 7 5 infarction Non Q-wave myocardial 6 10 infarction Coronary artery bypass 6 6 surgery Repeat PTCA 56 33 0,67 Composite endpoint 79 53 (0,48;0,92)
  • 24.
  • 25. CARDS
  • 28. Analyses intermédiaires  en cours d’essai, avant que tous les patients prévus aient été recrutés  et/ou avant la fin de la période de suivi initialement prévue  But arrêter prématurément – pour efficacité – pour toxicité – pour futilité
  • 29. Ajustement du seuil de signification  Méthode de Bonferroni – Pour k comparaisons, le seuil ajusté est : saj – Pour k=3, saj = 5% / 3 = 1.67% k – Quand est petit, k 1 1 k k 1 1 k – Donc pour conserver un risque alpha global de 5% : k 0.05 0.05 k – Inconvénient : fait l’hypothèse d’une stricte indépendance des variables testées  méthode conservatrice
  • 30. Cas 1 Analyse intermédiaire Analyse 1 2 3 finale p = 0.10 p = 0.011  3 analyses intermédiaires + 1 analyse finale = 4 comparaisons s 5% / 4 1.25%  Arrêt prématuré de l’essai aj
  • 31. Cas 2 Analyse intermédiaire Analyse 1 2 3 finale p = 0.25 p = 0.08 p = 0.04 p = 0.01  Pas d’arrêt prématuré mais conclusion à l’efficacité
  • 32. Cas 3 Analyse intermédiaire Analyse 1 2 3 finale p = 0.42 p = 0.28 p = 0.12 p = 0.04  Pas d’arrêt prématuré et résultat non significatif (p=4%>saj)
  • 33. Cas 4 Analyse intermédiaire Analyse 1 2 3 finale P = 0.89 p = 0.48 p = 0.25 p = 0.10  Résultat non significatif
  • 34. Autres méthodes Méthode Analyses intermédiaires Analyse 1 2 3 4 finale Pocock 0.017 0.017 0.017 0.017 0.017 O’Brien et 0.00005 0.004 0.012 0.025 0.04 Flemming Lan et 0.015 0.016 0.017 0.018 0.019 Demets 1 Lan et 0.00001 0.002 0.011 0.025 0.041 Demets 2 Peto 0.001 0.001 0.001 0.001 0.05  Fonctions de dépenses du risque alpha
  • 35. P ajusté paj pk  Problème : différents p donnés par les tests – exemple : 0.01, 0.02, 0.20  Problème de l'intervalle de confiance
  • 36. Méthode séquentielle  Analyse en continue  Test triangulaire
  • 37. CARDS  interim analysis when 25%, 50%, and 75% of the total anticipated primary endpoints had accrued.  The interim analyses used an asymmetric (Peto-Haybittle) type rule and we prespecified that the board might advise termination if a significant difference emerged – in favour of atorvastatin (at p<0·0005 one-sided, p<0·001 twosided at any analysis) or – in favour of placebo (at p<0·005, 0·1, and 0·2 one-sided, for the three interim analyses, respectively).  At the second interim analysis a significant difference was reported in favour of atorvastatin at p<0·001 (two-sided)
  • 38. CARDS
  • 40. Puissance  Aptitude d'une comparaison à mettre en évidence une différence qui existe réellement  Pour une situation donnée, dépend du nombre de sujets  1-β  β ne se calcule pas comme le p  Conditionnée par le nombre de sujets  Calcul du nombre de sujets +++
  • 41. Conséquences d'une puissance insuffisante  Forte probabilité d'obtenir un résultat négatif (différence non significative) – coût  Force de conviction faible des petits essais – partie visible de l'iceberg  Difficulté d'interprétation d'une différence non significative
  • 42.  Calcul a priori du nombre de sujets nécessaires – pour garantir une puissance élevée (80 - 95%)  Le calcul dépend – de alpha (5%) – de la puissance recherchée (90%) – de la différence à mettre en évidence (vrai effet) – de la fréquence de l'événement r0 (dans le groupe placebo)  nécessaire de faire des hypothèses sur r0 et le vrai effet – car inconnu avant de recueillir les observations
  • 43.  La démarche est spéculative – si le vrai effet du traitement est de -7% – si la fréquence r0 est de 10% – un nombre de sujets de 578 – donne une puissance de 90% • l'essai a 90% de chance de mettre en évidence cet effet  Mais si en réalité – le vrai effet est plus petit – ou r0 < 10% – la probabilité d'obtenir un résultat significatif est < 90%
  • 44. Influence du nombre de sujets  La signification statistique et la valeur de p – dépend du nombre de sujets (observations) n  p1=7% p0=13% – n=100 p = 0.56 (NS) – n=1000 p = 0.01 (p<0.05)  Visualisation avec les IC n=100 NS n=1000 P<0.05 Différence -6% 0
  • 45. Taille de l'effet 100% 75% Puissance 50% 25% 0% 0.4 0.5 0.6 0.7 0.8 0.9 1 Taille de l'effet (risque relatif)
  • 46. N 100% 75% Puissance 50% 25% 0% 0 1000 2000 3000 4000 5000 Nombre de sujets par groupe
  • 47. Risque de base 100% 75% Puissance 50% 25% 0% 0 0.1 0.2 0.3 0.4 0.5 0.6 Risque de base
  • 49. Pertinence clinique  Signification statistique pertinence clinique  Réduction de mortalité de 25% à 12%, p<0.05 – réduction statistiquement significative – pertinente cliniquement  Réduction de mortalité de 2.3% à 2.1%, p<0.05 – réduction statistiquement significative – peu pertinente cliniquement
  • 50. Intervalle de confiance  Différence = -6%  IC 95% = [-8%;-4%]  L’intervalle *-8%;-4%] à 95% de chance de contenir la vraie valeur de la différence  reflète l'incertitude de l'estimation  Il n'est pas possible d'exclure que le vrai effet ne soit que de - 4% – situation la pire – efficacité plus faible que les -6% de l'estimation ponctuelle
  • 51. Interprétation des IC  ensemble des valeurs raisonnablement possibles pour la vraie moyenne  il est raisonnable de parier que la vraie valeur est dans l'intervalle (prob de 95%)  95% = degré de confiance  il est peu probable (prob 5%) – que la vraie valeur soit > à bs – ou que la vraie valeur soit < à bi – il est donc peu raisonnable de parier que la vraie valeur soit à l'extérieur de l'IC
  • 52. Relation entre IC et test -5% [-10%,-2%] P<0.05 -2% [-9%;+2%] NS Différence 0
  • 53. Intervalle de confiance - test statistique -7.5% -5.0% -2.5% 0.0% 2.5% 5%
  • 54. Nombre de sujets et largeur de l'IC -15.0% -10.0% -5.0% 0.0% 5.0% 100 200 300 400
  • 55. Rôle de la vraie valeur -20.0% -15.0% -10.0% -5.0% 0.0% 5.0% -2% -5% -10%
  • 56. Intervalles de confiance Essai A Essai B Essai C Essai D Essai E 0.40 0.60 0.80 1.00 1.20 1.40 Risque relatif
  • 58. Exposé de la problématique 25 25 Groupe 1 Groupe 2 20 20 Y Y 15 15 10 10 5 5 G1 G2 2 4 6 8 10 Groupe Covariable
  • 59. Exposé de la problématique 2 25 25 Groupe 1 Groupe 2 20 20 Y Y 15 15 10 10 5 5 G1 G2 2 4 6 8 10 Groupe Covariable
  • 60. Ajustement  L'ajustement consiste à corriger un résultat des effets parasites induits par des covariables influençant aussi le critère de jugement  Réaliser la recherche de l'effet du traitement en ajustant sur un autre facteur
  • 61. Intérêts  Augmenter la précision de l'estimation  Supprimer l'effet des facteurs de confusion
  • 62. Augmenter la précision a b 18 16 14 12 Y 10 8 6 4 y1 y0 1 2 3 4 5 6 Groupe Covariable
  • 63. Augmenter la précision de l'estimation Décès / n RR G. p G. traité [IC 95%] contrôle 5 / 200 10 / 200 0,50 bon pronostic - 2,5% 5,0% [0,17 ; 1,44] mauvais 6 / 20 12 / 20 0,50 - pronostic 30% 60% [0,23 ; 1,07] Analyse non 11 / 220 22 / 220 0,50 p= ajustée 5% 10% [0,25 ; 1,01] 0,052 0,50 p= Analyse ajustée - - [0,27 ; 0,93] 0,027
  • 64. Supprimer l'effet des facteurs de confusion Décès / n RR G. p G. traité [IC 95%] contrôle mauvais 35 / 141 30 / 61 0,50 - pronostique 25% 49% [0,34 ; 0,74] 3 / 59 14 / 138 0,50 bon pronostique - 5% 10% [0,15 ; 1,68] Analyse non 38 / 200 44 / 199 0,86 NS ajustée 19% 22% [0,58 ; 1,27] 0,50 p< Analyse ajustée - - [0,35 ; 0,73] 0,001
  • 65. Supprimer l'effet des facteurs de confusion - stratification Décès / n RR G. p G. traité [IC 95%] contrôle mauvais 37 / 150 74 / 150 0,50 - pronostique 25% 50% [0,36 ; 0,69] 2 / 50 4 / 50 0,50 bon pronostique - 4% 8% [0,10 ; 2,60] Analyse non 39 / 200 78 / 199 0,50 0.0004 ajustée 19% 22% [0,36 ; 0,70] 0,50 p< Analyse ajustée - - [0,35 ; 0,73] 0,001
  • 66. En pratique  Risque de sur-ajustement en cas de – ajustement sur les variables déséquilibrées entre les groupes – choix post hoc  Ajustement – Sur des variables pronostiques connues – défini a priori
  • 67. ANALYSE DES DONNÉES DE SURVIE
  • 68. Données de survie  Objectif : montrer que le traitement recul le moment de survenue du décès (ou de n'importe quel événement)  comparaison des temps moyens de survie  Nécessite de suivre tous les patients jusqu'au décès – quasiment impossible  A la fin de l'étude, une proportion variable de sujets sont toujours vivants
  • 69.  Durée moyenne de survie – moyenne des durées de survie de chaque patient de l'échantillon  Exemple – n = 4 : 6 mois, 2 ans, 3 ans, 10 ans – moyenne = 3,9 ans – analyse impossible avant 10 ans !!! – Moyenne des données partielles est fausse (sous estime) • Calcul à 3 ans (3 décès / 4) = 1.83 ans
  • 70. Calcul de la fréquence des décès  Durées de suivi variables  Les patients sont suivis + ou - longtemps  Calcul de la fréquence des décès à un temps donné problématique – sous estime la mortalité  Solution partielle – raisonnement en patients années – sous entend que le nombre de décès est proportionnel au temps d'observation --> Faux
  • 71.  En pratique – suivi des patients sur une certaine période calendaire – arrêt du suivi à une date de point – détermination de l'état (VV ou DCD) à la date de point – 2 types de données • patients DCD avant la date de point : durée de survie • patients toujours vivant à la date de point  Censure du suivi – patient VV à la date de point – suivi censuré avant la survenue du décès
  • 72. Référentiel initial des données  Temps calendaire DC VV DC VV Calendrier 2001 2002 Date de point – les durées de suivi des censurés dépendent du recul (inclusion du patient - date de point)
  • 73. Temps de survie  Abscisse = temps de survie après inclusion DC VV DC VV Temps t=0 – pour chaque patient : durée de suivie ou de survie à partir de son t = 0 (inclusion)
  • 74.  Autre source de censure : les perdus de vue – patients impossibles à contacter à la date de point – état à la date de point inconnu – date de dernières nouvelles (< date de point) • censure à cette date
  • 75. Les différents types de censures 3 DC 2 DC 1 DC temps Période de suivi Fin du suivi
  • 76. Courbe de survie  Estimation suivant la méthode de Kaplan Meier – prise en compte des suivis censurés pour la période de temps où ils sont informatifs – le nb de patients pris en compte diminue au cours du temps au fur et à mesure des censures
  • 77. Estimateur de Kaplan Meier 0.8 Survie S(t) 0.4 0.0 0 2 4 6 8 10 12 Temps (an)
  • 78.  Courbe en escalier – la survie ne change que lorsque survient un décès S(t) Décès 100% Censure 90% t
  • 79. Précision de l'estimation 0.0 0.2 0.4 0.6 0.8 1.0  Intervalle de confiance à 95% S urvie S (t) 0 1 2 3 4 5 Tem ps (an)
  • 80.
  • 81. Conséquence des censures  Diminution de la quantité d'information – une censure est non informative pour la durée de survie – mais il est partiellement informatif • (durée de survie au moins égale à x) – Perte de précision • la précision diminue au fur et à mesure de l'accumulation des censures  Biais – Les différents types de censure • perdus de vue • censures à la date de point – ne vont pas avoir les mêmes conséquences sur l'estimation en terme de biais
  • 82. Essai à durée de suivi fixe Premier patient 1 an de suivi Dernier patient Période d'inclusion 1 an de suivi temps
  • 83. Essai à date de point Date de fin Premier patient Dernier patient Période d'inclusion temps
  • 84. Cas mixte Date de fin Premier patient Dernier patient Période d'inclusion temps
  • 85. Essai à durée de suivi fixe (ou mixte)  Censures sont liées à la 1.0 fin de l'essai  L'étalement des 0.8 Survie S(t) censures correspond à 0.6 l'étalement des inclusions  elles ne faussent pas la 0.4 partie de la courbe où il 0.2 n’y a pas de censure 0 5 10 15 Temps (mois)
  • 86. Essai à date de point  Censures 0 .2 0 .4 0 .6 0 .8 1 .0 représentent l'étalement des S urvi e S (t) inclusions  Signification de la durée moyenne de suivi ? 0 5 10 15 T e m p s (m o i s )
  • 87.
  • 88. Durée moyenne de suivi  Courbe de survie représentée jusqu'à 12 mois, – mais seulement 30% des sujets ont été suivis aussi longtemps  Valeur de la l'estimation à 1 mois ?  Il faut : – la durée de suivi durant laquelle tous les patients ont été suivis – la durée moyenne ou médiane – l’estimation de la survie n’est vraiment informative qu’à la médianne de survie
  • 89. Censures non aléatoires  Correspondent à des 1.0 perdus de vue ou à des sorties d'essais 0.8 Survie S(t)  Non indépendantes du 0.6 traitement ou de l'état du patient 0.4  Biais dans l'estimation de la courbe 0.2 0 5 10 15 Temps (mois)
  • 90. Enox 40mg t0 : n=360 t100 : n=73 360-73 = 287 287/360 = 80%
  • 91.
  • 92. Lecture verticale des courbes de survie Essai thérapeutique en cancero, nouvelle 100% chimio comparée à chimio standard 50% 51% Nouvelle chimio 25% Chimio standard 0% 3 ans  Lecture verticale – comparaison à un temps donné des taux de survie ou du taux de décès – idem analyse à un temps de suivi donné
  • 93. Lecture horizontale 100% 50% Nouvelle chimio Chimio standard 0% 10 mois 30 mois  Le temps t50 pour lequel la survie est de 50% = médiane des temps de survie – 50% des sujets sont DCD, donc ont une durée de survie < t50 – 50% sont VV, donc ont une durée de survie > t50  Lecture horizontale – augmentation de la médiane de survie liée au traitement
  • 94. Comparaison de 2 courbes  Test du Logrank – hypothèse nulle : les 2 courbes sont superposées – test "globalement" si les 2 courbes sont différentes – peut être significatif même si la lecture horizontale ou verticale ne l'est pas  Modèle de Cox – ajustement multivarié
  • 95.
  • 96.
  • 97. Modèle de Cox  Méthode multivariée d'analyse des données de survie  Permet de faire des ajustements  coefficients – exp(coeff.) = risque relatif instantané – facteur multiplicatif de la probabilité de décéder à un instant t  test H0: coeff.=0 (RR instantané = 1) – le facteur modifie t-il la survie ?
  • 98. Quantification de l'effet traitement  Rapport des risques instantanés – HR (hazard ratio) – assimilable à un risque relatif  Estimable avec – le logrank – le modèle de Cox
  • 99.
  • 100.
  • 101.  The median overall survival was 12.3 months in the paclitaxel– carboplatin–bevacizumab group, as compared with 10.3 months in the paclitaxel–carboplatin group (hazard ratio for death, 0.79; 95% CI, 0.67 to 0.92; P = 0.003) (Fig. 2A). Survival rates were 51% in the paclitaxel–carboplatin–bevacizumab group, as compared with 44% in the paclitaxel–carboplatin group, at 1 year and 23%, as compared with 15%, respectively, at 2 years.
  • 102.
  • 104. Répétition des tests  Plusieurs tests réalisés pour répondre à une même question – par exemple plusieurs critère de jugement  Conclusion à un effet à partir du moment où il existe au moins un test significatif  Le risque de la conclusion est bien supérieure à 5% = Inflation du risque alpha  Rappel, avec un ttt. sans effet, – sur 100 tests, il y en aura 5 significatifs (en moyenne)
  • 105. Contrôle parfait du risque 1 test Conclusion alpha (5%) (seuil de 5%) Test 1 Test 2 Le risque de conclure à tort est Conclusion > à 5% Test 3 A partir du moment où au Test 4 moins 1 test est significatif
  • 106. Comparaisons multiples  Avec un traitement sans efficacité  en faisant 10 tests statistiques (p.e. 10 essais)  nous avons 40% de risque de faire au moins une conclusion (à tort) Nb de tests Risque alpha global k 5 0.23 global 1 1 10 0.40 20 0.64 50 0.92
  • 107. Inflation risque alpha  Situations d’inflation du risque par répétition des comparaisons : – Essai multi-bras (multi doses par exemples) – Absence de critère principal – Analyses en sous groupes – Analyses intermédiaires « non protégées » – Recherche de l’effet répété dans le temps
  • 108. N Engl J Med 2008;358:1663-71.
  • 109. The significance level used in the pairwise comparisons between the groups receiving experimental treatment and the group receiving standard treatment was 0.017 on the basis of the Bonferroni correction for multiple comparisons, corresponding to an overall type I error rate of 0.05. N Engl J Med 2008;358:1663-71.
  • 110. Critère de jugement principal • Décès de toute cause Critère principal • Décès cardiovasculaire • Décès de toute cause • Mort subite Critères secondaires • Infarctus • Décès cardiovasculaire • Accident vasculaire cérébraux • Mort subite • Chirurgie • Infarctus • Accident vasculaire cérébraux • Chirurgie Définition a priori Pas de définition d ’un critère principal de critère principal Un seul test statistique 6 tests statistiques Risque de conclure à Risque de conclure à tort à l ’efficacité du tort à l ’efficacité du traitement = 30% traitement = 5%
  • 111. Critère principal  Conclusion que si le critère principal est significatif  Critères secondaires : explicatifs
  • 112. Multiplicité des comparaisons - Exemple In women, however (Table 2), a positive effect on BMD was observed at several sites (mostly trabecular bone zones), namely the femoral neck and the Ward’s triangle in the 60–69 y group, and upper and total radius in the 70–79 y group.
  • 113. Critère principal  Conclusion que si le critère principal est significatif  Critères secondaires : explicatifs
  • 114.
  • 115. Méthode séquentielle hiérarchique  Permet de faire plusieurs tests Test 1 NS stop statistiques – sans inflation du risque alpha P<0.05  Une conclusion est possible pour chaque test effectué NS Test 2 stop  Pour cela – les tests sont hiérarchisés a priori P<0.05 – Ils sont effectués ensuite de manière séquentielle NS • Le test suivant n’est autorisé que si le Test 3 stop précédent a été significatif • On s’arrête au 1er de la hiérarchie P<0.05 non significative  Les tests peuvent concerner des NS critères de jugement ou des sous Test 4 stop groupes
  • 116. Exemple : PLATO To address the issue of multiple testing, a hierarchical test sequence was planned. The secondary composite efficacy end points were tested individually, in the order in which they are listed above, until the first nonsignificant difference was found between the two treatment groups. Other treatment comparisons were examined in an exploratory manner.
  • 117. Hiérarchie des critères  Primary endpoint  principal secondary efficacy endpoint = primary efficacy endpoint in the subgroup of invasive management  composite of death from any cause, myocardial Liste critère dans le protocole infarction, or stroke;  composite of death from vascular causes, myocardial infarction, stroke, severe recurrent cardiac ischemia, recurrent cardiac ischemia, transient ischemic attack, or other arterial thrombotic events;  myocardial infarction alone;  death from cardiovascular causes alone;  stroke alone;  death from any cause
  • 118. Résultat de la démarche hiérarchique de test 1. Primary endpoint 2. principal secondary efficacy 1 endpoint = primary efficacy endpoint in the subgroup of invasive management 3 3. composite of death from any cause, 4 myocardial infarction, or stroke; 4. composite of death from vascular 5 causes, myocardial infarction, stroke, 6 severe recurrent cardiac ischemia, 7 recurrent cardiac ischemia, transient ischemic attack, or other arterial thrombotic events; 5. myocardial infarction alone; 6. death from cardiovascular causes alone; 7. stroke alone; 8. death from any cause 2
  • 119. Autres situations de répétition des tests  mesures répétées au cours du temps
  • 120. Ajustement pour les critères secondaires Essai 1 Essai 2 Infarctus mortels et non mortels p=0.03 p=0.001 infarctus non mortels p=0.05 p=0.010 décès par infarctus p=0.02 p=0.010 décès de toute cause p=0.06 p=0.03  Conclusion essai 1 – pas de démonstration de l'efficacité  Conclusion essai 2 – démonstration de l'efficacité de manière statistiquement significative (p<0.05) – sur les 3 premiers critères de jugement
  • 122. On a comparé sur 2 groupes de 120 malades un oxygénateur cérébral à un placebo. Le critère d’évaluation principal était évalué par l’échelle d’appréciation clinique en gériatrie (EACG). Globalement les résultats ne montraient pas de différence significative. Cependant, si l’on éliminait les gens trop anxieux (score d’Hamilton >18), en ne prenant en compte que les femmes (les hommes semblent moins répondeurs), la différence devient hautement significative sur la tranche d’âge 70 à 80 ans, ce qui montre bien l’activité du produit chez les gens âgés.
  • 123. Analyse en sous-groupes - Essai non concluant Essai 0.92 NS 1 Age<75 0.92 NS 2 Age>75 0.95 NS 3 Hommes 0.92 NS 4 Femmes 0.99 NS 5 Antécédents d'infarctus 0.87 NS 6 Pas d'antécédents d'infarctus 1.03 NS 7 Prise d'aspirine 0.78 p<0.05 8 Pas d'aspirine 1.09 NS
  • 124. Limites- Multiplicité des tests 1 Age<75 test 1 risque erreur 5% 2 Age>75 test 2 risque erreur 5% 3 Hommes test 3 risque erreur 5% 4 Femmes test 4 risque erreur 5% 5 Antécédents d'infarctus test 5 risque erreur 5% 6 Pas d'ATCD d'infarctus test 6 risque erreur 5% 7 Prise d'aspirine test 7 risque erreur 5% 8 Pas d'aspirine test 8 risque erreur 5%
  • 125. Analyses en sous groupes - Essai concluant Essai 0.78 p<0.05 1 Age<75 0.65 p<0.01 2 Age>75 0.90 NS 3 Hommes 0.76 p<0.05 4 Femmes 0.78 p<0.05 5 Antécédent d'infarctus 0.97 NS 6 Pas d'antécédent d'infarctus 0.70 p<0.01 7 Diabétique 0.50 p<0.001 8 Non diabétique 0.91 p<0.05
  • 126. Limites des sous groupes - 1 Lancet 2005; 365: 176–86
  • 127. Utilisation correcte des sous groupes
  • 128.
  • 129. Analyses en sous groupes  Résultat de nature exploratoire – hypothèse non formulée a priori – aucune conclusion définitive possible – inflation risque alpha et bêta
  • 130. Sous groupes (suite)  Résultat global négatif – recherche du sous groupe dans lequel le traitement marche – comparaisons multiples : inflation du risque alpha – approche post hoc • l'hypothèse est testée sur les données qui ont permis de la générer  Résultats global positif – recherche des patients chez lequel le traitement ne marche pas – inflation risque bêta – hypothèse d'absence d'effet • donc limite de non infériorité
  • 131. Hétérogénéité  Utilisation des sous groupes pour vérifier la stabilité de l'effet  Test d'interaction – RRsg1<>RRsg2  Aspect cognitif (non décisionnel)  Génération de nouvelles hypothèses
  • 132.
  • 133.
  • 134. Elite 2 Losartan vs captopril Insuffisance cardiaque (NYHA 2-4 et FE<40%) Bertram Pitt, Lancet 2000; 355: 1582–87
  • 135. CHARM  candesartan vs placebo on top IEC  insuffisance cardiaque (NYHA 2-4 et FE<40%)
  • 136. Exemple  The objective was to test whether an adequate and well- balanced intake of antioxidant nutrients reduces the incidence of cancers and ischemic CVD in a middle-aged general population.  A total of 13017 French adults (7876 women aged 35-60 years and 5141 men aged 45-60 years) were included.  Conclusion : After 7.5 years, low-dose antioxidant supplementation lowered total cancer incidence and all-cause mortality in men but not in women. Arch Intern Med. 2004; 164:2335-2342