SlideShare una empresa de Scribd logo
1 de 39
12.09.2013 1
Warum 99% der A/B Tests
fehlerhaft sind
Andreas Korsus
Marketing Technologist 4 Statistische Fehler, die (fast) jeder macht
Andreas Korsus12.09.2013 3
1. Fehler
Split URL Tests mit
JavaScript Lösungen
Andreas Korsus12.09.2013 4
Bedeutung der Geschwindigkeit
+100 ms  -1% Verkäufe
Greg Linden,
über Amazon
+500ms  -20% Traffic
Marissa Meyer
über Google
Zeit
Zeit
Wie lange dauert das?
Zeit
Wie lange dauert das?
50-1000ms
Andreas Korsus12.09.2013 8
Lösung
A/A‘/B Test
A A‘ B
www.beispiel.de/
original.htm
www.beispiel.de/
original.htm?cachebuster
www.beispiel.de/
variante-b.html
Kopie
Inkl. Redirect Inkl. Redirect
Quelle: Kohavi, Ron; Longbotham, Roger (2011): Unexpected Results in Online Controlled Experiments. In: SIGKDD Explor.
Newsl. 12 (2), S. 31–35. Online verfügbar unter http://www.exp-platform.com/Documents/2010-
12%20ExPUnexpectedSIGKDD.pdf
Andreas Korsus12.09.2013 9
Lösung
A/A‘/B Test
A A‘ B
Differenz gibt den
Betrag der
Verzerrung an
Differenz gibt
bereinigten
Unterschied
zwischen A und B an
Kopie
Andreas Korsus12.09.2013 10
2. Fehler
Blind auf Signifikanz und
Konfidenzintervalle der Testing-
Tools vertrauen
Andreas Korsus12.09.2013 11
2. Fehler
Ist DAS wirklich signifikant?
Andreas Korsus12.09.2013 12
Normalverteilung
95% Confidence
interval
Andreas Korsus12.09.2013 13
Binomialverteilung
Andreas Korsus12.09.2013 14
Vergleich Binomial- & Normalverteilung
0% 0,5% 1% 1,5% 2%
Ausgewiesene Signifikanz: 96%
Wahrer Wert: 77%
Andreas Korsus12.09.2013 15
Problem
Die Normalverteilung der Testingtools gibt die
wahre Wahrscheinlichkeitsverteilung
insbesondere bei kleinen Conversion-Raten
und moderater Besucherzahl sehr ungenau
wieder
(Die Student t-Verteilung macht es auch nicht
besser)
Quelle: Brown, Lawrence D.; Cai, T. Tony; DasGupta, Anirban (2001): Interval Estimation for a Binomial Proportion. In:
Statistical Science 16 (2), S. 101–117. Online verfügbar unter http://www.jstor.org/stable/2676784
Andreas Korsus12.09.2013 16
Lösung
Mindestens 500 Besucher pro Variante
Konversionsrate < 2,0%:
Mindestens 2000 Besucher pro Variante,
besser noch höher
Konversionsrate < 10% (oder über 90% ;-):
Mindestens 1000 Besucher pro Variante
Zu wenig Besucher? Binomialverteilung oder
„Jeffrey‘s Equal Tailed Interval“ nehmen.
Andreas Korsus12.09.2013 17
3. Fehler
Multivariate Tests
Ein MVT mit 5% Fehlerwahrscheinlichkeit pro
Vergleich lässt die Gesamt-
Fehlerwahrscheinlichkeit ansteigen
Fehlerwahrscheinlichkeit (meist 5%) gilt
pro Vergleich
Quelle: z.B. Dunnett, Charles W. (1955): A Multiple Comparison Procedure for Comparing Several Treatments with a Control.
In: Journal of the American Statistical Association 50 (272), S. 1096–1121
Andreas Korsus12.09.2013 18
Problem
5%
Test mit 1 Variante
Wahrscheinlichkeit, eine
schlechtere Variante als
signifikant besser zu
identifizieren:
Andreas Korsus12.09.2013 19
Problem
9,75%
Test mit 2 Varianten
Wahrscheinlichkeit, eine
schlechtere Variante als
signifikant besser zu
identifizieren:
Andreas Korsus12.09.2013 20
Problem
18,55%
Test mit 4 Varianten
Wahrscheinlichkeit, eine
schlechtere Variante als
signifikant besser zu
identifizieren:
Andreas Korsus12.09.2013 21
Problem
56%
Test mit 16 Varianten
Wahrscheinlichkeit, eine
schlechtere Variante als
signifikant besser zu
identifizieren:
Andreas Korsus12.09.2013 22
Lösung
Einfach: Teilen Sie die 5% Grenze durch die
Anzahl der Varianten
Kombinationen nur mit Sinn
und Verstand testen.
Nicht alles, was geht.
Beispiel: 4 Varianten: Es gilt eine
Fehlerwahrscheinlichkeit pro Test von
5% / 4 = 1,25%
(entspricht Signifikanzniveau 98,75%)
Quelle: Ludbrook, John (1991): On Making Multiple Comparisons in Clinical and Experimental Pharmacology and Physiology.
In: Clin Exp Pharmacol Physiol 18 (6), S. 379–392.
Andreas Korsus12.09.2013 23
Oder
Erst multivariaten Test wie gewohnt
durchführen
Besten „Kandidaten“ im A/B Test nochmal
überprüfen
Andreas Korsus12.09.2013 24
Machen Sie das auch?
Wochentag Up-/Downlift Signifikant?
Montag +100% Nein
Dienstag -5% Nein
Mittwoch -15% Ja
Andreas Korsus
Das wird bestimmt noch positiv!
12.09.2013 25
Machen Sie das auch?
Wochentag Up-/Downlift Signifikant?
Montag +100% Nein
Dienstag -5% Nein
Mittwoch -15% Ja
Andreas Korsus12.09.2013 26
Machen Sie das auch?
Wochentag Up-/Downlift Signifikant?
Montag +100% Nein
Dienstag -5% Nein
Mittwoch -15% Ja
Donnerstag -3% Nein
Freitag +6% Nein
Samstag +15% Ja
Andreas Korsus12.09.2013 27
Machen Sie das auch?
Wochentag Up-/Downlift Signifikant?
Montag +100% Nein
Dienstag -5% Nein
Mittwoch -15% Ja
Donnerstag -3% Nein
Freitag +6% Nein
Samstag +15% Ja
Wusste ich es doch
(Schnell beenden, bevor das gute Ergebnis wieder weg ist!)
Andreas Korsus12.09.2013 28
4. Fehler
Wiederholtes Testen
Jeden Tag Signifikanz auswerten lässt die
Wahrscheinlichkeit, eine falsche Entscheidung
zu fällen, jedes Mal ansteigen
Fehlerwahrscheinlichkeit (meist 5%) gilt
pro Zeitpunkt
Quelle: Armitage, Peter; McPherson, C. K.; Rowe, B. C. (1969): Repeated Significance Tests on Accumulating Data. In:
Journal of the Royal Statistical Society. Series A (General) 132 (2), S. 235–244. Online verfügbar unter
http://www.jstor.org/stable/2343787
Andreas Korsus12.09.2013 29
Problem
5%
Test mit 1 Mal „nachgucken“
Wahrscheinlichkeit, eine
schlechtere Variante als
signifikant besser zu
identifizieren:
Andreas Korsus12.09.2013 30
Problem
8,3%
Test mit 2 Mal nachgucken*
Wahrscheinlichkeit, eine
schlechtere Variante als
signifikant besser zu
identifizieren:
* Gleicher Zeitabstand zwischen den Auswertungen
Andreas Korsus12.09.2013 31
Problem
14,2%
Test mit 5 Mal nachgucken
Wahrscheinlichkeit, eine
schlechtere Variante als
signifikant besser zu
identifizieren:
Andreas Korsus12.09.2013 32
Problem
24,8%
Test mit 20 Mal nachgucken
Wahrscheinlichkeit, eine
schlechtere Variante als
signifikant besser zu
identifizieren:
Andreas Korsus
53%
12.09.2013 33
Problem
Test mit 1000 Mal
nachgucken
Wahrscheinlichkeit, eine
schlechtere Variante als
signifikant besser zu
identifizieren:
Andreas Korsus
Diese Funktionen schauen nach jedem Besucher nach!
12.09.2013 34
Problem
Test mit 1000 Mal
nachgucken
Andreas Korsus12.09.2013 35
Lösung
Einfach: Führen Sie vorher eine
Testdaueranalyse (Poweranalyse) durch*
Werten Sie Ihre Analysen frühestens zu dem
Zeitpunkt genau einmal aus und halten Sie
sich an die Werte!
* z.B. http://v2.visualwebsiteoptimizer.com/tools/test_duration_calculator.php
Problem: Zur Analyse der Testdauer muss der
Uplift geschätzt werden.
Zu hoch geschätzt: Kleinerer Uplift wird nicht
zuverlässig erkannt
Zu niedrig geschätzt: Der Test braucht ewig
Andreas Korsus12.09.2013 36
Lösung
Es gibt statistische Verfahren aus der
Medizin, die es erlauben, große Unterschiede
zuverlässig sehr früh und kleinere
Unterschiede durch eine längere
Testdauer zu erkennen
Allerdings gibt es (noch) keine einfache
Anwendung für die CRO
Pläne nach Pocock, O‘Brien Fleming, Alpha-
Spending Funktionen, SPRT, Dreieckspläne
Guter Überblick über Verfahren aus der medizinischen Statistik: Whitehead, John (1997): The design and analysis of
sequential clinical trials. Rev. 2. ed. Chichester [u.a.]: Wiley (Statistics in practice).
Andreas Korsus12.09.2013 37
Lösung
Beispielplan nach O‘Brien Fleming
Führe eine Testdaueranalyse durch und
schätze den Uplift konservativ
Führe nach jeweils 1/5 der Zeit Analysen mit
folgenden Grenzen durch:
1: 99,9995% 2: 99,87% 3:99,15%
4: 97,72% 5:95,83%
Andreas Korsus12.09.2013 38
Alles in allem
Mach keine A/B Split URL Tests in JavaScript-
Tools – Starte mit A‘/B Tests!
Werte A/B Tests mit kleinen Conversion Rates
erst ab 2000 Besuchern / Variante aus!
Korrigiere die Irrtumswahrscheinlichkeit bei
MVT nach der Anzahl der Varianten!
Schau nicht jeden Tag in Dein Tool, um bei der
ersten Signifikanz den Test zu beenden.
Arbeite methodisch sauber
Andreas Korsus12.09.2013 39
Vielen Dank
http://xing.to/korsus
http://de.linkedin.com/in/korsus
Andreas Korsus12.09.2013 40
Jeffrey’s Equal-Tailed Intervall
R:
L <- qbeta( alpha/2, k+1/2, n-k+1/2)
U <- qbeta(1-alpha)/2, k+1/2, n-k+1/2)
Excel:
=BETA.INV(alpha/2;k+1/2;n-k+1/2)
=BETA.INV(1-alpha/2;k+1/2;n-k+1/2)
k=Anzahl der Conversions,
n=Anzahl der Besucher
Weitere Infos: Brown, Lawrence D.; Cai, T. Tony; DasGupta, Anirban (2001): Interval Estimation for a Binomial Proportion.
In: Statistical Science 16 (2), S. 101–117. Online verfügbar unter http://www.jstor.org/stable/2676784

Más contenido relacionado

Destacado

Joomla Magazin Februar 2013
Joomla Magazin Februar 2013Joomla Magazin Februar 2013
Joomla Magazin Februar 2013Thanh Nguyen
 
Konferenz Suchtarbeit 2.0 - Konzeption Planung (Interaktiver) Online-Angebote
Konferenz Suchtarbeit 2.0 - Konzeption Planung (Interaktiver) Online-AngeboteKonferenz Suchtarbeit 2.0 - Konzeption Planung (Interaktiver) Online-Angebote
Konferenz Suchtarbeit 2.0 - Konzeption Planung (Interaktiver) Online-AngeboteMoritz Zumbühl
 
Bericht Njinikom SES Juni Juli 2014
Bericht Njinikom SES Juni Juli 2014Bericht Njinikom SES Juni Juli 2014
Bericht Njinikom SES Juni Juli 2014Carsten Tiede
 
business campaigning® – Über den Tellerrand schauen, querdenken und Menschen...
business campaigning®  – Über den Tellerrand schauen, querdenken und Menschen...business campaigning®  – Über den Tellerrand schauen, querdenken und Menschen...
business campaigning® – Über den Tellerrand schauen, querdenken und Menschen...Peter Metzinger
 
SeHF 2015 | Überweisung per Knopfdruck – Umsetzung einer benutzergerechten Zu...
SeHF 2015 | Überweisung per Knopfdruck – Umsetzung einer benutzergerechten Zu...SeHF 2015 | Überweisung per Knopfdruck – Umsetzung einer benutzergerechten Zu...
SeHF 2015 | Überweisung per Knopfdruck – Umsetzung einer benutzergerechten Zu...Swiss eHealth Forum
 
El impacto del uso de recursos educativos abiertos en la clase al revés
El impacto del uso de recursos educativos abiertos en la clase al revésEl impacto del uso de recursos educativos abiertos en la clase al revés
El impacto del uso de recursos educativos abiertos en la clase al revésOER Hub
 
La función pedagógica de la evaluación
La función pedagógica de la evaluación La función pedagógica de la evaluación
La función pedagógica de la evaluación monicapc20
 
Strategie und praxis kommunikationscontrolling am beispiel bundesagentur für ...
Strategie und praxis kommunikationscontrolling am beispiel bundesagentur für ...Strategie und praxis kommunikationscontrolling am beispiel bundesagentur für ...
Strategie und praxis kommunikationscontrolling am beispiel bundesagentur für ...ICV_eV
 
Peter Drucker e Henry Ford
Peter Drucker e Henry FordPeter Drucker e Henry Ford
Peter Drucker e Henry FordLena Marques
 
Los libros interactivos multimedia
Los libros interactivos multimediaLos libros interactivos multimedia
Los libros interactivos multimediaBrayan Arley F D
 
HWZ «Mit Content Qualität sichern» | scherrers büro [k]
HWZ «Mit Content Qualität sichern» | scherrers büro [k]HWZ «Mit Content Qualität sichern» | scherrers büro [k]
HWZ «Mit Content Qualität sichern» | scherrers büro [k]Oliver Scherrer
 
Teorias y recursos virginia escalona listo
Teorias y recursos virginia escalona listoTeorias y recursos virginia escalona listo
Teorias y recursos virginia escalona listoKarina Alvarado
 
Portafolio diagnóstico. Innovación Educativa con Recursos Abiertos. Tecnológi...
Portafolio diagnóstico. Innovación Educativa con Recursos Abiertos. Tecnológi...Portafolio diagnóstico. Innovación Educativa con Recursos Abiertos. Tecnológi...
Portafolio diagnóstico. Innovación Educativa con Recursos Abiertos. Tecnológi...Provinhood
 

Destacado (17)

Joomla Magazin Februar 2013
Joomla Magazin Februar 2013Joomla Magazin Februar 2013
Joomla Magazin Februar 2013
 
Konferenz Suchtarbeit 2.0 - Konzeption Planung (Interaktiver) Online-Angebote
Konferenz Suchtarbeit 2.0 - Konzeption Planung (Interaktiver) Online-AngeboteKonferenz Suchtarbeit 2.0 - Konzeption Planung (Interaktiver) Online-Angebote
Konferenz Suchtarbeit 2.0 - Konzeption Planung (Interaktiver) Online-Angebote
 
Bericht Njinikom SES Juni Juli 2014
Bericht Njinikom SES Juni Juli 2014Bericht Njinikom SES Juni Juli 2014
Bericht Njinikom SES Juni Juli 2014
 
Evaluación tarea
Evaluación tarea Evaluación tarea
Evaluación tarea
 
business campaigning® – Über den Tellerrand schauen, querdenken und Menschen...
business campaigning®  – Über den Tellerrand schauen, querdenken und Menschen...business campaigning®  – Über den Tellerrand schauen, querdenken und Menschen...
business campaigning® – Über den Tellerrand schauen, querdenken und Menschen...
 
SeHF 2015 | Überweisung per Knopfdruck – Umsetzung einer benutzergerechten Zu...
SeHF 2015 | Überweisung per Knopfdruck – Umsetzung einer benutzergerechten Zu...SeHF 2015 | Überweisung per Knopfdruck – Umsetzung einer benutzergerechten Zu...
SeHF 2015 | Überweisung per Knopfdruck – Umsetzung einer benutzergerechten Zu...
 
El impacto del uso de recursos educativos abiertos en la clase al revés
El impacto del uso de recursos educativos abiertos en la clase al revésEl impacto del uso de recursos educativos abiertos en la clase al revés
El impacto del uso de recursos educativos abiertos en la clase al revés
 
Formatiar el pc
Formatiar el pcFormatiar el pc
Formatiar el pc
 
La función pedagógica de la evaluación
La función pedagógica de la evaluación La función pedagógica de la evaluación
La función pedagógica de la evaluación
 
Strategie und praxis kommunikationscontrolling am beispiel bundesagentur für ...
Strategie und praxis kommunikationscontrolling am beispiel bundesagentur für ...Strategie und praxis kommunikationscontrolling am beispiel bundesagentur für ...
Strategie und praxis kommunikationscontrolling am beispiel bundesagentur für ...
 
Peter Drucker e Henry Ford
Peter Drucker e Henry FordPeter Drucker e Henry Ford
Peter Drucker e Henry Ford
 
Paul klee
Paul kleePaul klee
Paul klee
 
Los libros interactivos multimedia
Los libros interactivos multimediaLos libros interactivos multimedia
Los libros interactivos multimedia
 
HWZ «Mit Content Qualität sichern» | scherrers büro [k]
HWZ «Mit Content Qualität sichern» | scherrers büro [k]HWZ «Mit Content Qualität sichern» | scherrers büro [k]
HWZ «Mit Content Qualität sichern» | scherrers büro [k]
 
Boletin apoyos académicos
Boletin apoyos académicosBoletin apoyos académicos
Boletin apoyos académicos
 
Teorias y recursos virginia escalona listo
Teorias y recursos virginia escalona listoTeorias y recursos virginia escalona listo
Teorias y recursos virginia escalona listo
 
Portafolio diagnóstico. Innovación Educativa con Recursos Abiertos. Tecnológi...
Portafolio diagnóstico. Innovación Educativa con Recursos Abiertos. Tecnológi...Portafolio diagnóstico. Innovación Educativa con Recursos Abiertos. Tecnológi...
Portafolio diagnóstico. Innovación Educativa con Recursos Abiertos. Tecnológi...
 

CC13 Korsus

  • 1. 12.09.2013 1 Warum 99% der A/B Tests fehlerhaft sind Andreas Korsus Marketing Technologist 4 Statistische Fehler, die (fast) jeder macht
  • 2. Andreas Korsus12.09.2013 3 1. Fehler Split URL Tests mit JavaScript Lösungen
  • 3. Andreas Korsus12.09.2013 4 Bedeutung der Geschwindigkeit +100 ms  -1% Verkäufe Greg Linden, über Amazon +500ms  -20% Traffic Marissa Meyer über Google
  • 6. Zeit Wie lange dauert das? 50-1000ms
  • 7. Andreas Korsus12.09.2013 8 Lösung A/A‘/B Test A A‘ B www.beispiel.de/ original.htm www.beispiel.de/ original.htm?cachebuster www.beispiel.de/ variante-b.html Kopie Inkl. Redirect Inkl. Redirect Quelle: Kohavi, Ron; Longbotham, Roger (2011): Unexpected Results in Online Controlled Experiments. In: SIGKDD Explor. Newsl. 12 (2), S. 31–35. Online verfügbar unter http://www.exp-platform.com/Documents/2010- 12%20ExPUnexpectedSIGKDD.pdf
  • 8. Andreas Korsus12.09.2013 9 Lösung A/A‘/B Test A A‘ B Differenz gibt den Betrag der Verzerrung an Differenz gibt bereinigten Unterschied zwischen A und B an Kopie
  • 9. Andreas Korsus12.09.2013 10 2. Fehler Blind auf Signifikanz und Konfidenzintervalle der Testing- Tools vertrauen
  • 10. Andreas Korsus12.09.2013 11 2. Fehler Ist DAS wirklich signifikant?
  • 13. Andreas Korsus12.09.2013 14 Vergleich Binomial- & Normalverteilung 0% 0,5% 1% 1,5% 2% Ausgewiesene Signifikanz: 96% Wahrer Wert: 77%
  • 14. Andreas Korsus12.09.2013 15 Problem Die Normalverteilung der Testingtools gibt die wahre Wahrscheinlichkeitsverteilung insbesondere bei kleinen Conversion-Raten und moderater Besucherzahl sehr ungenau wieder (Die Student t-Verteilung macht es auch nicht besser) Quelle: Brown, Lawrence D.; Cai, T. Tony; DasGupta, Anirban (2001): Interval Estimation for a Binomial Proportion. In: Statistical Science 16 (2), S. 101–117. Online verfügbar unter http://www.jstor.org/stable/2676784
  • 15. Andreas Korsus12.09.2013 16 Lösung Mindestens 500 Besucher pro Variante Konversionsrate < 2,0%: Mindestens 2000 Besucher pro Variante, besser noch höher Konversionsrate < 10% (oder über 90% ;-): Mindestens 1000 Besucher pro Variante Zu wenig Besucher? Binomialverteilung oder „Jeffrey‘s Equal Tailed Interval“ nehmen.
  • 16. Andreas Korsus12.09.2013 17 3. Fehler Multivariate Tests Ein MVT mit 5% Fehlerwahrscheinlichkeit pro Vergleich lässt die Gesamt- Fehlerwahrscheinlichkeit ansteigen Fehlerwahrscheinlichkeit (meist 5%) gilt pro Vergleich Quelle: z.B. Dunnett, Charles W. (1955): A Multiple Comparison Procedure for Comparing Several Treatments with a Control. In: Journal of the American Statistical Association 50 (272), S. 1096–1121
  • 17. Andreas Korsus12.09.2013 18 Problem 5% Test mit 1 Variante Wahrscheinlichkeit, eine schlechtere Variante als signifikant besser zu identifizieren:
  • 18. Andreas Korsus12.09.2013 19 Problem 9,75% Test mit 2 Varianten Wahrscheinlichkeit, eine schlechtere Variante als signifikant besser zu identifizieren:
  • 19. Andreas Korsus12.09.2013 20 Problem 18,55% Test mit 4 Varianten Wahrscheinlichkeit, eine schlechtere Variante als signifikant besser zu identifizieren:
  • 20. Andreas Korsus12.09.2013 21 Problem 56% Test mit 16 Varianten Wahrscheinlichkeit, eine schlechtere Variante als signifikant besser zu identifizieren:
  • 21. Andreas Korsus12.09.2013 22 Lösung Einfach: Teilen Sie die 5% Grenze durch die Anzahl der Varianten Kombinationen nur mit Sinn und Verstand testen. Nicht alles, was geht. Beispiel: 4 Varianten: Es gilt eine Fehlerwahrscheinlichkeit pro Test von 5% / 4 = 1,25% (entspricht Signifikanzniveau 98,75%) Quelle: Ludbrook, John (1991): On Making Multiple Comparisons in Clinical and Experimental Pharmacology and Physiology. In: Clin Exp Pharmacol Physiol 18 (6), S. 379–392.
  • 22. Andreas Korsus12.09.2013 23 Oder Erst multivariaten Test wie gewohnt durchführen Besten „Kandidaten“ im A/B Test nochmal überprüfen
  • 23. Andreas Korsus12.09.2013 24 Machen Sie das auch? Wochentag Up-/Downlift Signifikant? Montag +100% Nein Dienstag -5% Nein Mittwoch -15% Ja
  • 24. Andreas Korsus Das wird bestimmt noch positiv! 12.09.2013 25 Machen Sie das auch? Wochentag Up-/Downlift Signifikant? Montag +100% Nein Dienstag -5% Nein Mittwoch -15% Ja
  • 25. Andreas Korsus12.09.2013 26 Machen Sie das auch? Wochentag Up-/Downlift Signifikant? Montag +100% Nein Dienstag -5% Nein Mittwoch -15% Ja Donnerstag -3% Nein Freitag +6% Nein Samstag +15% Ja
  • 26. Andreas Korsus12.09.2013 27 Machen Sie das auch? Wochentag Up-/Downlift Signifikant? Montag +100% Nein Dienstag -5% Nein Mittwoch -15% Ja Donnerstag -3% Nein Freitag +6% Nein Samstag +15% Ja Wusste ich es doch (Schnell beenden, bevor das gute Ergebnis wieder weg ist!)
  • 27. Andreas Korsus12.09.2013 28 4. Fehler Wiederholtes Testen Jeden Tag Signifikanz auswerten lässt die Wahrscheinlichkeit, eine falsche Entscheidung zu fällen, jedes Mal ansteigen Fehlerwahrscheinlichkeit (meist 5%) gilt pro Zeitpunkt Quelle: Armitage, Peter; McPherson, C. K.; Rowe, B. C. (1969): Repeated Significance Tests on Accumulating Data. In: Journal of the Royal Statistical Society. Series A (General) 132 (2), S. 235–244. Online verfügbar unter http://www.jstor.org/stable/2343787
  • 28. Andreas Korsus12.09.2013 29 Problem 5% Test mit 1 Mal „nachgucken“ Wahrscheinlichkeit, eine schlechtere Variante als signifikant besser zu identifizieren:
  • 29. Andreas Korsus12.09.2013 30 Problem 8,3% Test mit 2 Mal nachgucken* Wahrscheinlichkeit, eine schlechtere Variante als signifikant besser zu identifizieren: * Gleicher Zeitabstand zwischen den Auswertungen
  • 30. Andreas Korsus12.09.2013 31 Problem 14,2% Test mit 5 Mal nachgucken Wahrscheinlichkeit, eine schlechtere Variante als signifikant besser zu identifizieren:
  • 31. Andreas Korsus12.09.2013 32 Problem 24,8% Test mit 20 Mal nachgucken Wahrscheinlichkeit, eine schlechtere Variante als signifikant besser zu identifizieren:
  • 32. Andreas Korsus 53% 12.09.2013 33 Problem Test mit 1000 Mal nachgucken Wahrscheinlichkeit, eine schlechtere Variante als signifikant besser zu identifizieren:
  • 33. Andreas Korsus Diese Funktionen schauen nach jedem Besucher nach! 12.09.2013 34 Problem Test mit 1000 Mal nachgucken
  • 34. Andreas Korsus12.09.2013 35 Lösung Einfach: Führen Sie vorher eine Testdaueranalyse (Poweranalyse) durch* Werten Sie Ihre Analysen frühestens zu dem Zeitpunkt genau einmal aus und halten Sie sich an die Werte! * z.B. http://v2.visualwebsiteoptimizer.com/tools/test_duration_calculator.php Problem: Zur Analyse der Testdauer muss der Uplift geschätzt werden. Zu hoch geschätzt: Kleinerer Uplift wird nicht zuverlässig erkannt Zu niedrig geschätzt: Der Test braucht ewig
  • 35. Andreas Korsus12.09.2013 36 Lösung Es gibt statistische Verfahren aus der Medizin, die es erlauben, große Unterschiede zuverlässig sehr früh und kleinere Unterschiede durch eine längere Testdauer zu erkennen Allerdings gibt es (noch) keine einfache Anwendung für die CRO Pläne nach Pocock, O‘Brien Fleming, Alpha- Spending Funktionen, SPRT, Dreieckspläne Guter Überblick über Verfahren aus der medizinischen Statistik: Whitehead, John (1997): The design and analysis of sequential clinical trials. Rev. 2. ed. Chichester [u.a.]: Wiley (Statistics in practice).
  • 36. Andreas Korsus12.09.2013 37 Lösung Beispielplan nach O‘Brien Fleming Führe eine Testdaueranalyse durch und schätze den Uplift konservativ Führe nach jeweils 1/5 der Zeit Analysen mit folgenden Grenzen durch: 1: 99,9995% 2: 99,87% 3:99,15% 4: 97,72% 5:95,83%
  • 37. Andreas Korsus12.09.2013 38 Alles in allem Mach keine A/B Split URL Tests in JavaScript- Tools – Starte mit A‘/B Tests! Werte A/B Tests mit kleinen Conversion Rates erst ab 2000 Besuchern / Variante aus! Korrigiere die Irrtumswahrscheinlichkeit bei MVT nach der Anzahl der Varianten! Schau nicht jeden Tag in Dein Tool, um bei der ersten Signifikanz den Test zu beenden. Arbeite methodisch sauber
  • 38. Andreas Korsus12.09.2013 39 Vielen Dank http://xing.to/korsus http://de.linkedin.com/in/korsus
  • 39. Andreas Korsus12.09.2013 40 Jeffrey’s Equal-Tailed Intervall R: L <- qbeta( alpha/2, k+1/2, n-k+1/2) U <- qbeta(1-alpha)/2, k+1/2, n-k+1/2) Excel: =BETA.INV(alpha/2;k+1/2;n-k+1/2) =BETA.INV(1-alpha/2;k+1/2;n-k+1/2) k=Anzahl der Conversions, n=Anzahl der Besucher Weitere Infos: Brown, Lawrence D.; Cai, T. Tony; DasGupta, Anirban (2001): Interval Estimation for a Binomial Proportion. In: Statistical Science 16 (2), S. 101–117. Online verfügbar unter http://www.jstor.org/stable/2676784