3. Andreas Korsus12.09.2013 4
Bedeutung der Geschwindigkeit
+100 ms -1% Verkäufe
Greg Linden,
über Amazon
+500ms -20% Traffic
Marissa Meyer
über Google
7. Andreas Korsus12.09.2013 8
Lösung
A/A‘/B Test
A A‘ B
www.beispiel.de/
original.htm
www.beispiel.de/
original.htm?cachebuster
www.beispiel.de/
variante-b.html
Kopie
Inkl. Redirect Inkl. Redirect
Quelle: Kohavi, Ron; Longbotham, Roger (2011): Unexpected Results in Online Controlled Experiments. In: SIGKDD Explor.
Newsl. 12 (2), S. 31–35. Online verfügbar unter http://www.exp-platform.com/Documents/2010-
12%20ExPUnexpectedSIGKDD.pdf
8. Andreas Korsus12.09.2013 9
Lösung
A/A‘/B Test
A A‘ B
Differenz gibt den
Betrag der
Verzerrung an
Differenz gibt
bereinigten
Unterschied
zwischen A und B an
Kopie
14. Andreas Korsus12.09.2013 15
Problem
Die Normalverteilung der Testingtools gibt die
wahre Wahrscheinlichkeitsverteilung
insbesondere bei kleinen Conversion-Raten
und moderater Besucherzahl sehr ungenau
wieder
(Die Student t-Verteilung macht es auch nicht
besser)
Quelle: Brown, Lawrence D.; Cai, T. Tony; DasGupta, Anirban (2001): Interval Estimation for a Binomial Proportion. In:
Statistical Science 16 (2), S. 101–117. Online verfügbar unter http://www.jstor.org/stable/2676784
15. Andreas Korsus12.09.2013 16
Lösung
Mindestens 500 Besucher pro Variante
Konversionsrate < 2,0%:
Mindestens 2000 Besucher pro Variante,
besser noch höher
Konversionsrate < 10% (oder über 90% ;-):
Mindestens 1000 Besucher pro Variante
Zu wenig Besucher? Binomialverteilung oder
„Jeffrey‘s Equal Tailed Interval“ nehmen.
16. Andreas Korsus12.09.2013 17
3. Fehler
Multivariate Tests
Ein MVT mit 5% Fehlerwahrscheinlichkeit pro
Vergleich lässt die Gesamt-
Fehlerwahrscheinlichkeit ansteigen
Fehlerwahrscheinlichkeit (meist 5%) gilt
pro Vergleich
Quelle: z.B. Dunnett, Charles W. (1955): A Multiple Comparison Procedure for Comparing Several Treatments with a Control.
In: Journal of the American Statistical Association 50 (272), S. 1096–1121
21. Andreas Korsus12.09.2013 22
Lösung
Einfach: Teilen Sie die 5% Grenze durch die
Anzahl der Varianten
Kombinationen nur mit Sinn
und Verstand testen.
Nicht alles, was geht.
Beispiel: 4 Varianten: Es gilt eine
Fehlerwahrscheinlichkeit pro Test von
5% / 4 = 1,25%
(entspricht Signifikanzniveau 98,75%)
Quelle: Ludbrook, John (1991): On Making Multiple Comparisons in Clinical and Experimental Pharmacology and Physiology.
In: Clin Exp Pharmacol Physiol 18 (6), S. 379–392.
23. Andreas Korsus12.09.2013 24
Machen Sie das auch?
Wochentag Up-/Downlift Signifikant?
Montag +100% Nein
Dienstag -5% Nein
Mittwoch -15% Ja
24. Andreas Korsus
Das wird bestimmt noch positiv!
12.09.2013 25
Machen Sie das auch?
Wochentag Up-/Downlift Signifikant?
Montag +100% Nein
Dienstag -5% Nein
Mittwoch -15% Ja
25. Andreas Korsus12.09.2013 26
Machen Sie das auch?
Wochentag Up-/Downlift Signifikant?
Montag +100% Nein
Dienstag -5% Nein
Mittwoch -15% Ja
Donnerstag -3% Nein
Freitag +6% Nein
Samstag +15% Ja
26. Andreas Korsus12.09.2013 27
Machen Sie das auch?
Wochentag Up-/Downlift Signifikant?
Montag +100% Nein
Dienstag -5% Nein
Mittwoch -15% Ja
Donnerstag -3% Nein
Freitag +6% Nein
Samstag +15% Ja
Wusste ich es doch
(Schnell beenden, bevor das gute Ergebnis wieder weg ist!)
27. Andreas Korsus12.09.2013 28
4. Fehler
Wiederholtes Testen
Jeden Tag Signifikanz auswerten lässt die
Wahrscheinlichkeit, eine falsche Entscheidung
zu fällen, jedes Mal ansteigen
Fehlerwahrscheinlichkeit (meist 5%) gilt
pro Zeitpunkt
Quelle: Armitage, Peter; McPherson, C. K.; Rowe, B. C. (1969): Repeated Significance Tests on Accumulating Data. In:
Journal of the Royal Statistical Society. Series A (General) 132 (2), S. 235–244. Online verfügbar unter
http://www.jstor.org/stable/2343787
29. Andreas Korsus12.09.2013 30
Problem
8,3%
Test mit 2 Mal nachgucken*
Wahrscheinlichkeit, eine
schlechtere Variante als
signifikant besser zu
identifizieren:
* Gleicher Zeitabstand zwischen den Auswertungen
34. Andreas Korsus12.09.2013 35
Lösung
Einfach: Führen Sie vorher eine
Testdaueranalyse (Poweranalyse) durch*
Werten Sie Ihre Analysen frühestens zu dem
Zeitpunkt genau einmal aus und halten Sie
sich an die Werte!
* z.B. http://v2.visualwebsiteoptimizer.com/tools/test_duration_calculator.php
Problem: Zur Analyse der Testdauer muss der
Uplift geschätzt werden.
Zu hoch geschätzt: Kleinerer Uplift wird nicht
zuverlässig erkannt
Zu niedrig geschätzt: Der Test braucht ewig
35. Andreas Korsus12.09.2013 36
Lösung
Es gibt statistische Verfahren aus der
Medizin, die es erlauben, große Unterschiede
zuverlässig sehr früh und kleinere
Unterschiede durch eine längere
Testdauer zu erkennen
Allerdings gibt es (noch) keine einfache
Anwendung für die CRO
Pläne nach Pocock, O‘Brien Fleming, Alpha-
Spending Funktionen, SPRT, Dreieckspläne
Guter Überblick über Verfahren aus der medizinischen Statistik: Whitehead, John (1997): The design and analysis of
sequential clinical trials. Rev. 2. ed. Chichester [u.a.]: Wiley (Statistics in practice).
36. Andreas Korsus12.09.2013 37
Lösung
Beispielplan nach O‘Brien Fleming
Führe eine Testdaueranalyse durch und
schätze den Uplift konservativ
Führe nach jeweils 1/5 der Zeit Analysen mit
folgenden Grenzen durch:
1: 99,9995% 2: 99,87% 3:99,15%
4: 97,72% 5:95,83%
37. Andreas Korsus12.09.2013 38
Alles in allem
Mach keine A/B Split URL Tests in JavaScript-
Tools – Starte mit A‘/B Tests!
Werte A/B Tests mit kleinen Conversion Rates
erst ab 2000 Besuchern / Variante aus!
Korrigiere die Irrtumswahrscheinlichkeit bei
MVT nach der Anzahl der Varianten!
Schau nicht jeden Tag in Dein Tool, um bei der
ersten Signifikanz den Test zu beenden.
Arbeite methodisch sauber
39. Andreas Korsus12.09.2013 40
Jeffrey’s Equal-Tailed Intervall
R:
L <- qbeta( alpha/2, k+1/2, n-k+1/2)
U <- qbeta(1-alpha)/2, k+1/2, n-k+1/2)
Excel:
=BETA.INV(alpha/2;k+1/2;n-k+1/2)
=BETA.INV(1-alpha/2;k+1/2;n-k+1/2)
k=Anzahl der Conversions,
n=Anzahl der Besucher
Weitere Infos: Brown, Lawrence D.; Cai, T. Tony; DasGupta, Anirban (2001): Interval Estimation for a Binomial Proportion.
In: Statistical Science 16 (2), S. 101–117. Online verfügbar unter http://www.jstor.org/stable/2676784