CC13 Korsus

12.09.2013 1
Warum 99% der A/B Tests
fehlerhaft sind
Andreas Korsus
Marketing Technologist 4 Statistische Fehler, die (fast) jeder macht

Andreas Korsus12.09.2013 3
1. Fehler
Split URL Tests mit
JavaScript Lösungen

Bedeutung der Geschwindigkeit
+100 ms  -1% Verkäufe
Greg Linden,
über Amazon
+500ms  -20% Traffic
Marissa Meyer
über Google

Zeit
Wie lange dauert das?
50-1000ms

Lösung
A/A‘/B Test
A A‘ B
www.beispiel.de/
original.htm
www.beispiel.de/
original.htm?cachebuster
www.beispiel.de/
variante-b.html
Kopie
Inkl. Redirect Inkl. Redirect
Quelle: Kohavi, Ron; Longbotham, Roger (2011): Unexpected Results in Online Controlled Experiments. In: SIGKDD Explor.
Newsl. 12 (2), S. 31–35. Online verfügbar unter http://www.exp-platform.com/Documents/2010-
12%20ExPUnexpectedSIGKDD.pdf

Lösung
A/A‘/B Test
A A‘ B
Differenz gibt den
Betrag der
Verzerrung an
Differenz gibt
bereinigten
Unterschied
zwischen A und B an
Kopie

2. Fehler
Blind auf Signifikanz und
Konfidenzintervalle der Testing-
Tools vertrauen

2. Fehler
Ist DAS wirklich signifikant?

Normalverteilung
95% Confidence
interval

Binomialverteilung

Vergleich Binomial- & Normalverteilung
0% 0,5% 1% 1,5% 2%
Ausgewiesene Signifikanz: 96%
Wahrer Wert: 77%

Problem
Die Normalverteilung der Testingtools gibt die
wahre Wahrscheinlichkeitsverteilung
insbesondere bei kleinen Conversion-Raten
und moderater Besucherzahl sehr ungenau
wieder
(Die Student t-Verteilung macht es auch nicht
besser)
Quelle: Brown, Lawrence D.; Cai, T. Tony; DasGupta, Anirban (2001): Interval Estimation for a Binomial Proportion. In:
Statistical Science 16 (2), S. 101–117. Online verfügbar unter http://www.jstor.org/stable/2676784

Lösung
Mindestens 500 Besucher pro Variante
Konversionsrate < 2,0%:
Mindestens 2000 Besucher pro Variante,
besser noch höher
Konversionsrate < 10% (oder über 90% ;-):
Mindestens 1000 Besucher pro Variante
Zu wenig Besucher? Binomialverteilung oder
„Jeffrey‘s Equal Tailed Interval“ nehmen.

3. Fehler
Multivariate Tests
Ein MVT mit 5% Fehlerwahrscheinlichkeit pro
Vergleich lässt die Gesamt-
Fehlerwahrscheinlichkeit ansteigen
Fehlerwahrscheinlichkeit (meist 5%) gilt
pro Vergleich
Quelle: z.B. Dunnett, Charles W. (1955): A Multiple Comparison Procedure for Comparing Several Treatments with a Control.
In: Journal of the American Statistical Association 50 (272), S. 1096–1121

Problem
5%
Test mit 1 Variante
Wahrscheinlichkeit, eine
schlechtere Variante als
signifikant besser zu
identifizieren:

Problem
9,75%
Test mit 2 Varianten
identifizieren:

Problem
18,55%
identifizieren:

Problem
56%
identifizieren:

Lösung
Einfach: Teilen Sie die 5% Grenze durch die
Anzahl der Varianten
Kombinationen nur mit Sinn
und Verstand testen.
Nicht alles, was geht.
Beispiel: 4 Varianten: Es gilt eine
Fehlerwahrscheinlichkeit pro Test von
5% / 4 = 1,25%
(entspricht Signifikanzniveau 98,75%)
Quelle: Ludbrook, John (1991): On Making Multiple Comparisons in Clinical and Experimental Pharmacology and Physiology.
In: Clin Exp Pharmacol Physiol 18 (6), S. 379–392.

Oder
Erst multivariaten Test wie gewohnt
durchführen
Besten „Kandidaten“ im A/B Test nochmal
überprüfen

Machen Sie das auch?
Wochentag Up-/Downlift Signifikant?
Montag +100% Nein
Dienstag -5% Nein
Mittwoch -15% Ja

Andreas Korsus
Das wird bestimmt noch positiv!
12.09.2013 25
Montag +100% Nein
Dienstag -5% Nein
Mittwoch -15% Ja

Montag +100% Nein
Dienstag -5% Nein
Mittwoch -15% Ja
Donnerstag -3% Nein
Freitag +6% Nein
Samstag +15% Ja

Montag +100% Nein
Dienstag -5% Nein
Mittwoch -15% Ja
Donnerstag -3% Nein
Freitag +6% Nein
Samstag +15% Ja
Wusste ich es doch
(Schnell beenden, bevor das gute Ergebnis wieder weg ist!)

4. Fehler
Wiederholtes Testen
Jeden Tag Signifikanz auswerten lässt die
Wahrscheinlichkeit, eine falsche Entscheidung
zu fällen, jedes Mal ansteigen
Fehlerwahrscheinlichkeit (meist 5%) gilt
pro Zeitpunkt
Quelle: Armitage, Peter; McPherson, C. K.; Rowe, B. C. (1969): Repeated Significance Tests on Accumulating Data. In:
Journal of the Royal Statistical Society. Series A (General) 132 (2), S. 235–244. Online verfügbar unter
http://www.jstor.org/stable/2343787

Problem
5%
Test mit 1 Mal „nachgucken“
identifizieren:

Problem
8,3%
Test mit 2 Mal nachgucken*
identifizieren:
* Gleicher Zeitabstand zwischen den Auswertungen

Problem
14,2%
Test mit 5 Mal nachgucken
identifizieren:

Problem
24,8%
Test mit 20 Mal nachgucken
identifizieren:

Andreas Korsus
53%
12.09.2013 33
Problem
Test mit 1000 Mal
nachgucken
identifizieren:

Andreas Korsus
Diese Funktionen schauen nach jedem Besucher nach!
12.09.2013 34
Problem
Test mit 1000 Mal
nachgucken

Lösung
Einfach: Führen Sie vorher eine
Testdaueranalyse (Poweranalyse) durch*
Werten Sie Ihre Analysen frühestens zu dem
Zeitpunkt genau einmal aus und halten Sie
sich an die Werte!
* z.B. http://v2.visualwebsiteoptimizer.com/tools/test_duration_calculator.php
Problem: Zur Analyse der Testdauer muss der
Uplift geschätzt werden.
Zu hoch geschätzt: Kleinerer Uplift wird nicht
zuverlässig erkannt
Zu niedrig geschätzt: Der Test braucht ewig

Lösung
Es gibt statistische Verfahren aus der
Medizin, die es erlauben, große Unterschiede
zuverlässig sehr früh und kleinere
Unterschiede durch eine längere
Testdauer zu erkennen
Allerdings gibt es (noch) keine einfache
Anwendung für die CRO
Pläne nach Pocock, O‘Brien Fleming, Alpha-
Spending Funktionen, SPRT, Dreieckspläne
Guter Überblick über Verfahren aus der medizinischen Statistik: Whitehead, John (1997): The design and analysis of
sequential clinical trials. Rev. 2. ed. Chichester [u.a.]: Wiley (Statistics in practice).

Lösung
Beispielplan nach O‘Brien Fleming
Führe eine Testdaueranalyse durch und
schätze den Uplift konservativ
Führe nach jeweils 1/5 der Zeit Analysen mit
folgenden Grenzen durch:
1: 99,9995% 2: 99,87% 3:99,15%
4: 97,72% 5:95,83%

Alles in allem
Mach keine A/B Split URL Tests in JavaScript-
Tools – Starte mit A‘/B Tests!
Werte A/B Tests mit kleinen Conversion Rates
erst ab 2000 Besuchern / Variante aus!
Korrigiere die Irrtumswahrscheinlichkeit bei
MVT nach der Anzahl der Varianten!
Schau nicht jeden Tag in Dein Tool, um bei der
ersten Signifikanz den Test zu beenden.
Arbeite methodisch sauber

Vielen Dank
http://xing.to/korsus
http://de.linkedin.com/in/korsus

Jeffrey’s Equal-Tailed Intervall
R:
L <- qbeta( alpha/2, k+1/2, n-k+1/2)
U <- qbeta(1-alpha)/2, k+1/2, n-k+1/2)
Excel:
=BETA.INV(alpha/2;k+1/2;n-k+1/2)
=BETA.INV(1-alpha/2;k+1/2;n-k+1/2)
k=Anzahl der Conversions,
n=Anzahl der Besucher
Weitere Infos: Brown, Lawrence D.; Cai, T. Tony; DasGupta, Anirban (2001): Interval Estimation for a Binomial Proportion.
In: Statistical Science 16 (2), S. 101–117. Online verfügbar unter http://www.jstor.org/stable/2676784

CC13 Korsus

Recomendados

Recomendados

Más contenido relacionado

Destacado

Destacado (17)

CC13 Korsus