¿Usás AB tests para mejorar tu producto o tus comunicaciones?
El paso a paso para correr correctamente un AB test — desde la hipótesis hasta el análisis estadístico final.
→ Si necesitás ayuda con tus AB tests, escribime a ezequiel@bildungdata.com
En mi última publicación hablé acerca de un framework para poder iterar las comunicaciones que le mandamos a nuestros users usando AB tests.
Pero, ¿cómo se ejecuta correctamente un AB Test?
Veamos el paso a paso con un ejemplo. Aplica para equipos de Producto para probar nuevas features y de Marketing para testear comunicaciones.
1. Definir la hipótesis
"El nuevo flujo de Onboarding va a aumentar la conversión de Nuevo Usuario a Registro".
2. Definir el grupo Control y la Variante
- Variante A: 20% de los nuevos usuarios.
- Control: 80% de los nuevos usuarios.
3. Calcular el tamaño mínimo de muestra
Para esto, puedo usar una calculadora de tamaño de muestra (por ejemplo: evanmiller.org/ab-testing/sample-size.html). Los inputs necesarios son:
- CVR que tengo hoy en día de Nuevo Usuario a Registro. Digamos que es un 45%. Esto quiere decir que de todos los nuevos usuarios que se bajan mi app / ingresan a mi web, sólo el 45% finaliza el registro.
- Mínimo Efecto Detectable. Es la mínima diferencia entre las ramas que mi experimento va a poder detectar un (1-β)% de las veces. De forma standard se define en 5%.
- Elegir si voy a analizar las diferencias entre ramas de forma Absoluta o Relativa: de forma standard se define Relativa.
- 1−β (1-Beta): corresponde a la probabilidad de detectar el Mínimo Efecto Detectable. De forma standard se usa 80%.
- α (Alfa): corresponde a la probabilidad de validar la hipótesis (confirmar que el test fue exitoso), cuando, en realidad, no hay tal diferencia entre las ramas (el test no debería haber sido exitoso). De forma standard se usa 5%.
Con estos 4 parámetros puedo obtener el número mínimo de muestra para cada rama. Una vez obtenido el número, me planteo:
¿Con mi flujo actual de nuevos usuarios, cuánto tardaría en terminar el test? Por ejemplo, si el tamaño de muestra mínimo por rama es de 10.000 users y mi app/web tiene 500 usuarios nuevos por día (400 al control y 100 a la variante A), tardaría 100 días en llegar a los users necesarios en la Variante A.
Acá la teoría choca con la realidad y para ejecutar el AB test en un tiempo razonable (por ejemplo, 15 días), voy a tener que definir un tamaño de muestra menor cambiando algunos de los parámetros que definí antes. Por ejemplo, puedo setear el Mínimo Efecto Detectable en 7% o aumentar el % de users que va a la Variante A al 30%.
4. Correr el AB test
5. Finalizar el test cuando ambas ramas llegan al tamaño de muestra mínimo
Voy a tener que ver:
- Número de nuevos usuarios que entraron a la Variante A y al Control.
- Número de usuarios de cada variante que se registraron.
Ingreso los datos en mi calculadora de significancia estadística (por ejemplo: evanmiller.org/ab-testing/chi-squared.html) y analizo. Los escenarios pueden ser:
- Escenario A: la Variante A tiene mejor conversión que el control con un 95% (1-α) de confianza. Se confirma la hipótesis y se adopta el nuevo onboarding.
- Escenario B: el Control tiene mejor conversión que la Variante A con un 95% (1-α) de confianza. Se rechaza la hipótesis y no se adopta el nuevo onboarding.
- Escenario C: no hay conclusiones estadísticamente significativas, por lo que no hay razón para cambiar el onboarding actual. Se rechaza la hipótesis y no se adopta el nuevo onboarding.
¿Estás empezando a correr AB tests y tenés dudas? Escribime y charlamos.