8 chyb které děláte při A/B testování

8 chyb které děláte při A/B testování Potřebujete vědět, jestli nový design zvýší prodeje? Vyplatí se Vám newsletter? Jak velká ikona přiměje lidi kliknou? Odpověď získáte díky A/B testování – sto let starého nástroje, který je i přesto nejznámější metodou sběru dat v marketingu. Ne vždy ho ale používáme správně. Nejčastější omyly se dozvíte v dnešním článku. Zdroj: Freepik O co při A/B testování jde A/B testování pomáhá se zdánlivě jednoduchou otázkou: Co je lepší, A nebo B? Máte dvě obálky knížky a nevíte která je lépe prodejná. Dvě verze tlačítka subscribe a hledáte, které má větší míru prokliku. Dvě verze reklamy a zjišťujete, která povede k větší míře konverzí. Google díky A/B metodě postupně otestoval 41 druhů modré, než se rozhodl, jak obarví svoje internetové linky. V současném online marketingu se A/B testování využívá všude – od web designu, online nabídek, po slogany a popisy produktů. Oblíbenost metody je ale její hlavní slabinou. Často ji v praxi dělají lidé bez formálního statistického vzdělání. Při kvalitním zaučení to nemusí vadit. Statistika ale není jednoduchá a svádí k omylům. Proto jsme pro vás shrnuli ty nejčastější. Přepokládáme, že už v problematice máte základní znalosti. 1) Netestujete dostatečně dlouho Hlavním cílem A/B testování je odejít se statisticky signifikantním výsledkem. Když v praxi konečně klesne p hodnota pod magickou hranici 0,05, mnoho laiků chce testování ukončit. Statistické signifikance jsme dosáhli, tak proč testovat dál a mařit čas a peníze? Tento přístup je chybný, protože riskujete, že vaše měření nebude spolehlivé. Délka testování se kalkuluje dopředu a v potaz bere mnohem více faktorů, jako: Statistickou sílu testuEfekt dne v týdnuSezónnost atp. Pokud testování ukončíme předčasně, existuje vysoká pravděpodobnost, že i statisticky signifikantní výsledky jsou chybné. Závěry měření také nebudou replikovatelné. Vždy měřte tak dlouho jak jste si naplánovali! 2) Vás test není dostatečně silný Často se stane, že dostanete statisticky nesignifikantní výsledek. To samotné ale ještě není důvodem hypotézu zamítnout. Je možné, že pouze nemáte dostatečně velkou sílu testu. Síla testu vyjadřuje pravděpodobnost, že existující rozdíl mezi alternativami dokážete detekovat/prohlásit za statisticky významný. V praxi chceme, aby byla co největší, protože pokud je nízká, děláme výzkum zbytečně. Obvykle toužíme po síle 0,8 a výše. Sílu testu ovlivňuje skutečná velikost efektu (čím větší, tím větší síla, protože je větší pravděpodobnost, že efekt detekujeme) a počet participantů. V praxi zvládnete spočítat kolik lidí potřebujete, aby byl test silný tak a tak. Někdy se ale může stát, že během experimentu tolik lidí nezískáte. Například jsme chtěli tisíc, na stránce jich ale zrovna bylo jen 900. Experiment se v tomto případě vyplatí opakovat, i pokud vyšel statisticky nesignifikantní. Je totiž dost možné, že jste měli prostě jen smůlu. 3) Nesplňujete metodologické podmínky experimentu A/B testování je druhem řízeného experimentu. Zkoumá kauzální vztah mezi proměnnými (barvou tlačítka a mírou konverzí). Jednou nezávislou proměnnou manipulujete (teď půjde zelené tlačítko, teď bílé…) a zkoumáte, jak se v reakci na to mění hodnoty druhé závisle proměnné (míra konverzí, prokliku, cokoliv aktuálně měříte). Z naměřených dat můžete získat kauzální tvrzení (A způsobuje více konverzí než B). Jako každý experiment, má i A/B testování přísné metodologické podmínky: Účastníky studie vyberte náhodně. Náhodnost znamená, že nelze určit kdo bude vybrán a výběr jednoho nijak nesouvisí s výběrem druhého.Účastníky studie vyberte z vhodné populace. Ta většinou tvoří všechny návštěvníky webu, někdy je ale lepší zaměřit se na jejich menší část (viz metoda blokování).Rozdělte účastníky náhodně do skupin. Experimentální skupina zažívá zkoumaný jev (dostane bílé tlačítko). Kontrolní skupina ne (dostane zelené tlačítko).Sežeňte dostatečný počet participantů pro dosažení statistické signifikance.Dopředu stanovte podobu experimentu, měření a hypotézu.Měření musí být replikovatelné. Pokud váš experiment udělá někdo jiný, musí dostat statisticky podobné výsledky. Pokud tyto a další podmínky nesplníte, mění se podstatně váha závěrů. Například, pokud participanty nevyberete náhodně, získáte kvazi experiment. Ten už nemůže vést ke kauzálnímu tvrzení (zelená barva způsobuje více konverzí). Místo toho budete jen schopni konstatovat, že zelená barva tlačítka a zvýšená míra prodejů se spolu vyskytují víc, než je běžné (korelace). 4) Špatně kontrolujete prostředí a účastníky studie Vědecké experimenty probíhají v přísně kontrolovaném prostředí laboratoře. Jedině tak dokážete ohlídat, že vaše měření neovlivní nepředvídané faktory. S experimenty na dálku to ale bývá těžší. Příklad: Malé tlačítko vedlo k méně konverzím než velké. Co když je ale ve vašem vzorku více mobilních uživatelů, kteří obecně potřebují větší ikony? Co když lidé na počítači klikají na věci více, než když jsme na telefonu? A měříte vůbec správnou skupinu? Co když v tuhle hodinu máte více starších návštěvníků, protože ti mladší jsou ve škole? Nebo jde jednoduše o efekt novosti? Obecně se těmto nezapočítaným faktorům říká confoundery. Často vznikají chybou v náboru participantů a při designu měření. V experimentech jsou vaším největším nepřítelem, protože výsledky nepředvídatelně zkreslují (jsou zdrojem nevysvětlené variability). Obecnou prevencí této chyby je dodržovat všechny podmínky experimentu a měřit co nejjednodušeji. S kontrolou správného samplingu pomáhá A/A testování. Jde vlastně o A/B testování naruby: Dvě náhodně vybrané skupiny zažijí stejnou věc (zelené tlačítko). Výsledky by měly být statisticky podobné. Pokud nejsou, je něco špatně. 5) Špatně interpretujete výsledky Typický výsledek A/B testování vypadá následovně: Control: 15% (+/- 2.1%) Variation 18% (+/- 2.3%). Statisticky to znamená, že 18 % uživatelů kliklo na nově zavedený prvek, s mezní chybou 2,3 % (tak velká chyba odhadu, že větší už je jen málo pravděpodobná). Tento výsledek je ale pouhým odhadem skutečné hodnoty statistiky v populaci. Je proto chyba říkat, že skutečná míra konverzí leží mezi 15,7 % a 20,3 %. Statisticky správně můžete říct pouze to, že pokud byste měření donekonečna opakovali, v 95 % případů bude vámi naměřený interval obsahovat skutečnou míru konverzí. Jinými slovy, v 5 % případů bude skutečná míra konverzí mimo tento interval a skutečný efekt je nižší/vyšší. Konkrétní podíl záleží na zvolené hladině spolehlivosti. Tento sofistikovanější pohled je důležitý, protože díky němu činíte lepší rozhodnutí. 3% uplift bude dobrým důvodem pro ozkoušení nové alternativy natvrdo. V jiných případech se to ale vyplatit nemusí. 6) Používáte příliš metrik zároveň Nové testovací softwary ohromují širokou nabídkou dostupných metrik. Máme to rádi (čím víc toho vím, tím víc dokážu), v praxi je to ale dost rizikové. Velké množství různorodých dat zvyšuje počet náhodných fluktuací a tím i riziko, že v nich objevíte falešné korelace. Čím více vidíme, tím více se naše myšlení překlápí k přístupu: co tu vypadá zajímavě? A to jednoduše není dobře. V naprosté většině případů se budete mýlit. U správně provedeného A/B testování vždy metriky stanovte dopředu a vyberte jich jen pár. 7) Testujete pouze jednou Průkazný experiment musí být replikovatelný. I přesto se spousta firem spokojí s prvním výsledkem a měření neopakuje. A to je chyba. I se statisticky signifikantními závěry stále existuje riziko chyby prvního stupně (falešných pozitiv). Pokud test neprovedete jednou za čas znovu, nemůžete nikdy uspokojivě vyloučit, že se ve skutečnosti mýlíte! 8) Testujete moc malé změny Produktoví manažeři často věří v přístup zavádění malých kontinuálních změn, které nakonec vyústí ve velký úspěch. Samo o sobě to není špatná filozofie. U A/B testování vás ale rychle svede na scestí. Nevýhodou zkoumání malých efektů je fakt, že značně snižují sílu testu (pokud to nevyvážíte počtem participantů, což bývá nákladné) a tím zvyšují šanci, že se v závěrech měření zmýlíte. Rizikem malých změn je i dosažení lokálního maxima. Pokud pomalu zlepšujete spoustu detailů, pravděpodobně brzo začnete stagnovat a bránit sami sobě v dosažní opravdu skvělého designu. Jen velké změny dokáží přinést velký úspěch. Závěr Zkušený statistik by k nám popsaným chybám přidal ještě tucet dalších. V praxi ale k jeho službám nemusíte mít přístup a A/B testování zůstane na laikovi s rychlokurzem. V tomto případě je dobré mít představu, co všechno vám nejspíš uniká. A pokud je snad složitost některých konceptů nad vaše síly, berte to jako důkaz toho, že založit si datové oddělení s proškolenými odborníky se vyplatí i začínajícím firmám. The post 8 chyb které děláte při A/B testování first appeared on CARE4WEB.

projít na článek

Propadly se vám obchodní výsledky? Pak možná děláte jednu z těchto pěti chyb

Propad v obchodních výsledcích je něco, čím si čas od času projde každý obchodník. I ten nejlepší. A zatímco některé negativní vlivy na výsledky se ovlivnit nedají, s drtivou většinou může prodejce něco udělat a vrátit se zpět do zelených čísel. Pokud i v

projít na článek

Kniha: Efektivní testování softwaru

Knih o testování softwaru se v posledních několika letech objevilo na našem trhu hned několik. Nejnovější z nich nesoucí název Efektivní testování softwaru od autorů Miroslava Bureše, Miroslava Rendy, Michala Doležela a dalších přináší detailní náhled na

projít na článek

Testerův rozcestník

Co je testování softwaru Pokud něco dělám, je dobré vědět, co to vlastně je. VÍCE ZDETesterův slovník Neznáte testerskou terminologii? Nevadí, zde vám bude vše vysvětleno. VÍCE ZDEAkce, setkání a kurzy Přehled testerských akcí, kurzů a setkání. VÍCE ZDE

projít na článek

Antigenní testování COVID-19

Nově jsme pro vás v naší ordinaci na Praze 3 otevřeli odběrové místo pro antigenní testy na COVID-19. Testujeme komfortně, rychle a bez čekání. Pro pojištěné klienty ZDARMA (hrazeno ze ZP). Provádíme antigenní testování na přítomnost viru SARS-CoV-2. Odbě

projít na článek

Návrh SW

Pro tvorbu software do vyvíjených aplikací má naše firma k dispozici profesionální vývojové prostředky, které zaručují vysokou úroveň technického řešení daného projektu, minimalizují počet chyb, zkracují dobu vývoje a  pomáhají snižovat vývojové náklady.

projít na článek