Příručka marketéra: CAM neboli Custom Attribution Model

Většina z vás každý den minimálně jednou navštíví Google Analytics, abyste se podívali na návštěvnost či výkon kampaní. A právě u měření výkonu jsou podstatné dvě věci: značkování návštěvnosti a hodnocení založené na atribučním modelu. Tento článek je právě o atribučním modelování a jednom “atribučním experimentu”, který si podle popsaného návodu můžete sami vyzkoušet.

Obecně se dá říct, že atribuční model v chápání tohoto článku slouží k hodnocení kanálů návštěvnosti a jejich podílu na transakcích tvořících obchodní výsledek vašeho či klientova podnikání. Ti z vás, kteří spojení “atribuční model” nikdy neslyšeli, naleznou základní informace v přehledu atribučních modelů nápovědy pro Google Analytics. Někteří z vás určitě četli k tomuto tématu velmi výživný článek Multi-Channel Attribution Modeling: The Good, Bad and Ugly Models z roku 2013 od Avinashe Kaushika, popisující pro i proti jednotlivých modelů. Další navazující problémy typu ROPO (“Research online, purchase offline”) a podobně jsou popsané v článku Multi-Channel Attribution: Definitions, Models and a Reality Check od stejného autora.

Většina dnešního online podnikání je přesto vyhodnocována pomocí ukazatele “Last non-direct click”. Pro ty z vás, kteří se nebojí experimentovat, přináším malou ukázku vlastního atribučního modelu, který jsme si udělali v Mediu, říkejme mu Custom Attribution Model (dále jen CAM). Proč, a k čemu je to dobré? Můžete si například ověřit, kolik vás stojí aktivace návštěvníka a jeho konverze na zákazníka, zjistit délku nákupního cyklu zákazníků a otestovat hypotézy ohledně investic do reklamy.

p1

Základními předpoklady pro podobné experimenty je identifikace jednotlivých návštěvníků a zákazníků na webu. Jako zdroj dat můžete použít Google Analytics nebo jakýkoliv jiný nástroj pro měření návštěvnosti. Dále budete potřebovat nějaký programovací jazyk, ve kterém budete data zpracovávat a programovat samotný CAM. Na vyhodnocení a vizualizaci výsledků už stačí Excel.

Měření uživatelů a sběr dat

Každý atribuční model je snahou vystihnout reálné chování uživatelů nebo se mu aspoň přiblížit. V tomto experimentu vycházíme z dostupných zdrojů dat s dvěma premisami:

1. Nebudete schopni spárovat uživatele používající více zařízení nebo naopak rozpoznat více osob pracujících s jedním zařízením.

2. Pokud použijete pro identifikaci cookies, někteří uživatelé je budou blokovat nebo je pravidelně promazávat. Odhadem se to týká cca 15 % uživatelů.

Neříkám, že zmíněné dva problémy nelze řešit, ale řešení se může nacházet na hranici právní korektnosti a ve výsledku také data nemusí být 100% správná.

Předpokládám, že využijete standardní cookie, kterou si začnete posílat do vlastní dimenze v GA. Tento údaj bude sloužit jako primární klíč pro párování návštěvníků. Návod můžete naleznout v článku Improve Data Collection With Four Custom Dimensions. Ještě připomínám, že primární klíč je “otiskem” zařízení, které bylo použito pro přístup na web, nikoli identifikátorem uživatele používající zařízení, viz výše uvedený bod 1.

Vstupní a výstupní data

Vstupní a výstupní data mají shodnou strukturu, neboť algoritmus dopočítává hodnotu do již připraveného sloupce.

Popis sloupců souboru:

  • cookieID – označení prohlížeče uživatele, unikátní identifikátor pro rozlišení uživatelů
  • date, hour, minute – datum a čas jednotlivých událostí sloužící pro řazení
  • hitType – informace o typu události
  • campaign, source, medium – informace o kanálu návštěvnosti
  • hitValue – slouží pro předání hodnoty hit pointu
  • revenue – sloupec obsahující hodnotu transakce

V našem případě jsme ke klasickým dostupným datům z GA přidali ještě data o zobrazení formátů z reklamního systému AdForm.

Všechny tyto informace tvoří seznam událostí za dané časové období vedoucí k jednotlivým konverzím.

Logika a fungování CAM

V experimentu jsme se rozhodli pro kombinaci “Last non-direct click” a “Position based”, který má tvar nepravidelného “U shape” modelu. Tyto přístupy jsme doplnili ještě o několik specifických podmínek týkajících se dat o impresích bannerů z AdForm sítě. Dalším a velmi důležitým parametrem týkající se atribučních modelů je čas, neboli období, ve kterém se vyhodnocuje atribuce. Klasické nastavení GA je 30 dní. Pokud už jste někdy s atribučními modely experimentovali, víte, že GA umožňují toto období rozšířit až na 90 dní.

Toto omezení jsme v našem případě úplně odstranili, abychom mohli sledovat a vyhodnocovat reálné chování uživatelů. Nutno podotknout, že v našem případě se nejednalo o klasický produkt a konverzi typu objednávka, ale o vyplnění kontaktního formuláře na službu dlouhodobého charakteru. Z toho také vyplývá, že atribuční model nerozpočítával hodnoty jednotlivých transakcí, ale jednotlivé konverze.

Algoritmus funguje tak, že seřadí data podle cookieID, data, času a rozpočítá mezi ně podíl na konverzi. Vzhledem k faktu, že návštěvník může splnit více cílů v jedné návštěvě, stejně jako odeslat více objednávek, je třeba po sobě následující konverze sečíst. Rozdělení podílu na konverzi je realizováno dělením v poměru (35 % – 20 % – 45 %) podle pozice v atribuční cestě.

V případě konverzí procentuální číslo odpovídá přímo hitValue. V případě transakcí by bylo třeba vypočítat hodnotu z celkové hodnoty z Revenue. Podstatou vlastního algoritmu CAM je sada podmínek, které hodnotí jednotlivé návštěvy vedoucí ke konverzi. První podmínkou v algoritmu je “Non direct”. Tato podmínka dělí další zpracování na dvě větve. Výjimkou z této podmínky jsou konverzní cesty, kde se nenachází jiný zdroj než “Direct”, nebo pokud se jedná o jednu návštěvu, ve které byla provedena konverze. Další zpracování probíhá ohodnocením prvního a posledního zdroje návštěvnosti a následným rozpočítáním zbytku mezi ostatní zdroje.

p2

Ukázka rozdělení konverze na 3 a 5 zdrojů vedoucí ke konverzi. Z obrázku je vidět, že mezilehlé zdroje si mezi sebou rozdělí vždy maximálně 20% podíl na konverzi. Následující obrázek ilustruje jednu z nejdelších cest ke konverzi, kdy uživatel potřeboval celkem 53 interakcí, které byly vykonány za 8 dní.

p3

Modře jsou znázorněna zhlédnutí bannerů v reklamní síti a oranžově jsou návštěvy na webu. Hodnoty jednotlivých interakcí byly upraveny. Jedná se o vizualizaci typu interakce a jejich pořadí.

V následujícím histogramu je na ose X vidět počet uživatelů a osa Y znázorňuje počet dní mezi první a poslední interakcí návštěvníka.

p4

V histogramu je vidět, že více jak 95 % identifikovaných návštěvníků udělalo konverzi do 30 dní po prvním kontaktu s kampaní.

CAM vs GA

Většina konverzích cest byla kratší než 30 dní. Proto přikládám srovnání s klasickým “Last non-direct click” modelem z GA v prvním sloupečku tabulky. Druhý sloupeček nabízí srovnání při zahrnutí zhlédnutí jednotlivých formátů, což způsobilo ještě výraznější snížení počtu konverzí přiřazených jednotlivým kanálům ve prospěch Displaye.

p5

Srovnání je provedeno za více jak 60 dní při celkovém počtu konverzí na vzorku více jak 400 konverzí. CAM na těchto datech pracoval s 0,5% chybou způsobenou zaokrouhlováním.

Závěr aneb co dále

Pokud se do tohoto experimentu pustíte, podívejte se na konverzní cesty podle typu kanálu dané interakce a posloupnosti jednotlivých kanálů a četnosti těchto cest. Tento pohled je velmi důležitý pro mediální plánování, zejména pro jednotlivé fáze nákupního procesu, jak již bylo popsáno ve článku Příručka marketéra: STDC – měření a vyhodnocování.

V Mediu jsme šli ještě o krok dále. Propojení s databází interních systému klientovi poskytlo informace, kteří návštěvníci vyplnili formulář a nakonec uzavřeli smlouvu. Díky tomu jsme opravdu schopni vypočítat návratnost jednotlivých kanálů.

Celým výstupem pro klienta je “End to End” měření – od anonymního uživatele zasaženého bannerem v reklamní síti přes návštěvníka webu, potenciálního zákazníka, který vyplnil formulář, až po spokojeného zákazníka čerpajícího služby. Do procesu vyhodnocování plánujeme ještě zahrnout data z kontaktního centra.

Pokud se chcete pustit do dalšího experimentování, doporučuji článek Measuring Incrementality: Controlled Experiments to the Rescue!.

Jako vždy je toho ještě spousta, co by se dalo udělat. O tom ale až někdy příště. Těším se na vaše otázky a zkušenosti.

Poděkování

Za spolupráci a velký díl práce bych chtěl poděkovat Markovi Lutonskému (@marekl) a Matěji Humpálovi (@neldorling).

P.S. Pokud se na to sami necítíte…

Značkujete svoje kampaně aspoň na 95 %? Jste ochotni si přiznat “reálné náklady” na lidi (PPC-čkaře, copywritery, grafiky), pronájem nástrojů, poplatky na platební bráně a další? Pokud ano, ozvěte se nám, jednoho z vás vybereme a spočítáme mu jeho reálnou návratnost investic do marketingových kanálů!

 

Diskuze k článku