Logaritmické transformace

Mnoho statistických SW nabízí transformace, které upraví data tak, aby data byla více „normální“. Důvodem je potřeba odhadu rozptylu dat v populaci na základě dat vzorku. Nejčastěji k tomu dochází při zjišťování stability a způsobilosti procesu, případně při testování hypotéz.

Tyto transformace jsou relativně složité, využívají k tomu logaritmické (někdy exponenciální) funkce a jsou určena pro data, která jsou celkově „nenormální“ (zkosená), nikoliv protože jejich normalitu narušují pouze odlehlé hodnoty.

Jak takové transformace fungují

  • Původní data, která jsou na jedné straně histogramu daleko od sebe, jsou po transformaci dat blíž u sebe.
  • Na druhém konci histogramu, kde byla původní data blízko sebe, jsou po transformaci od sebe dál.

Je třeba počítat s tím, že se může stát, že i když naše původní nenormální data transformujeme pomocí těchto transformací, budou sice více „normální“, ale třeba ještě ne dostatečně, aby prošla testem normality. Důvodů může být mnoho: máme data smíšená z více populací (změna dodavatele surovin, klimatické podmínky, opotřebení nástroje,…), vědomé změny v procesu, nedostatečné rozlišení měření, atd.

Některé statistické analýzy (např. testování hypotéz) sice vyžadují mít „normální“ data, ale často stačí použít analýzy pro „nenormální data“. Logaritmické transformace dat totiž ničí souvislost mezi daty (mění měřítko v histogramu na ose x), a  jestliže chceme rozumět datům (což je přece účelem analýzy dat), potřebujeme vztahům mezi daty rozumět. Jestli data transformovat nebo ne, je neustálým bojem mezi praktiky.

Rada: 

Když potřebujeme výsledky zlepšování (stabilita procesu ve formě „všechny hodnoty máme v kontrolních limitech“  a způsobilost procesu ve formě „vše v limitech s vyšší hodnotou sigma po zlepšení“) prezentovat managementu, rozhodně to neděláme s transformovanými daty. Management chce vidět vždy data původní, protože těm rozumí.

Velké debaty, jestli jít do logaritmické transformace, nastávají, pokud víme, že máme hodně asymetrická (zkosená) data a potřebujeme je dát do kontrolního grafu  I-mR.

Hodně zkosená data mají totiž průměrné klouzavé rozpětí nižší než normální data, takže nám vyjdou kontrolní limity blíže k sobě.  Tím se zvyšuje riziko vyššího počtu falešných signálů. Dá se tomu pomoci tím, že místo aritmetického průměru klouzavého rozpětí použijeme jeho medián.

V případě, že se rozhodneme, že to bez takovéto transformace nepůjde, vybíráme většinou mezi dvěma transformacemi. Jedna se jmenuje Johnsonova a druhá Box-Coxova. 

Při  rozhodování, kterou z nich vybrat,  můžeme být ovlivněni okolnostmi:  Johnsonovou transformací se nám někdy nepodaří transformovat i specifikační limity a někdy ani nelze za nastavených podmínek (hladina spolehlivosti – více viz Johnsonova transformace) transformaci provést.

Box-Coxova transformace provede transformaci vždy (někdy musíme předtím záporná data posunout na ose x – více viz Box-Coxova transformace), ale ne vždy se podaří transformovat data tak, aby byla normální (= neprojdou testem normality).

Pro kterou z nich se rozhodnout nám například poradí i  Minitab na základě p-hodnoty, kterou nám nabídne. Využíváme k tomu nabídku  výběru nejvhodnějšího modelu  (Minitab nenabízí pouze modely, ale pro porovnání uvádí i p-hodnoty transformovaných dat provedených těmito dvěma transformacemi).

 

Trošku jako z Hellerova románu Hlava 22

S Box-Coxovou transformací se setkávají účastníci  školení LSS Black Belt setkávají při výkladu kontrolních grafů. Učí se (naprosto v rozporu s přístupem W. A.  Shewharta – otce kontrolních grafů), že do kontrolních grafů mohou dávat pouze data, která mají normální rozdělení (rozuměj: pravděpodobnost jejich výskytu se dá simulovat modelem normálního rozdělení). A pokud nemají, že je musí transformovat. Můžou se tak ale dostat do zacykleného stavu:  Pomocí kontrolního grafu potřebují zjistit, jestli je jejich proces stabilní, tj. oddělit pomocí kontrolních limitů běžnou a zvláštní variabilitu. Aby mohli použít kontrolní graf, musí mít (dle školitelů) normální data. Jakmile zjistí, že data nejsou normální, mají je transformovat. Transformace však vyžaduje, aby data neobsahovala zvláštní variabilitu, což právě chtěli zjistit v tom kontrolním grafu. 

My, pokud k tomu nejsme tlačeni, logaritmické transformace nepoužíváme. Jakmile totiž pro výpočet limitů nepoužijeme klasický výpočet pro směrodatnou odchylku ze všech dat vzorku, což se učí na mnoha školeních LSS (tzv. globální disperze dat), ale použijeme  výpočet pomocí tzv. lokální disperze dat „sigma (x)“, nejlépe pomocí dvoubodového klouzavého rozpětí, normalitou dat se vůbec nemusíme zaobírat. Kontrolní limity  takto totiž odfiltrují téměř veškerou zvláštní variabilitu, a to bez ohledu na tvar histogramu.