Korelace

Korelace znamená vztah. V TLSS pomocí ní zkoumáme, jestli spolu dva znaky (veličiny) nějakým způsobem souvisí.

Korelací se správně statisticky potvrzuje vztah dvou řad spojitých dat (často se korelace použivá i pro počty, pokud můžeme mít na osách x i y teoreticky alespoň 15 různých hodnot). Graficky se tento vztah znázorňuje v tzv. korelačním diagramu

Pokud máme jiný typ dat, zjišťujeme jejich závislost testem Chi-kvadrát  nebo prostřednictvím binární logistické regrese.

Příklady:

  • Existuje vazba mezi počtem telefonátů jednoho obchodníka a počtem jeho objednávek? (B2B svět)
  • Existuje vazba mezi počtem otevřených a uzavřených trouble ticketů? (svět interního IT)

Existuje vazba mezi počtem zákazníků a cenou? (B2C svět)

  • Existuje vazba mezi konkrétní komoditou a hodnotou měny? (trhy a akcie)
  • atd.

Míru korelace (jak silná je vazba) zjištujeme pomocí korelačních koeficientů, které nabývají hodnot od -1 do +1. 

Jestli existuje mezi daty lineární závislost (v ideálním případě by se body v korelačním diagramu daly proložit přímkou), zjišťuje Pearsonův korelační koeficient.

Jestli existuje jiný druh závislosti (body v korelačním diagramu by se daly proložit křivkou monotónní funkce), nám umí zjistit Spearmanův korelační koeficient.

Korelace nemusí být kauzalita

Začátečníci dělají při analýze často základní chybu. Předpokládají, že pokud existuje korelace mezi A a B, musí být A příčinou B. To může a nemusí být pravda. Zjistíme-li, že existuje korelace mezi dvěma znaky A a B, můžeme říct, že když se jeden mění, mění se i druhý. Bohužel to ale neznamená, že A je příčinou a B následkem (nebo naopak). Vazba neznamená kauzalitu. Skutečný stav i přes potvrzenou korelaci může  vypadat takto

  1. A může být přičinou B
  2. B může být příčinou A
  3. A i B může způsobovat jiná příčina C
  4. Korelace je čistě náhodná a A i B vznikly naprosto nezávisle a nemají spolu nic společného

Pozor na falešné korelace

Existuje mnoho webových stránek, které pro zábavu ukazují vysoké korelační koeficienty znaků, které spolu logicky nesouvisí, na základě dat jim však vychází vysoký korelační koeficient. Opět se zde potvrzuje, že při práci s daty musíme používat hlavně svou hlavu, na to žádný statistický SW zatím nestačí.

K čemu nám tedy korelace nejčastěji pomůže?

  • Při zlepšování procesů často zkoumáme, jestli spolu nějaké aktivity souvisí,  jestli např. počet telefonátů obchodníka nebo jejich délka mají vliv na počet realizovaných objednávek a tím i na velikost tržeb. Jestliže totiž zjistíme vysokou míru korelace (znaky spolu souvisí), dokážeme zjistit kauzalitu (co je příčina a co následek, tj. který znak ovliňuje který) a provést regresi (matematicky vztah popsat funkcí), lépe se nám plánují další aktivity pro zlepšení procesu.

Někdy se při analýze příčiny (Fishbone, 5 x proč, CRT, atd. ) neplnění CTQ dostáváme do situace, kdy je pro nás náročné (časově, finančně, lokálně, prakticky ….) nebo téměř nemožné změřit nějaký jev A. V případě, že se nám podaří najít snadněji měřitelný jev B, který s A prokazatelně koreluje a má stejnou příčinu C, máme „vyhráno“.

      • Většina čidel/snímačů funguje na nějakém principu korelace (hodnota proudu odpovídá hodnotě měřené veličiny)
      • Tokamak, ve kterém umí odborníci vyrobit teplotu 120 000 000 °C. Myslíte si, že to měří teploměrem? Daleko snadnější je to měřit něčím, co s touto teplotou koreluje.
      • Nebo obyčejná trigonometrie. Geodeti přece neměří metrem vzdálenost mezi dvěma kopci.
      • Pomocí GPS se neměří souřadnice na zemi metrem, ale měří se časové rozdíly přichodů signálu z minimálně tří různých družic.
      • atd.