Opravný faktor c4
c4 je číslo, kterým musíme vydělit směrodatnou odchylku vzorku o konkrétní velikosti tak, abychom z něj mohli odhadnout, jak velká je směrodatná odchylka populace.
I přestože průměrný rozptyl dat se nemění s velikostí vzorku, průměrná směrodatná odchylka má tendenci klesat s poklesem počtu dat. Tento pokles je markantní u vzorků s malým počtem dat. Faktory c4 byly zjištěny empiricky, jsou popsané funkcí a nejen pro nás, uživatele TLSS, jsou tabelizované.
Provádíme-li analýzu dat, potřebujeme často k některým výpočtům použít směrodatnou odchylku celé populace. To je však při měření na procesu nereálné (neumíme posbírat všechna data), a tudíž nemáme jak tuto globální směrodatnou odchylku spočítat. A tak se ji snažíme odhadnout. Jedním ze způsobů je odhad ze směrodatné odchylky vzorku. Tu když vydělíme faktorem c4, jehož hodnota závisí na velikosti vzorku, získáme bodový odhad směrodatné odchylky populace.
Faktor c4 můžeme v literatuře najít pod různými názvy:
- Opravný koeficient c4
- Opravný faktor c4
- Opravný bias faktor c4
- Proporcionální koeficient c4
Tabulka hodnot c4
Z tabulky je patrné, že jestliže má náš vzorek 25, resp. 30 dat a více, je faktor c4 téměř 1. Z toho plyne, že se směrodatná odchylka takto velkých a větších vzorků se od směrodatné odchylky populace téměř neliší (dělíme jedničkou) a tudíž je jedno, který ze dvou vzorců pro výpočet směrodatné odchylky velkého vzorku dat použijeme.
Kde se hodnoty c4 vzaly?
Hodnoty byly zjištěny empiricky. Vychází z průměrné směrodatné odchylky vzorků o konkrétním počtu homogenních dat.
Ukážeme si to na vzorku o velikosti třeba 5. Vybereme hodněkrát – je to statistika (např. milionkrát) vzorek o velikosti n=5 z populace standardizovaného normálního standardizovaného rozdělení dat, jejíž parametry jsou všeobecně známy (průměr populace je 0 a směrodatná odchylka je 1).
Z každého vzorku spočítáme směrodatnou odchylku (získáme tak milion směrodatných odchylek) a z těch spočítáme průměr.
A ejhle, nevyjde nám velikost tohoto průměru směrodatných odchylek vzorků roven 1, ale pouze 0,94, tj. směrodatná odchylka vzorku pěti dat je průměrně o 6% (1-0,94 = 0,6) menší, než je směrodatná odchylka celé populace.
A právě číslo 0,94 najdeme v tabulce hodnot c4 pro vzorek o velikosti n=5.
Stejně tak bychom viděli např. se vzorkem o velikosti n=14, že je průměr směrodatných odchylek těchto vzorků o 2% (průměrná směrodatná odchylka by nám vyšla 0,981) menší než směrodatná odchylka populace.
Jak to technicky děláme? V nějakém statistickém SW (Excel, Minitab, …) vygenerujeme do jednoho sloupce velké množství dat (je to statistika, tudíž funguje na velkém počtu – my jsme použili jeden milion dat) normálního rozdělení o průměru 0 a směrodatné odchylce 1. Do dalších čtyř sloupců vygenerujeme totéž. Do šestého sloupce dáme výpočty výběrových směrodatných odchylek každého jednotlivého řádku prvních pěti sloupců (tím jsme nasimulovali náhodně vybraný vzorek o pěti hodnotách a výpočet jeho směrodatné odchylky). Spočítáme-li průměr těchto směrodatných odchylek, vyjde nám hodnota 0,94, což odpovídá tabulkové hodnotě c4 pro velikost vzorku n=5. Stejně tak můžeme vygenerovat další hodnoty c4 (velikost vzorku odpovídá počtu sloupců normálních normovaných dat).
Jak se c4 vypočítá?
Proložíme-li tabulkové hodnoty, vidíme určitou proporcionální křivku, která potvrzuje, že průměrná směrodatná odchylka má tendenci nepatrně růst s počtem dat (čím více dat ve vzorku máme, tím dělíme jeho směr. odchylku menším číslem, abychom dostali hodnotu pro odhad směrodatné odchylky populace). Tato křivka však není přímá úměra, má vysoký nárůst v případě malých vzorků, od 30 dat je nárůst minimální (dělíme téměř jedničkou – směrodatná odchylka vzorku se téměř neliší od směrodatné odchylky populace).
Tato křivka je matematicky popsána: