Statistiky a parametry

Statistika je číslo, které vzniklo výpočtem z dat vzorku.

Parametr je číslo, které

Při procesu výroby produktu nebo dodávky služby pravidelně kontrolujeme (měříme) na jeho výstupu CTQ. Tím získáváme řady dat (vzorky).

Na základě těchto vzorků dat se snažíme odvodit data:

  • která jsme nenaměřili
  • která přijdou v budoucnu

Jestliže víme, že se naše data ve vzorku  tváří coby homogenní (v minulosti i teď), můžeme je extrapolovat (viz. regrese dat

Jakmile nabíráme dostatečně velké vzorky homogenních dat, zjistíme, že mají podobnou konzistenci a variabilitu. Kdybychom porovnali polygony histogramů těchto vzorků, zjistili bychom, že jsou velmi podobné. A tudíž se dají aproximovat pomocí nějaké křivky, která se dá popsat matematickou funkcí f(x).

S řadou dat vzorku se špatně manipuluje, proto se ji snažíme popsat nějakým číslem, např. aritmetickým průměrem. rozpětím, směrodatnou odchylkou, atd, které jsme získali výpočtem  z dat vzorku. Takovému výpočtu se říká STATISTIKA (pozor, neplést si se statistikou (homonymum), což je práce s daty).

Funkce, která je vyjádřením křivky, obsahuje písmena, která můžeme různě měnit a podle toho se také mění tvar křivky. 

Např. kloboukovitá křivka na obrázku výše vpravo (Gaussova křivka) se dá popsat takovouto funkcí:

Jesliže budeme měnit dvě písmena řecké abecedy v této funkci (sigma a mí), bude se nám měnit tvar a poloha křivky. Těmto písmenům řecké abecedy, která určují tvar a polohu křivky, se říká PARAMETRY

„Mí“ reprezentuje aritmetický průměr a „sigma“ směrodatnou odchylku . Řecká písmeno „pí“ (Ludolfovo číslo) a e (Eulerovo číslo) jsou konstanty, ty se nemění.

Funkce, jejíž křivka (grafické vyjádření hodnot) aproximuje polygon histogramu, se se používá pro matematický model pravděpodobnosti výskytu dat v populaci.

Když z dostatečně velkého vzorku normálních dat spočítáme jeho statistiky, můžeme na základě nich odhadnout parametry modelu, který bude simulovat výskyt dat v populaci.

Takže pokud máme např. dostatečně velký vzorek  „normálních“ dat, můžeme z něj spočítat dvě statistiky: aritmetický průměr  a směrorodatnou odchylku. Hodnoty těchto statistik budou téměř stejné (jak moc se mohou lišit zjistíme pomocí intervalů spolehlivosti)  jako hodnoty parametry modelu (viz. bodový odhad) a tím pádem teoretické populace (jak si myslíme, že vypadá polygon histogramu populace, který nemůžeme sestavit, protože nemáme všechna  data). 

V případě vzorků, které nevykazují normalitu, raději odhadujeme vhodný  model pomocí empirické distribuční funkce.

Jak rozlišujeme, jestli se jedná o arimetický průměr populace (modelu) nebo vzorku?

Abychom vždy rozlišili, jestli se bavíme o statistikách vzorku nebo parametrech populace, používáme pro ně různou abecedu. Statistiky značíme latinkou a parametry písmeny řecké abecedy.