Při procesu výroby produktu nebo dodávky služby pravidelně kontrolujeme (měříme) na jeho výstupu CTQ. Tím získáváme řady dat (vzorky).
Na základě těchto vzorků dat se snažíme odvodit data:
která jsme nenaměřili
která přijdou v budoucnu
Jestliže víme, že se naše data ve vzorku tváří coby homogenní(v minulosti i teď), můžeme je extrapolovat (viz. regrese dat)
Jakmile nabíráme dostatečně velké vzorky homogenních dat, zjistíme, že mají podobnou konzistenci a variabilitu. Kdybychom porovnali polygony histogramů těchto vzorků, zjistili bychom, že jsou velmi podobné. A tudíž se dají aproximovat pomocí nějaké křivky, která se dá popsat matematickou funkcí f(x).
S řadou dat vzorku se špatně manipuluje, proto se ji snažíme popsat nějakým číslem, např. aritmetickým průměrem. rozpětím, směrodatnou odchylkou, atd, které jsme získali výpočtem z dat vzorku. Takovému výpočtu se říká STATISTIKA (pozor, neplést si se statistikou (homonymum), což je práce s daty).
Funkce, která je vyjádřením křivky, obsahuje písmena, která můžeme různě měnit a podle toho se také mění tvar křivky.
Např. kloboukovitá křivka na obrázku výše vpravo (Gaussova křivka)se dá popsat takovouto funkcí:
Jesliže budeme měnit dvě písmena řecké abecedy v této funkci (sigma a mí), bude se nám měnit tvar a poloha křivky. Těmto písmenům řecké abecedy, která určují tvar a polohu křivky, se říká PARAMETRY.
„Mí“ reprezentuje aritmetický průměr a „sigma“ směrodatnou odchylku . Řecká písmeno „pí“ (Ludolfovo číslo) a e (Eulerovo číslo) jsou konstanty, ty se nemění.
Funkce, jejíž křivka (grafické vyjádření hodnot) aproximuje polygon histogramu, se se používá pro matematický model pravděpodobnosti výskytu dat v populaci.
Když z dostatečně velkého vzorku normálních datspočítáme jeho statistiky, můžeme na základě nich odhadnout parametrymodelu, který bude simulovat výskyt dat v populaci.
Takže pokud máme např. dostatečně velký vzorek „normálních“ dat, můžeme z něj spočítat dvě statistiky: aritmetický průměr a směrorodatnou odchylku. Hodnoty těchto statistik budou téměř stejné (jak moc se mohou lišit zjistíme pomocí intervalů spolehlivosti) jako hodnoty parametry modelu (viz. bodový odhad) a tím pádem teoretické populace (jak si myslíme, že vypadá polygon histogramu populace, který nemůžeme sestavit, protože nemáme všechna data).
Jak rozlišujeme, jestli se jedná o arimetický průměr populace (modelu) nebo vzorku?
Abychom vždy rozlišili, jestli se bavíme o statistikách vzorku nebo parametrech populace, používáme pro ně různou abecedu. Statistiky značíme latinkou a parametry písmeny řecké abecedy.