Hypergeometrické rozdělení patří mezi modely pro diskrétní data. Používá se při hledání pravděpodobnosti, že při výběru vzorku o počtu n z populace o velikost N, kde se vyskytuje M jednotek s určitou vlastností (jev, defekt) bude mít x z nich tuto určitou vlastnost.
Na rozdíl od binomického rozdělení zde známe velikost populace N a v ní počet jednotek s konkrétní vlastností M. U binomického rozdělení známe pouze pravděpodobnost, že jev (vlastnost, defekt) nastane.
Ano, to je přesně ten případ s těma kuličkama, co známe ze školy: máme pytlík, v něm jsou černé a bílé kuličky a jaká je pravděpodobnost, že když vytáhneme nějaký počet kuliček, že bude konkrétní počet kuliček bílých. Někdo si to pamatuje s ponožkama v šuplíku. Kazdopádně, většina z nás to ve škole nesnášela.
V praxi ho můžeme potřebovat, když zjišťujeme např.
Pravděpodobnost, že když vybereme vzorek 10 ks z populace o 500 ks, tak maximálně 1 z nich bude defektní, když víme, že defektních jednotek je v populaci 47.
Pravděpodobnost, že když z 20 pracovníků oddělení (známe poměr mužů a žen) sestavíme náhodně tým o 4 lidech, že bude genderově vyrovnaný.
Rozdělení určují 3 parametry:
počet jednotek v populaci – N
počet jednotek v populaci s nějakou vlastností (defekt) – M
velikost (počet jednotek) vzorku – n
Tyhle grafy vypadají, jako když je sem někdo omylem nakopíroval dvakrát. V prním řádku se mění počet defektních jednotek v populaci a vybíráme stále stejně velký vzorek.
V druhém řádku je počet defektních jednotek v populaci stejná, ale pokaždé jsme vybrali jinak velký vzorek.