Hypergeometrické rozdělení

Hypergeometrické rozdělení patří mezi modely pro diskrétní data. Používá se při hledání pravděpodobnosti, že při výběru vzorku o počtu n z populace o velikost N, kde se vyskytuje M jednotek s určitou vlastností (jev, defekt)  bude mít x z nich tuto určitou vlastnost. 

Na rozdíl od binomického rozdělení zde známe velikost populace N a v ní počet jednotek s konkrétní vlastností M. U binomického rozdělení známe pouze pravděpodobnost, že jev (vlastnost, defekt) nastane.

Ano, to je přesně ten případ s těma kuličkama, co známe ze školy: máme pytlík, v něm jsou černé a bílé kuličky a jaká je pravděpodobnost, že když vytáhneme nějaký počet kuliček, že bude konkrétní počet kuliček bílých. Někdo si to pamatuje s ponožkama v šuplíku. Kazdopádně, většina z nás to ve škole nesnášela.

V praxi ho můžeme potřebovat, když zjišťujeme např.

  • Pravděpodobnost, že když vybereme vzorek 10 ks z populace o 500 ks, tak maximálně 1 z nich bude defektní, když víme, že defektních jednotek je v populaci 47.
  • Pravděpodobnost, že když z 20 pracovníků oddělení (známe poměr mužů a žen) sestavíme náhodně tým o 4 lidech, že bude genderově vyrovnaný.

Rozdělení určují 3 parametry:

  • počet jednotek v populaci – N
  • počet jednotek v populaci s nějakou vlastností (defekt) – M
  • velikost (počet jednotek) vzorku – n

Tyhle grafy vypadají, jako když je sem někdo omylem nakopíroval dvakrát. V prním řádku se mění počet defektních jednotek v populaci a vybíráme stále stejně velký vzorek.

V druhém řádku je počet defektních jednotek v populaci stejná, ale pokaždé jsme vybrali jinak velký vzorek.

Jeho pravděpodobností funkce vypadá takto: