Dirichletovo rozděléní
Příklad 1.
Představme si, že pracujete jako výzkumník v oblasti epidemiologie a zkoumáte výskyt tří různých chorob - A, B a C - mezi různými oblastmi země. Chcete pochopit, jak se procentuální zastoupení těchto tří chorob liší mezi oblastmi. Například můžeme mít následující data, která reprezentují procentuální zastoupení tří chorob v 10 oblastech.
Data: Pro každou oblast sbíráme data o počtu případů každé z těchto tří chorob. Data mohou být následující:
- Oblast 1: Choroba A = 300, Choroba B = 400, Choroba C = 300
- Oblast 2: Choroba A = 100, Choroba B = 200, Choroba C = 700
- Oblast 3: Choroba A = 500, Choroba B = 400, Choroba C = 100
- ...
- Oblast 10: Choroba A = 150, Choroba B = 550, Choroba C = 300
Pro účely analýzy normalizujeme tato data, aby každá řádka v matici dat odpovídala relativnímu zastoupení chorob v každé oblasti (pro každou oblast se hodnoty sečtou do 1). Toto rozdělení můžeme modelovat pomocí Dirichletova rozdělení:
Náš cíl je odhadnout parametry Dirichletova rozdělení, které nejlépe popisuje tato data.
Dirichletovo rozdělení je přirozeným způsobem, jak modelovat tuto situaci, protože umožňuje popsat variabilitu procentuálního zastoupení tří chorob mezi různými oblastmi.
Odhadnutí parametrů Dirichletova rozdělení nám umožní kvantifikovat tuto variabilitu. Například, pokud je některý z parametrů α velmi velký, to by znamenalo, že příslušná choroba má poměrně konzistentní procentuální zastoupení napříč oblastmi, zatímco malý parametr α by znamenal vysokou variabilitu.
Odhad parametrů α můžeme provést pomocí optimalizace, kde minimalizujeme negativní logaritmickou věrohodnost (negative log-likelihood, NLL) funkce. Tato metoda se také nazývá maximum likelihood estimation (MLE).
Začneme s nějakými počátečními hodnotami pro α (třeba [1, 1, 1]) a pak použijeme optimalizační funkci optim v R k nalezení hodnot α, které minimalizují NLL. Kód nám poskytuje následující výsledek:
[1] 2.629950 4.159024 4.299421
Uvedené hodnoty α nám říkají o "síle důkazů" pro každou chorobu v dané populaci, ale interpretace těchto čísel závisí na konkrétním případu. Pro lepší pochopení, co tato čísla znamenají, zvažme následující aspekty:
Rozdělení Parametrů α:
- α1=2.629950 pro chorobu 1
- α2=4.159024 pro chorobu 2
- α3=4.299421 pro chorobu 3
Interpretace:
- Choroba 1: Hodnota α1 je nejnižší, což naznačuje, že pro chorobu 1 existují nejslabší důkazy v porovnání s ostatními chorobami v této datové sadě.
- Choroba 2 a 3: Hodnoty α2 a α3 jsou vyšší, což naznačuje, že v dané populaci existují silnější důkazy pro tyto choroby. Zvláštní pozornost by měla být věnována tomu, že α2 a α3 jsou si velmi blízké, což může naznačovat podobnou míru výskytu těchto dvou chorob.
Pokud by tato data pocházela například z lékařského výzkumu, mohla by nám pomoci identifikovat, které choroby vyžadují více pozornosti a zdrojů v dané oblasti. V tomto případě bychom mohli zaměřit více úsilí na léčbu a prevenci chorob 2 a 3, protože pro ně máme silnější důkazy v dané populaci.