Logistická regrese
Autor: JAKUB
Logistická regrese je statistická metoda, která se používá k modelování pravděpodobnosti binárního výsledku. Například, chceme-li modelovat pravděpodobnost, že někdo dostane srdeční infarkt na základě jeho věku, pohlaví a tělesné hmotnosti, můžeme použít logistickou regresi. Na rozdíl od lineární regrese, která předpokládá výsledek nějaké reálné číslo (jako je třeba cena auta), logistická regrese předpokládá binární výsledek (jako srdeční infarkt: ano/ne).
Logistická regrese používá logistickou funkci k transformaci lineární kombinace vstupních proměnných do hodnoty mezi 0 a 1, kterou lze interpretovat jako pravděpodobnost. Jinými slovy, výstupem logistické regrese je pravděpodobnost, že něco se stane - například, že student prospěje na zkoušce. Pravděpodobnosti se pohybují od 0 do 1. 0 znamená, že něco se určitě nestane, 1 znamená, že se to určitě stane.
Jenže když sečteme všechny hodnoty vstupních proměnných (například počet hodin studia, počet hodin spánku atd.) s určitými váhami (které určuje model), výsledek nemusí být mezi 0 a 1. Mohl by být třeba -5 nebo 100. To ale neodpovídá našemu pochopení pravděpodobnosti, která musí být mezi 0 a 1.
A tady přichází na řadu "logistická funkce". Je to speciální funkce, která dokáže převést jakékoliv reálné číslo (může být záporné, nulové nebo kladné) na číslo mezi 0 a 1. Je to trochu jako magický tunel: na jednom konci můžete vložit jakékoliv číslo, a na druhém konci vyjde číslo mezi 0 a 1.
Takže logistická regrese sečte vstupní proměnné s určitými váhami, a pak použije logistickou funkci, aby převedla výsledek na pravděpodobnost.
Matematicky, model logistické regrese může být zapsán takto:
P(Y=1|X) = 1 / (1 + e^(-(β0 + β1X))),
kde:
- P(Y=1|X) je pravděpodobnost, že výsledek Y je 1 (např. pacient má srdeční infarkt), za daných hodnot X (věk, pohlaví, tělesná hmotnost),
- e je Eulerovo číslo (základ přirozeného logaritmu),
- β0 a β1 jsou parametry modelu, které se odhadují z dat.
Jak to funguje v praxi? Uvažujme o jednoduchém příkladu: chceme předpovědět, zda student prospěje na základě počtu hodin strávených studiem.
Představme si, že máme data o 50 studentech, včetně počtu hodin strávených studiem (X) a zda prospěli nebo neprospěli (Y). Logistická regrese odhadne koeficienty β0 a β1 tak, aby co nejlépe vysvětlila vztah mezi hodinami studia a pravděpodobností úspěchu.
Výsledný model nám může říct například, že za každou hodinu strávenou studiem se pravděpodobnost úspěchu zvýší o 20 %. Stejně jako u lineární regrese můžeme vyhodnotit kvalitu modelu pomocí různých statistických testů a měření. Výsledný model můžeme pak použít k předpovědi pravděpodobnosti úspěchu pro nové studenty na základě počtu hodin, které stráví studiem.
Příklad 1.
Pojďme se podívat na konkrétní příklad, kde by se logistická regrese mohla hodit. Vezmeme si případ, kde chceme předpovědět, zda student prospěje na závěrečné zkoušce na základě několika proměnných, jako je počet hodin studia, počet absencí, průměrná známka ze semestru atd. (úspěch = 1, neúspěch = 0) na základě následujících proměnných:
- Hodiny studia týdně (continual)
- Počet absencí za semestr (continual)
- Průměrná známka ze semestru (continual)
- Účast na seminářích (binární: ano = 1, ne = 0)
- Účast na konzultacích (binární: ano = 1, ne = 0)
Máme data o 100 studentech s výše uvedenými informacemi.
Vypíšu Vám pouze několik hodnot. Nebudu uvádět všech 100 studentů. Aspoň budete vědět, jak data dát do proměnných. Zde je R kód pro provedení logistické regrese:
Výsledek je následující.
Výsledky zahrnují tabulku s odhady koeficientů a dalšími statistikami pro každou proměnnou v modelu. Zde je popis těchto statistik:
Estimate je odhadovaný koeficient pro danou proměnnou. Tento koeficient představuje změnu v log-odds (logaritmických šancích) při změně proměnné o jednu jednotku. Log-odds je logaritmus poměru pravděpodobností úspěchu (prospěje) ku pravděpodobnosti neúspěchu (neprospěje).
Std. Error je standardní chyba odhadu koeficientu. Menší hodnoty znamenají větší přesnost odhadu.
z value je statistika z, která se vypočítá jako poměr odhadu koeficientu ku jeho standardní chybě. Hodnota z je měřítkem toho, jak daleko je odhadovaný koeficient od nuly v jednotkách standardní chyby.
Pr(>|z|) je p-hodnota pro test nulové hypotézy, že daný koeficient je roven nule. Menší p-hodnoty (obecně méně než 0,05) naznačují, že můžeme tuto nulovou hypotézu zamítnout a konstatovat, že proměnná má statisticky významný efekt na závislou proměnnou.
Co se týče výsledků modelu, jedinou proměnnou, která je statisticky významná na 5% hladině významnosti (p-hodnota méně než 0,05), je absence. To znamená, že počet absencí studenta má statisticky významný vliv na pravděpodobnost, že student úspěšně ukončí semestr. Koeficient pro absence je pozitivní, což znamená, že s každou další absencí se zvyšují log-odds úspěchu.
Ostatní proměnné (hodiny_studia, prumer_znamka, seminare, konzultace) nejsou statisticky významné na 5% hladině významnosti, což naznačuje, že nemají statisticky významný vliv na pravděpodobnost úspěchu studenta, alespoň na základě těchto dat.
Výsledky také zahrnují statistiky Null deviance, Residual deviance a AIC, které lze použít k hodnocení kvality modelu. Všechny tyto hodnoty jsou měřítkem toho, jak dobře model vyhovuje datům, přičemž nižší hodnoty naznačují lepší shodu.