Testování hypotéz

Autor: MILAN

Samotný proces statistického testování hypotéz může být na první pohled trochu matoucí, ale pokusím se to vysvětlit co nejjednodušeji, přitom však s důrazem na odbornou správnost.

Na počátku každého statistického testování je nějaká teze, kterou chceme ověřit. Tato teze, nazývaná nulová hypotéza (H0), je obecně vzato tvrzení, které vychází z předpokladu, že mezi sledovanými proměnnými neexistuje žádný vztah. Alternativní hypotéza (H1) je pak tvrzení, které představuje opak nulové hypotézy, tedy předpokládá existenci určitého vztahu.

Pro představu: řekněme, že provádíme studii, ve které chceme zjistit, zda konzumace jablek ovlivňuje krevní tlak. Naší nulovou hypotézou by bylo tvrzení, že konzumace jablek nemá vliv na krevní tlak. Alternativní hypotéza by naopak tvrdila, že konzumace jablek krevní tlak ovlivňuje.

Když máme stanovené naše hypotézy, provedeme statistický test (je jich spousta, záleží na kontextu, ale vysvětlím dále), který nám poskytne hodnotu tzv. p-value. P-value je pravděpodobnost, že bychom získali daná data, pokud by nulová hypotéza byla pravdivá. Uvedu Vám to ještě podrobněji a intuitivněji.

Zkusme to na příkladu s mincí. Představte si, že máte obyčejnou minci a hodíte jí 10krát. Nulovou hypotézou by bylo, že mince je férová - to znamená, že má stejnou šanci na padnutí hlavy nebo znaku (každý výsledek má 50% šanci). Pokud by mince byla férová, očekávali bychom, že z těch 10 hodů padne přibližně 5x hlava a 5x znak.

Ale co když hodíte mincí 10krát a 9x padne hlava a jen jedenkrát znak? To je dost neobvyklý výsledek, když očekáváme, že hlava a znak mají stejnou šanci. Tady přichází na řadu p-hodnota.

P-hodnota nám říká, jaká je pravděpodobnost, že bychom dostali takto "zvláštní" výsledek (9 hlav a 1 znak), když je mince férová (což je naše nulová hypotéza). Pokud je p-hodnota velmi malá (obecně méně než 0,05), je to signál, že naše data jsou tak neobvyklá, že začínáme pochybovat o naší nulové hypotéze. V tomto případě bychom možná začali podezřívat minci, že není férová.

Takže zjednodušeně řečeno, p-hodnota je měřítko, které nám říká, jak "divné" nebo "neobvyklé" jsou naše data vzhledem k tomu, co bychom očekávali (očekáváme, že je férová), kdyby byla naše nulová hypotéza pravdivá.

Zde se dostáváme k hladině významnosti (alfa). Hladina významnosti je hranice, kterou si stanovíme, a pokud je p-hodnota nižší než tato hladina, můžeme nulovou hypotézu zamítnout. Běžně se jako hladina významnosti používá hodnota 0,05, což znamená, že pokud je pravděpodobnost, že bychom získali daná data, pokud by nulová hypotéza byla pravdivá, menší než 5 %, nulovou hypotézu zamítáme.

Chyba prvního druhu (alfa) nastává, když nulovou hypotézu nesprávně zamítneme, přestože je pravdivá. Chyba druhého druhu (beta) nastává, když nulovou hypotézu nesprávně přijmeme, přestože by měla být zamítnuta. Mocnost testu (1-beta) je pravděpodobnost, že správně zamítneme nulovou hypotézu, když je alternativní hypotéza skutečně pravdivá. Jinými slovy, mocnost testu je naše schopnost detekovat efekt, pokud skutečně existuje. Mocnost testu je ovlivněna několika faktory, včetně velikosti vzorku (čím více dat máme, tím větší je naše schopnost detekovat skutečný efekt), velikosti efektu (čím větší je rozdíl, který se snažíme detekovat, tím snazší je ho najít), a hladiny signifikance alfa (čím striktnější jsme v tom, co považujeme za signifikantní, tím těžší je pro nás zamítnout nulovou hypotézu).

V našem příkladu s mincí by mocnost testu určovala, jak dobře jsme schopni detekovat, že mince je neferová, pokud je skutečně neferová. Pokud bychom měli velký vzorek (řekněme tisíce hodů), velkou mocnost testu (schopnost detekovat, že mince je neferová), bychom měli, i když je rozdíl mezi počtem hlav a znaků relativně malý." 


Příklad 1.

Začněme tedy naší hypotetickou situací, ve které hodíme mincí. V tomto příkladu budeme házet mincí 100krát. Nulovou hypotézou (H0) bude tvrzení, že mince je férová, tedy pravděpodobnost, že padne hlava (H) nebo orel (T), je 0,5. Alternativní hypotéza (Ha) bude tvrzení, že mince není férová, tedy pravděpodobnost padnutí hlavy není 0,5.

Pro jednoduchost předpokládejme, že jsme se rozhodli použít hladinu signifikance 0,05. To znamená, že jsme ochotni riskovat 5% pravděpodobnost, že nesprávně zamítneme nulovou hypotézu, když je ve skutečnosti pravdivá (uděláme tedy chybu prvního druhu).

Pokud je výsledek p-value menší než 0,05, zamítneme nulovou hypotézu a přijmeme alternativní hypotézu, že mince je neferová.

Chybu druhého druhu, kdy nesprávně přijmeme nulovou hypotézu, když je ve skutečnosti nesprávná, je obtížnější přímo vypočítat, protože vyžaduje znát skutečnou pravděpodobnost padnutí hlavy. V našem příkladu, kdy mince je férová, je pravděpodobnost chyby druhého druhu nulová, protože nulová hypotéza je pravdivá:)). 

Nicméně, mohli bychom si představit situaci, kdy mince je skutečně neferová. Řekněme, že pravděpodobnost padnutí hlavy je 0,6. Potom bychom mohli opakovat simulaci a testování pro tuto situaci a vypočítat pravděpodobnost, že nesprávně přijmeme nulovou hypotézu. 

Pokud je výsledek p-value menší než 0,05, zamítneme nulovou hypotézu a přijmeme alternativní hypotézu, že mince je neferová. Pokud je výsledek p-value větší než 0,05, nesprávně přijmeme nulovou hypotézu, ačkoliv ve skutečnosti mince je neferová. Toto je chyba druhého druhu.

Můžeme si také vypočítat mocnost testu, tedy pravděpodobnost, že správně zamítneme nulovou hypotézu, když je ve skutečnosti nesprávná. Pro to potřebujeme vědět skutečnou pravděpodobnost padnutí hlavy, kterou jsme stanovili na 0.6. Mocnost testu vypočítáme jako 1 - beta, kde beta je pravděpodobnost chyby druhého druhu.

Dejme tomu, že nám statistický software vyplivl hodnotu 0,4627. Hodnota 0.4627 představuje "moc" našeho statistického testu. V kontextu tohoto konkrétního testování mince to znamená, že pokud je mince skutečně neferová (s pravděpodobností hlavy 0,6), pak máme přibližně 46,27% šanci, že náš test správně zamítne nulovou hypotézu (že je mince férová, tedy pravděpodobnost hlavy je 0,5), pokud uskutečníte 100 hodů.

Jinými slovy, pokud 10000 krát opakujeme 100 hodů neferovou mincí a pokaždé provedeme test, pak zhruba ve 4627 případech z 10000 správně zamítneme nulovou hypotézu, že mince je férová. Je to málo. nebo hodně?:) Povíme si.

Z toho také vyplývá, že přibližně ve 5373 případech z 10000 nesprávně nezamítnete nulovou hypotézu, když by měla být zamítnuta (tj. uděláme chybu druhého druhu). Toto je také míra chyby beta. Moc testu je tedy (1-beta), což je pravděpodobnost, že správně zamítneme nulovou hypotézu, když by měla být zamítnuta.

To ilustruje jednu z klíčových věcí na statistickém testování: i když máme test, který je "správný" ve smyslu, že má nízkou pravděpodobnost chyby prvního druhu (alfa), může stále mít vysokou pravděpodobnost chyby druhého druhu (beta), což znamená, že může být méně "mocný" na detekci skutečných efektů. Tato rovnováha mezi chybami prvního a druhého druhu a mocí testu je klíčovou součástí návrhu jakékoliv statistické studie.

Nyní jsem uvedl spoustu faktů, že ve 4627 případech z 10000 správně zamítneme hypotézu a ve 5373 z 10000 nesprávně nezamítáme nulovou hypotézu a že to je míra chyby beta atd. Tady to ale většinou v hodinách statistiky a pravděpodobnosti na vysokých školách končí. Ale to je špatně, protože vy nyní vůbec netušíte, k čemu tyto věci slouží. 

Totiž, hodnota mocnosti 0,4627 nám poskytuje určité informace o schopnosti našeho testu detekovat odchylku od nulové hypotézy. V našem případě to znamená, že když je mince neferová (pravděpodobnost hlavy je 0,6), náš test správně zamítne nulovou hypotézu (že je mince férová, tedy pravděpodobnost hlavy je 0,5) v přibližně 46,27% případů. Zase jste se nic nového nedozvěděli, že? :D Pořád dokola. Dobře, tak teď k čemu to slouží. 

V praxi byste měli tuto informaci použít k posouzení, zda je váš test dostatečně "mocný" pro vaše účely. Pokud provádíte vědecký výzkum, obecně platí, že chcete, aby "mocnost" vašeho testu byla co největší, ideálně 80% nebo více. To znamená, že chcete, aby váš test byl schopen správně zamítnout nulovou hypotézu v 80 % nebo více případů, kdy by měla být zamítnuta.

Pokud je "mocnost" testu nízká (jako v tomto případě), mohlo by to znamenat, že potřebujeme shromáždit více dat (například provést více hodů mincí), použít jiný statistický test nebo přehodnotit naše očekávání a cíle výzkumu. Tohle jste potřebovali slyšet.

Váš konkrétní krok závisí na vašem konkrétním cíli a kontextu. Pokud jste vědec, můžete diskutovat s kolegy nebo konzultovat odbornou literaturu, abyste zjistili, jak nejlépe postupovat. Pokud jste student nebo někdo, kdo se učí o statistice, může to být dobrý čas pro další studium nebo diskusi s učitelem nebo mentorem, ale pochybuji, že Vám ve škole někdo něco vysvětlí.