Méně známé statistické testy

Autor: MILAN

Osnova:

Log-rank test
Cochranův Q test
McNemarův test
Kolmogorovův-Smirnovův dvouvýběrový test

S některými testy se ve výzkumu setkáváme poměrně často, např. t-test, chí-kvadrát testy či ANOVA. Existuje ovšem celá řada ne méně významných testů, které ovšem nemusejí mít tak široké využití, proto se s nimi tolik nesetkáváme. Představíme si některé z nich.


Log-rank test

Log-rank test se používá v oblasti biostatistiky k porovnání doby do nějaké události (jako je například smrt, zlepšení nebo zhoršení zdravotního stavu, nástup nemoci apod.) mezi dvěma nebo více skupinami. Můžete si to představit jako závod, kde sledujeme, která skupina dorazí do cíle nejdříve. Místo rychlosti běžců ale sledujeme čas, kdy se stane nějaká důležitá událost.

Jednoduchým příkladem může být klinická studie, ve které lékaři porovnávají, jak dlouho trvá pacientům se dvěma různými typy léčby, než se dostaví určitý výsledek, třeba zlepšení zdravotního stavu. Pacienti jsou rozděleni do dvou skupin podle typu léčby, kterou dostávají.

Například ve skupině A dostávají pacienti léčbu X a ve skupině B léčbu Y. Pak se sleduje, kolik času trvá, než se u každého pacienta dostaví zlepšení. Někteří pacienti se zlepší po pár dnech, jiným to může trvat týdny nebo měsíce, někteří se třeba vůbec nezlepší. Všechny tyto informace se zaznamenávají.

Když máme data, použijeme Log-rank test, abychom zjistili, zda existuje statisticky významný rozdíl mezi dobou do zlepšení mezi skupinou A a skupinou B. Pokud Log-rank test ukáže, že existuje významný rozdíl, můžeme říci, že jedna léčba je pravděpodobně účinnější než druhá. Co je ale důležité!  Log-rank test nepředpokládá, že doba do události sleduje nějaké konkrétní rozdělení (například normální rozdělení), což ho dělá vhodným pro mnoho různých druhů dat. Další výhodou je, že dokáže pracovat s tzv. cenzurovanými daty - to znamená, že pokud někteří pacienti ještě nedosáhli zlepšení v době, kdy studie končí, můžeme i tato data zahrnout do analýzy.

Důvod, proč se tento test používá, je ten, že nám umožňuje získat důležité informace o účinnosti léčebných postupů, což může pomoci lékařům při rozhodování o nejlepší léčbě pro jejich pacienty. Je to tedy velmi užitečný nástroj pro výzkum v oblasti medicíny a zdravotní péče.

Příklad 1.

Pojďme si představit, že máme studii, která sleduje dvě skupiny pacientů, kteří podstoupili různé typy léčby pro určité onemocnění. Chceme zjistit, jestli jedna léčba vede k rychlejšímu zlepšení než druhá.

Máme tedy skupinu A, která dostala léčbu X, a skupinu B, která dostala léčbu Y. Sledujeme, kolik dní trvalo, než došlo u každého pacienta ke zlepšení.

Skupina A: 10, 12, 15, 15, 16, 20, 25, 30, 35, 50 (všechny tyto hodnoty jsou v počtu dní) 
Skupina B: 15, 20, 22, 25, 30, 40, 45, 50, 60, 70 (všechny tyto hodnoty jsou v počtu dní) 

Pro náš Log-rank test by hypotézy vypadaly takto:

  • Nulová hypotéza (H0): Neexistuje rozdíl v době do zlepšení mezi skupinou A a skupinou B.
  • Alternativní hypotéza (H1): Existuje rozdíl v době do zlepšení mezi skupinou A a skupinou B.

Teď chceme zjistit, jestli je rozdíl mezi těmito dvěma skupinami statisticky významný. K tomu použijeme Log-rank test (já to opět uvedu v programovacím jazyku R).

V našem případě p-hodnota (0,03) je menší než standardní hladina významnosti (0,05), což znamená, že máme dostatek důkazů k zamítnutí nulové hypotézy. Tedy, na základě našich dat přijímáme alternativní hypotézu, že existuje rozdíl v době do zlepšení mezi skupinou A a skupinou B. Ve skutečnosti se pacienti ve skupině A zlepšili rychleji než ve skupině B.

Příklad 2.

Pojďme zkusit jiný příklad. Tentokrát budeme analyzovat data ze dvou různých typů rostlin, které byly vypěstovány v různých podmínkách. Cílem je zjistit, jestli doba do květu je různá pro tyto dvě skupiny. Máme tedy dvě skupiny rostlin - skupinu A a skupinu B, každou tvoří 60 rostlin, dohromady 120 rostlin. Skupina A byla vypěstována v přírodních podmínkách, zatímco skupina B byla vypěstována v podmínkách s optimalizovaným osvětlením a teplotou.

Zaznamenáváme počet dní do květu pro každou rostlinu a data mohou vypadat následovně:

Hodnoty pro skupinu A: [1] 38 37 36 32 36 42 36 30 43 35 37 30 32 39 29 39 32 38 40 33 42 39 31 28 32 35 30 35 33 38 [31] 39 30 43 32 35 29 36 44 36 44 37 38 35 31 40 41 44 41 42 28 31 31 30 40 36 28 43 39 44 29 42 41 

Hodnoty pro skupinu B: [1] 29 27 24 28 21 38 21 35 24 27 39 30 23 29 28 23 27 31 26 21 31 37 29 32 30 30 23 37 38 21 [31] 22 37 29 25 29 23 33 38 38 26 28 23 38 33 38 35 26 25 36 33 37 37 39 29 25 36 35 28 21 30 22 

Nyní si uvedeme, jak vypadá kód v jazyce R. Nevešlo se mi do obrazovky všech 60 hodnot pro skupiny.

  • "N" označuje počet rostlin (pozorování) v každé skupině.
  • "Observed" označuje počet událostí (tj. začátek kvetení) v každé skupině, které byly skutečně pozorovány.
  • "Expected" je počet událostí, které bychom očekávali v každé skupině, pokud by nebyl žádný rozdíl mezi skupinami.
  • Sloupce "(O-E)^2/E" a "(O-E)^2/V" jsou součásti výpočtu chi-kvadrát statistiky.
  • "Chisq" je hodnota chi-kvadrát statistiky. Vyšší hodnoty naznačují, že rozdíly mezi skupinami jsou statisticky významné.
  • "p" je p-hodnota, která nám říká, jak pravděpodobné je, že bychom pozorovali data, která jsme pozorovali (nebo data ještě extrémnější), pokud by nulová hypotéza byla pravdivá.

Nulová hypotéza pro log-rank test je, že neexistuje žádný rozdíl v přežití (v tomto případě čas do kvetení) mezi skupinami. Alternativní hypotéza je, že existuje rozdíl v přežití mezi skupinami.

V našem případě je p-hodnota velmi nízká (p = 9e-09), což je mnohem menší než obvyklá hranice pro statistickou významnost 0,05. To znamená, že máme silné důkazy pro zamítnutí nulové hypotézy. Tedy, na základě našich dat a provedeného testu, můžeme tvrdit, že existuje statisticky významný rozdíl v časech kvetení mezi skupinou A a skupinou B.


Cochranův Q test

Cochranův Q test je statistický test, který se používá k porovnání tří nebo více spárovaných skupin. Je to binární (dichotomický) test, což znamená, že se používá pro data, která lze rozdělit do dvou kategorií, jako je "úspěch/neúspěch", "ano/ne", "přítomen/nepřítomen" atd.

Základní princip Cochranova Q testu je podobný jako u ANOVA nebo Friedmanova testu. Všechny tyto testy se snaží určit, zda existují statisticky významné rozdíly mezi skupinami. Cochranův Q test je však specifický pro spárovaná binární data.

Rovnou se podívejme na intuitivní příklad. Představte si, že jste výzkumník a chcete testovat efektivitu tří různých metod výuky. Máte skupinu studentů a každý student je vystaven každé z těchto tří metod. Po každé metodě student podstoupí test a buď ho "prosperuje" (značeno jako 1) nebo "neuspěje" (značeno jako 0). 

Cochranův Q test nám umožní zjistit, zda existuje statisticky významný rozdíl mezi úspěšností studentů po vystavení každé z těchto tří metod.

Nulová hypotéza pro Cochranův Q test je, že všechny metody jsou stejně efektivní. Pokud p-hodnota výsledného testu je menší než naše stanovená hladina významnosti (často 0,05), zamítneme nulovou hypotézu a přijmeme alternativní hypotézu, že existuje významný rozdíl v efektivitě mezi metodami.

Příklad 1:

Dejme si příklad, který se může hodit do diplomové práce. Bude vycházet z oblasti marketingu. Máme společnost, která testuje tři různé marketingové strategie, aby zjistila, která je nejúčinnější při přesvědčování zákazníků k nákupu jejího produktu. Společnost oslovila 50 náhodně vybraných zákazníků a každý z nich byl vystaven všem třem marketingovým strategiím. Po každé strategii bylo zaznamenáno, zda zákazník produkt koupil (1) nebo nekoupil (0).

Výsledek z našich dat je následující.

Hypotézy pro Cochranův Q test vypadají takto:

  • H0 (nulová hypotéza): Efektivita všech marketingových strategií je stejná. To znamená, že není žádný rozdíl v míře úspěšnosti mezi strategiemi A, B a C.
  • HA (alternativní hypotéza): Alespoň jedna z marketingových strategií má jinou míru úspěšnosti než ostatní.

Hodnota Q = 4,439 je hodnota statistiky testu Cochranova Q testu, což je hodnota, kterou vypočítáváme na základě našich dat a poté porovnáváme s kritickou hodnotou chi-kvadrát distribuce s určitým počtem stupňů volnosti (v tomto případě df = 2) pro určení p-hodnoty.

P-hodnota je pravděpodobnost, že bychom získali naše data (nebo data ještě extrémnější), pokud by platila nulová hypotéza. Obecně platí, že pokud je p-hodnota menší než určitá hranice (pořád uvádím, že se používá 0.05), pak máme důvod zamítnout nulovou hypotézu a přijmout alternativní hypotézu.

V tomto případě je p-hodnota 0,1087, což je větší než 0,05. To znamená, že nemáme dostatečné důkazy k tomu, abychom zamítli nulovou hypotézu. Proto bychom měli přijmout nulovou hypotézu, že efektivita všech marketingových strategií je stejná.

V praxi to znamená, že na základě tohoto vzorku dat a tohoto testu nevidíme důkazy toho, že by jedna strategie byla efektivnější než ostatní.

Nabízí se ale otázka. Představme si, že by nám výsledek vyšel ve prospěch alternativní hypotézy, tedy, že alespoň jedna z marketingových strategií má jinou míru úspěšnosti. Jak zjistíme, která? Jak zjistíme, kolik jich je? Tohle Cochranův Q test neumí. Bude zapotřebí použít další "vzácnější" test, a to McNemarův test pro párové srovnání.


McNemarův test pro párové srovnání

McNemarův test je statistický test používaný k analyzování změn ve skupinách. Tento test se často používá v medicíně a psychologii pro analýzu dat z párových studií, kde stejná skupina je testována dvakrát - před a po experimentu. McNemarův test je vhodný pro situace, kdy je důležitý směr změn.

Představte si například lékařský experiment, kde chceme zjistit, zda nová léčba skutečně snižuje příznaky nemoci. Na začátku testu je skupina pacientů hodnocena na příznaky, pak podstupuje léčbu a po nějaké době jsou příznaky znovu hodnoceny. McNemarův test nám může říci, zda je změna příznaků významná, a zda to může být přičítáno léčbě.

V kontextu našeho marketingového příkladu můžeme McNemarův test použít k porovnání úspěšnosti dvou marketingových strategií. Tohle Vám už ale těžko nějaký vedoucí schválí nebo posvětí. Spíš tento test ani nebude znát, pokud není fundovaný statistik. Jestliže Cochranův Q test naznačuje, že alespoň jedna ze strategií je odlišná, McNemarův test může být použit k identifikaci, která to je. Pamatujte však, že McNemarův test lze použít pouze pro párová porovnání. Pokud máme tři strategie (A, B a C), budeme muset provést tři McNemarovy testy (A vs B, A vs C a B vs C).

McNemarův test používá kontingenční tabulku četností. V kontextu párových binárních dat je tento test často aplikován na 2x2 kontingenční tabulku, která zachycuje čtyři možné výsledky pro párové měření: 

V našem příkladu s marketingovými strategiemi, bychom potřebovali vytvořit takovou 2x2 kontingenční tabulku pro každou dvojici strategií (A vs. B, A vs. C, a B vs. C). Pro každou dvojici bychom měli čtyři možné výsledky:

  1. U respondenta byly obě strategie úspěšné.
  2. U respondenta byla první strategie úspěšná, ale druhá neúspěšná.
  3. U respondenta byla první strategie neúspěšná, ale druhá úspěšná.
  4. U respondenta byly obě strategie neúspěšné.

Tyto čtyři četnosti by pak byly použity pro McNemarův test pro každou dvojici strategií.

V R, McNemarův test může být proveden pomocí funkce mcnemar.test(). Tato funkce vyžaduje kontingenční tabulku s počty případů, které se přesunuly mezi kategoriemi mezi dvěma časovými body. 

Výsledky dostaneme následující.

Použili jsme stejná data jako v případě Cochranova Q Testu. Tam nám vyšlo, že se účinnost strategií neliší. Tím pádem by nám McNemarův test měl dát výsledek, že žádná z dvojic se neliší. To je výzva:)). Už ale podle hodnot p-value vidíme, že, všechny jsou vyšší než 0,05, takže při této hladině významnosti se skutečně neliší. V těchto třech testech tedy nemáme dostatek důkazů k zamítnutí nulové hypotézy, a tedy nemáme dostatek důkazů pro tvrzení, že by se úspěšnost jednotlivých strategií lišila. Zdá se, že všechny tři marketingové strategie mají podobnou úspěšnost ve vašem datasetu. Ovšem používat tento test, když Cochranův Q Test neukáže rozdíly, je celkem k ničemu. Vhodné by to bylo, kdyby Cochranlv Q Test ukázal nějaké rozdíly. 

Proč ale rovnou nepoužít McNemarův test? To je výborná otázka. Zatímco McNemarův test je určitě konkrétnější, je důležité si uvědomit, kdy je vhodný.

Cochranův Q test a McNemarův test se používají v různých scénářích. Cochranův Q test je vícevýběrový test, který se používá k porovnání tří nebo více párovaných vzorků nebo skupin. Je to takzvaný omnibusový test, což znamená, že testuje, zda jsou všechny skupiny stejné. Pokud Cochranův Q test zamítne nulovou hypotézu, pak víme, že existuje rozdíl někde, ale nevíme, kde přesně.

V takovém případě by bylo potřeba použít post-hoc testy, jako je například McNemarův test, pro párové porovnání jednotlivých skupin, abychom zjistili, kde je ten rozdíl. Toto je obdobné, jako bychom použili ANOVA test k porovnání více nezávislých skupin, a pokud je výsledek statisticky významný, pak bychom použili t-testy (nebo jiné vhodné testy) pro párové porovnání skupin.

McNemarův test je dvouvýběrový test, který se používá k porovnání dvou párovaných vzorků nebo skupin. Pokud máte jen dvě skupiny k porovnání, pak McNemarův test je ideální. Pokud máte tři nebo více skupin k porovnání, měli byste začít s Cochranovým Q testem a poté použít McNemarův test pro párové porovnání, pokud Cochranův Q test zamítne nulovou hypotézu.

Použití obou testů v kombinaci nám tedy poskytuje kompletnější pohled na data, protože nám umožňuje určit, zda existují rozdíly mezi skupinami obecně (Cochranův Q test), a pak, pokud ano, určit, kde přesně tyto rozdíly leží (viz McNemarův test).


Kolmogorovův-Smirnovův dvouvýběrový test

Tento test mám fakt rád. Na tom sice nezáleží, ale je dost užitečný ve výzkumu, kde nechcete srovnávat jen základní věci, např., jestli se nějaký počet liší, jestli se průměr liší apod. Tohle je nástroj, který dokáže zjistit, jestli jsou mezi dvěma soubory dat nějaké odlišnosti. Například máme dva soubory sportovců - fotbalisti a hokejisti. Oba soubory budou podstupovat fyzioterapeutické diagnostické testy, třeba mobilita hlezenního kloubu, vnější či vnitřní rotace kyčelního kloubů, Thomasův test, Patrikova zkouška apod. Následně chceme otestovat, jestli jsou mezi dvěma skupinami sportovců nějaké výkonostní rozdíly, třeba v rotaci kyčelního kloubu. Ale nikoliv podle průměru, rozptylu apod., ale prostě podle samotných dat. Jestli obě skupiny pocházejí ze stejného rozdělení.

Možná vám to nepřijde nijak úžasné, ale tento test nevyžaduje, aby  distribuce (rozdělení těch dat) byla konkrétně určena, jako například normální - proto se označuje jako "neparametrický" test. To je výborné.

Představte si, že máme dvě skupiny lidí - jedna skupina pravidelně cvičí a druhá ne. Chceme zjistit, zda existuje rozdíl v distribuci jejich tělesné hmotnosti. Nemusíme předpokládat, že tělesná hmotnost má normální distribuci, nebo jakoukoli jinou konkrétní distribuci.

Základní myšlenka testu spočívá v porovnávání kumulativních distribučních funkcí (CDF) obou skupin.

Co je to kumulativní distribuční funkce (CDF)? Intuitivně řečeno, CDF je graf, který pro každou možnou hodnotu proměnné (v našem příkladu tělesná hmotnost) ukazuje, jaká část souboru (nebo populace) má tuto hodnotu nebo nižší. Představte si, že si seřadíte lidi podle hmotnosti od nejlehčího po nejtěžšího a potom vytvoříte graf, který ukazuje, jaká část souboru je lehčí nebo stejně těžká jako daná hmotnost. To je CDF.

Kolmogorov-Smirnovův test spočítá největší rozdíl mezi CDF obou skupin. Tento rozdíl se nazývá D statistika. Pokud je D statistika malá, znamená to, že obě CDF jsou si velmi podobné a nelze odmítnout hypotézu, že obě skupiny pocházejí ze stejné distribuce. Pokud je D statistika velká, znamená to, že obě CDF se významně liší, a tak můžeme odmítnout nulovou hypotézu.

V praxi se výsledná D statistika porovnává s kritickou hodnotou z Kolmogorov-Smirnovovy tabulky na základě velikosti vzorku a požadované hladiny významnosti (alfa), aby se rozhodlo, zda nulová hypotéza může být odmítnuta.

Lepší bude se podívat na nějaký příklad. Dejme si třeba ty fotbalisty a hokejisti a necháme je provádět vnější rotaci kyčelního kloubu.

Příklad 1.

Máme 95 hokejistů a fotbalistů. Všichni podstoupí měření vnější rotace kyčelního kloubu. K-S testem budeme zkoumat, jestli je na tom některá skupina hůře co se týče mobility kyčelního kloubu. Já jsem vygeneroval velmi přesná data s pěti desetinnými místy, ve skutečnosti, pokud budete měřit posuvným měŕidlem, dostanete přesnost třeba na jedno desetinné číslo, nějakým digitálním přístrojem třeba na dvě či na tři. Ale to je teď jedno.

Tato data nám budou sloužit jako vstup do K-S testu. Opět použiji jazyk R. Stačí mi napsat následující.

Výsledek je pak následující

Hodnota D je maximální rozdíl mezi kumulativními distribučními funkcemi obou skupin - fotbalistů a hokejistů. V našem příkladě je hodnota D 0,52632, což znamená, že maximální rozdíl mezi kumulativními distribučními funkcemi je 0,52632.

P-hodnota je pravděpodobnost, že bychom získali hodnotu D ať už je skutečný rozdíl mezi distribucemi jakýkoli, za předpokladu, že nulová hypotéza je pravdivá (tj. obě skupiny pocházejí ze stejné distribuce). V našem příkladu je p-hodnota 2,217e-12, což je mnohem menší než běžný práh významnosti 0,05.

To znamená, že máme silné důkazy pro zamítnutí nulové hypotézy - tedy důkazy, že distribuce vnější rotace kyčelního kloubu se u fotbalistů a hokejistů neliší. Můžeme tedy konstatovat, že naše data poskytují silné důkazy o tom, že vnější rotace kyčelního kloubu se u fotbalistů a hokejistů liší.

Pamatujme však, že statistický test jako je tento nám jen říká, zda se distribuce liší, ale neříká nám, jak se liší. Ani nám neříká, že pokud se liší, tak nutně jedna ze skupiny má obecně horší výsledky. K tomu bychom museli provést další analýzy nebo vizualizace dat. A my si samozřejmě takový test provedeme:). Zjistili jsme tedy, že se obecně mezi hokejisti a fotbalisty liší rotace v kyčelním kloubu. Kdybychom používali reálně naměřená data, je to velmi silné a užitečné zjištění. Teď se podívejme na to, jak se liší.

Tohle ale nebude úplná sranda. Abychom věděli, jaký test dále použít, potřebujeme vědět, jestli jsou data normálně rozdělena. Pokud ano, použili bychom k určení rozdílu mezi fotbalisty a hokejisty t-test, pokud ne, pak Mann-Whitneyův U test. Takže zjistěme nejdříve tu normalitu, a to Shapiro-Wilk testem (viz). 

Výsledek tohoto testu je následující.

Nulová hypotéza tohoto testu předpokládá, že data jsou vzorkována z normálního rozdělení. Pokud je p-hodnota menší než 0,05, máme důvody k zamítnutí nulové hypotézy, což znamená, že naše data pravděpodobně nejsou z normálního rozdělení.

Z výsledků vašeho testu vidíme:

  1. Pro skupinu hokejistů je p-hodnota 0.05328, což je těsně nad hranicí 0.05. To znamená, že nemáme dostatečné důvody k zamítnutí nulové hypotézy, tedy k tvrzení, že data hokejistů nejsou z normálního rozdělení. To ale neznamená, že data jsou zcela normálně rozdělena, jen nemáme dostatek důkazů pro jejich abnormalitu.

  2. Pro skupinu fotbalistů je p-hodnota 0.9945, což je velmi vysoko nad hranicí 0,05. To znamená, že máme velmi málo důvodů k zamítnutí nulové hypotézy a můžeme předpokládat, že data fotbalistů jsou vzorkována z normálního rozdělení.

Tedy, obě skupiny dat prošly testem normálnosti. Ale protože p-hodnota u hokejistů je těsně nad hranicí 0,05, mohli bychom být opatrnější a provést také ne-parametrický Mann-Whitneyho U test, který nevyžaduje normalitu dat.

Možná jste si všimli, že náš test se jmenuje Welchlův dvouvýběrový t-test. Ano. Zatímco standardní Studentův t-test předpokládá rovnost rozptylů (variancí) ve dvou srovnávaných skupinách, Welchův t-test je obecnější a nevyžaduje tento předpoklad. Tím se stává robustnějším v případech, kdy se rozptyly ve skupinách liší. O tomto blíže zde. 

Hodnota p je velmi nízká (téměř nulová), což znamená, že existuje silný důkaz proti nulové hypotéze. Nulová hypotéza předpokládá, že rozdíl mezi průměrnými hodnotami skupin je roven nule. Takže tento výsledek znamená, že máme silný důkaz, že průměrné hodnoty skupin se liší. 

Jak jsme uvedli, jelikož bys výsledek Shapiro-Wilk testu hraniční, realizujeme ještě Mann.-Whitneyho U test. 

Zřejmě si říkáte, proč je tam wilcox.test, že to bude asi nějaký Wilcoxův test. Ano, sice je Wilcoxonův, ne Wilcoxův, a nazývá se přesně Wilcoxonův Rank Sum Test, ale jde akorát o jiný název pro Mann-Whitney U test. Nicméně, výsledek je následující.

Výsledky z Wilcoxonova rank sum testu (neboli Mann-Whitneyho U testu) opět ukazují významný rozdíl mezi dvěma skupinami - fotbalisty a hokejisty - pokud jde o vnější rotaci kyčelního kloubu.

Testová statistika "W" je 7340 a p-hodnota je extrémně malá (8.723e-14), což je mnohem menší než standardní hladina významnosti 0.05. Toto znamená, že je velmi nepravděpodobné, že bychom pozorovali takový rozdíl mezi skupinami, pokud by ve skutečnosti neexistoval (tj. pokud by platila nulová hypotéza).

Nulová hypotéza pro Mann-Whitneyho U test je, že obě skupiny pocházejí ze stejné distribuce, tj. že rozdíly mezi skupinami jsou čistě náhodné. V našem případě tuto hypotézu zamítáme, protože p-hodnota je mnohem menší než 0,05.

Jenže to, že pocházejí z různých rozdělení, jsme již zjistili. Abychom mohli říci, která skupina sportovců má "horší" výsledky, musíme mít určité kritérium pro to, co znamená "horší". Ve statistice může toto kritérium zahrnovat různé aspekty, jako je průměr (nebo střední hodnota), medián (neboli střední hodnota), modus (nejčastější hodnota), rozptyl (míra variability) a další.

Pokud vezmeme jako kritérium průměrnou hodnotu vnější rotace kyčelního kloubu, pak podle výsledků Welchova t-testu je průměrná hodnota fotbalistů vyšší než průměrná hodnota hokejistů. To by znamenalo, že hokejisté mají "horší" výsledky, pokud je vyšší rotace považována za "lepší".

Pokud bychom chtěli posoudit skupiny na základě jiných kritérií, mohli bychom použít jiné statistické metody. Například pokud bychom chtěli porovnat variabilitu ve skupinách, mohli bychom použít F-test (též zvaný test rovnosti rozptylů) nebo Levenův test pro rovnost variancí.

Je také důležité poznamenat, že statistické testy nám poskytují důkazy pro nebo proti našim hypotézám, ale samotná rozhodnutí o tom, co je "lepší" nebo "horší", jsou často subjektivní a závisí na kontextu a cílech našeho výzkumu.

Zde tedy může přijít na řadu popisná statistika. Ale pozor! Nemůžeme přeskočit výše uvedené testy. Potřebovali jsme zjistit, jestli existují rozdíly u fotbalistů a hokejistů napříč celou populací.  Je důležité pochopit, že t-test a Mann-Whitneyův U test nejsou zbytečné, ale slouží k trochu jinému účelu. Tyto testy nám pomáhají zjistit, zda jsou rozdíly mezi dvěma skupinami statisticky významné.

Pokud bychom se tázali jen na to, která skupina má nižší hodnoty, mohli bychom se podívat přímo na střední hodnoty (nebo mediány) a rozhodnout se na základě těchto ukazatelů. Nicméně, pokud chceme vědět, zda jsou tyto rozdíly významné a zda by se pravděpodobně objevily i v celé populaci (nejen ve vzorcích, které máme), pak bychom potřeboval použít t-test nebo Mann-Whitneyův U test.

V některých případech mohou skupiny mít podobné průměry, ale pokud je variabilita hodnot v jedné skupině mnohem větší, mohou být skupiny stále odlišné. Také testování hypotéz nám může pomoci zjistit, zda rozdíly, které vidíme, nejsou jen náhodné fluktuace.

Pokud jde o tento konkrétní případ, kde máme jen dvě skupiny a chcete porovnat jejich střední hodnoty, mohou být t-test a Mann-Whitneyův U test opravdu přebytečné, pokud jste primárně závislí na porovnání průměrů (nebo mediánů). Avšak obecně platí, že statistické testy jsou velmi důležité pro řádnou analýzu dat a pro pochopení, zda jsou zjištěné rozdíly skutečné a významné.

Ovšem po realizovaném testování skutečně můžeme přejít k popisné statistice a testovat, zda rozdíly v průměru. mediánu, rozptylu atd. jsou statisticky významné