Prostorová autokorelace - Moranův I test

Autor: MILAN

Autokorelace je statistický koncept, který popisuje míru korelace (vzájemné závislosti) mezi hodnotami stejné proměnné v různých bodech v čase nebo prostoru. Obecně lze říci, že autokorelace měří, jak silně jsou hodnoty stejné proměnné korelovány s jinými hodnotami téže proměnné v jiných časových nebo prostorových bodech.

Může být využita ve dvou hlavních kontextech - časové řady a prostorová data. V kontextu časových řad se autokorelace používá k měření, jak jsou hodnoty proměnné korelovány s jinými hodnotami téže proměnné v jiných časových bodech. Například, pokud se jedná o denní teploty v průběhu roku, můžeme zjistit, zda je vysoká dnešní teplota pravděpodobně spojena s vysokou teplotou zítra (pozitivní autokorelace) nebo naopak s nízkou teplotou zítra (negativní autokorelace).

V kontextu prostorových dat se autokorelace používá k měření, jak jsou hodnoty proměnné v jednom místě korelovány s hodnotami téže proměnné v jiných místech. Například, pokud se jedná o úroveň znečištění ve městě, můžeme se pokusit zjistit, zda oblasti s vysokou úrovní znečištění mají tendenci být blízko jiných oblastí s vysokou úrovní znečištění (pozitivní prostorová autokorelace) nebo naopak blízko oblastí s nízkou úrovní znečištění (negativní prostorová autokorelace).

Moranův I test je statistický test, který se používá k měření prostorové autokorelace. Je to hodnota, která se pohybuje od -1 do +1. Hodnota blízká +1 indikuje silnou pozitivní prostorovou autokorelaci (oblasti s podobnými hodnotami mají tendenci být blízko sebe), hodnota blízká -1 indikuje silnou negativní prostorovou autokorelaci (oblasti s rozdílnými hodnotami mají tendenci být blízko sebe), a hodnota blízká 0 indikuje absenci prostorové autokorelace.

Moranův I je velmi užitečný v mnoha různých oblastech, kde je důležitá prostorová analýza, jako je ekologie, geografie, veřejné zdraví, městské plánování a mnoho dalších. Například v oblasti veřejného zdraví může být Moranův I použit k identifikaci "hot spots" nemocí, tedy oblastí s vysokou prevalencí určité nemoci. Ve městském plánování může být použit k analýze vzorců použití půdy nebo distribuce populace.

Moranův I se vypočítá následovně:

I = n/S0 * ( ∑∑ Wij * (xi - x̄) * (xj - x̄) ) / ( ∑ (xi - x̄)^2 ), 

kde:

  • n je počet prostorových jednotek (například bloků města v našem příkladu),
  • x je hodnota sledované proměnné (například příjem) pro danou prostorovou jednotku,
  • x̄ je průměrná hodnota sledované proměnné pro všechny prostorové jednotky,
  • Wij je váhový koeficient, který udává, jak "blízko" jsou k sobě jednotky i a j. Mohou to být například fyzické vzdálenosti, ale také jiné typy "prostorové blízkosti", například sociální nebo ekonomické vazby mezi jednotkami. Obecně platí, že čím blíže jsou jednotky k sobě, tím větší je váhový koeficient.
  • S0 je součet všech váhových koeficientů.

Výsledný Moranův I je pak normalizován tak, aby se pohyboval v rozmezí -1 až +1.

Moranův I nám říká, jak silně jsou hodnoty sledované proměnné korelovány v prostoru. Pokud je Moranův I blízký +1, znamená to, že prostorové jednotky s podobnými hodnotami mají tendenci být blízko sebe (pozitivní prostorová autokorelace). Pokud je Moranův I blízký -1, znamená to, že prostorové jednotky s rozdílnými hodnotami mají tendenci být blízko sebe (negativní prostorová autokorelace). Pokud je Moranův I blízký 0, znamená to, že neexistuje žádný zřejmý vzorec v prostorovém rozmístění hodnot sledované proměnné.

Pojďme si dát pár příkladů, ať to pochopíte. 


Příklad 1.

Budeme zkoumat výskyt kriminality v různých částech města. V našem modelovém městě máme 16 čtvrtí, a chceme zjistit, zda je výskyt kriminality v těchto čtvrtích prostorově autokorelován. Jinými slovy, chceme zjistit, zda mají čtvrtě s vysokou kriminalitou tendenci být blízko jiným čtvrtím s vysokou kriminalitou, a naopak, zda čtvrtě s nízkou kriminalitou mají tendenci být blízko jiným čtvrtím s nízkou kriminalitou.

Máme následující data:

  • Souřadnice středu každé čtvrti (v jednotkách souřadnic, které nemusí nutně odpovídat fyzickým jednotkám, jako jsou metry nebo kilometry, ale můžeme je považovat za vyjádření "blízkosti" jedné čtvrti k jiné).
  • Počet zaznamenaných trestných činů v každé čtvrti za poslední rok

V kontextu geografických dat a prostorové analýzy se souřadnice obvykle vztahují k geografickým souřadnicím na zemském povrchu. Tyto souřadnice obvykle zahrnují zeměpisnou šířku a zeměpisnou délku.

V našem příkladu, kde analyzujeme trestnou činnost v různých obcích, souřadnice x a y by mohly představovat skutečné geografické souřadnice těchto obcí, například v systému souřadnic WGS84 (World Geodetic System 1984), který se často používá v GPS a GIS (Geografický informační systém) aplikacích.

Pokud bychom například měli data ve formátu shapefile, který je běžně používaným formátem pro geografická data, souřadnice by byly přímo součástí tohoto souboru a byly by založeny na konkrétním systému souřadnic, který byl použit při vytváření souboru (například WGS84, nebo nějaký jiný, místně specifický systém).

Pokud bychom používali Google Maps, pak by souřadnice odpovídaly zeměpisné šířce a zeměpisné délce v systému WGS84, protože to je systém, který Google Maps používá.

Pokud bychom měli data, která nejsou založená na geografických souřadnicích, ale spíše na nějakém umělém systému (například data získaná z určité experimentální situace nebo simulace), souřadnice by mohly představovat polohu bodu v tomto umělém prostoru. Toto by mohlo být například v případě, kdy analyzujeme data získaná z počítačové hry nebo z virtuální reality.

V našem konkrétním příkladu jsme si jednoduše vymysleli hodnoty souřadnic pro účely demonstrace, jak se Moranova I statistika vypočítává, ale v reálném scénáři byste chtěli použít skutečné geografické souřadnice, pokud provádíte geografickou nebo prostorovou analýzu.

Data jsme převedli do RStudio. Kód vypadá následovně.

Ještě vám poskytuji kód v R, kdybyste jej chtěli použít pro libovolný případ. Souřadnice nechávám tak, ale obec a trestné činy uvedu obecnými názvy. Data si tam vložte svá podle vzoru. Samozřejmě je oddělte čárkami apod. Však postupujte podle kódu výše. 

Výsledek našeho kódu je následující.

Výsledek Moranova I statistického testu se skládá ze tří částí:

  1. Moran I statistic. Toto je hodnota Moranova I indexu, kterou jsme vypočítali. V našem příkladě je to 1.00000000. Tato hodnota říká, že existuje silná prostorová autokorelace. Hodnota 1 značí dokonalou přímou autokorelaci, což znamená, že obce s vysokou mírou trestné činnosti jsou obklopeny obcemi s vysokou mírou trestné činnosti, a obce s nízkou mírou trestné činnosti jsou obklopeny obcemi s nízkou mírou trestné činnosti.

  2. Standard deviate (standardní odchylka): Je to -0,06666667. Jde o očekávanou hodnota Moranova I indexu za předpokladu, že data jsou náhodně rozložená.

  3. Variance. Je to 0,03641514, což je variance Moranova I indexu za předpokladu, že data jsou náhodně rozložená.

  4. p-value. Je to 1,137e-08, což je velmi malá hodnota. P-hodnota nám říká, jak pravděpodobné je, že bychom pozorovali data, jako je naše, pokud by Moranův I index byl nulový (tedy žádná autokorelace). Čím menší je p-hodnota, tím méně pravděpodobné je, že naše výsledky jsou náhodné (tzn. že není žádná autokorelace). Obvykle se považuje za statisticky významné, pokud je p-hodnota menší než 0,05.

V tomto případě bychom tedy mohli říci, že existuje silná pozitivní prostorová autokorelace v datech o trestné činnosti mezi čtvrtěmi/obcemi. To znamená, že obce s vysokou mírou trestné činnosti mají tendenci být blízko k dalším obcím s vysokou mírou trestné činnosti a naopak. Tento výsledek je statisticky významný.


Příklad 2.