Módszertan; invetigacihoz; n Parametrikus módszerek két minta összehasonlítására

M. kutatás

Tartalomjegyzék

Bevezetés

A vizsgálat céljából összegyűjtött adatok elemzésekor a megfelelő elemzési módszer kiválasztása elengedhetetlen a téves következtetések levonásának elkerülése érdekében. A legmegfelelőbb elemzési technikát kell kiválasztani, figyelembe véve a vizsgálat tervezésével és a számszerűsítendő adatok jellegével kapcsolatos különböző szempontokat. Az összehasonlítandó megfigyelési csoportok száma, azok jellege (attól függően, hogy független minták vagy ugyanazon egyedeken végzett ismételt megfigyelések), az adatok típusa (folytonos/kvalitatív változók) vagy valószínűség-eloszlásuk meghatározó elemeket jelent az alkalom, hogy megismerjék az alkalmazható statisztikai technikákat.

A kvantitatív adatok elemzésénél a gyakorlatban legismertebb és leggyakrabban alkalmazott statisztikai módszerek, például a Student-féle t-teszt vagy a variancia-elemzés olyan feltételezéseken alapulnak, amelyeket a rendelkezésre álló adatok nem mindig igazolnak. Így általában azt kell feltételeznünk, hogy az érdekes változó például egy Gauss-eloszlást követ. Ha a normalitás hiánya nyilvánvaló, vagy ha a csökkentett mintamérettel nem lehet teljes mértékben elfogadni, akkor általában az érdeklődő változó transzformációját (például a logaritmikus transzformációt) alkalmazzák eloszlásának szimmetrálásához vagy a közös igénybevétel technikáinak használatához. robusztusságukra (vagyis alacsony érzékenységükre a normalitás hiányára). Vannak más, általában nem parametrikusnak nevezett módszerek, amelyek nem igényelnek ilyen típusú hipotézist az adatok elosztásáról, könnyen megvalósíthatók, és kis mintanagysággal is kiszámíthatók. Jelen munkában a gyakorlatban a legtöbbet használt nem-parametrikus módszereket ismertetjük.

Két független minta: a Mann-Whitney U teszt és a Wilcoxon rangösszeg teszt

Sok helyzetben kívánatos tesztelni, hogy az X változó eloszlása megegyezik-e két populációban, vagy az említett változó a minta két csoportjának egyikében nagyobb (vagy kevesebb) a minta adatai alapján. Érdekes lehet például összehasonlítani a két különböző étrendben szenvedő betegek súlycsökkenését, vagy a kezelésben részesülő osteoarthritisben szenvedő betegek fájdalomszintjét a placebóval szemben. A „hagyományos” statisztikai elméletben az ilyen típusú összehasonlítás elvégzéséhez a teszt két független mintának a Student-féle próbája lenne: a Mann-Whitney U teszt vagy a Wilcoxon rangösszeg teszt nem karakteres tesztek. amit ebben a helyzetben is fel lehetne használni.

Formálisabb módon tegyük fel, hogy ugyanazon X változóval (súlycsökkenés, fájdalom pontszám stb.) Két különböző populációban vannak megfigyelések n1 és n2 méretű mintákon:

1. népesség:
2. népesség:

Az eljárás intuitív módja az, hogy a kapott megfigyeléseket - a származási populációuktól függetlenül - a legalacsonyabbtól a legnagyobb értékig rendeljük, és tartományokat rendeljünk az így rendezett adatokhoz. Ily módon a kisebb értékű megfigyeléshez 1., a következő 2. rangot stb. Kapcsolatok esetén (ha két vagy több megfigyelés egybeesik értékben), mindegyik megfigyeléshez hozzárendelik azon tartományok átlagát, amelyeket hozzárendelnének, ha nem lenne egyenlő.

Ha nincs különbség a két populáció közötti megoszlásban, a tartományokat véletlenszerűen kell összekeverni a két minta között. Másrészt, ha az egyik populáció megfigyeléséhez rendelt tartományok összege sokkal nagyobb, mint a másik populáció megfigyeléseihez rendelt tartományok összege, ez az X változó eloszlásának különbségét jelezné mindkettő között.

Jelöljük az elérhető megfigyelések mindegyikéhez rendelt ranggal. Az egyik populáció rangjainak összegét kontrasztstatisztikának tekintjük a Wilcoxon rangösszeg-tesztnél:

A korábbi statisztikák valószínűség-megoszlását kis mintanagyságokra és kapcsolatok hiányában táblázatosan adtuk meg (1. táblázat). Így az 1. táblázat hasznos tudni, hogy az eredmény kétoldalú szinten szignifikáns, ha 95% -os biztonsággal és ≤15 mintamérettel dolgozunk.

Nagyobb mintaméreteknél (> 15) célszerű a normál közelítést használni, a T-ből kapva a változót:

hol és hol van a T átlagértéke és szórása, ha a nullhipotézis igaz, és a következő képletek adják meg:

A kapcsolatok számának szintén csekélynek kell lennie a megfigyelések teljes számához viszonyítva. A kapcsolatok esetében a T statisztika varianciáját módosítani kell, hogy az előző kifejezés a következő legyen:

Miután megkapta z értékét, a normális eloszlás táblázataihoz kell utalni, hogy megkapja a hozzá tartozó szignifikancia értéket.

Ennek a tesztnek az illusztrálására a 2. táblázat adatait vesszük figyelembe, amelyek megfelelnek a fájdalom mérési értékeinek (0-10 skálán) két, 11 betegből álló csoportban, akik két különböző fájdalomcsillapító kezelést végeznek. Ebben az esetben n1 = n2 = 11. Az első csoport megfigyeléseihez rendelt tartományok összege T = 171, és annak átlaga