ALTE DOCUMENTE
|
||||||||||
Teste statistice
Problema testelor statistice
În stiinta afirmatiile sunt adevarate sau false. Spre deosebire de stiintele exacte însa, în medicina si biologie avem o interpretare relativ diferita a adevarului si falsitatii. O discutie aprofundata despre adevar nu este de natura sa faca mai usoara sarcina cititorului în a întelege mai bine notiunea de test statistic. Totusi, trebuie retinut ca relativitatea adevarului si falsitatii sunt deja lucruri comune în stiinta moderna. Este relativ cunoscut paradoxul celui care spune totdeauna minciuni. Daca face afirmatia "ceea ce spun eu acum este fals", aceasta afirmatie nu este de fapt nici adevarata nici falsa.
Daca un matematician face afirmatia ca functia are un minim în x=2, se verifica prin calcul daca afirmatia este sau nu adevarata. Anume, pentru x=2, functia ia valoarea 9, iar pentru x=0, ia valoarea 1, ceea ce înseamna ca valoarea calculata în x=2, n 19219o147t u este minima. Deci afirmatia este 100% falsa.
În stiintele vietii, de obicei, nu este cazul unor asemenea decizii clare. Daca pe un lot de indivizi sanatosi obtinem media latentei semnalului pe nervul optic 104,5 ms, iar pe un lot de indivizi cu lacunarism cerebral obtinem o medie a latentei de 116,4 ms, si facem afirmatia ca cele doua loturi provin din populatii cu medii egale, vom putea lua prin simpla observatie o decizie de genul:
"este foarte improbabil ca cele doua loturi sa provina din populatii cu medii egale".
Dar, deoarece nu este exclusa posibilitatea ca cele doua loturi sa provina din populatii cu medii egale, nu putem fi 100% siguri pe decizia luata. În statistica, nu are sens sa se spuna despre o astfel de ipoteza ca este adevarata sau falsa. Tot ce se apreciaza este plauzibilitatea ei.
În statistica, orice afirmatie este mai mult sau mai putin plauzibila, si vom renunta sa o consideram neaparat din punctul de vedere al alegerii între sigur adevarat si sigur fals.
În mod natural, atunci când constatam diferente mari între mediile a doua loturi, punem diferenta pe seama faptului ca populatiile din care provin loturile au medii diferite. Invers, când diferentele între mediile celor doua loturi sunt mici, le punem pe seama întâmplarii si consideram ca loturile provin din populatii cu medii egale, sau, ca provin din aceeasi populatie. Aceasta problema apare foarte des în practica pentru ca foarte des aplicam tratamente la loturi care trebuie apoi comparate cu loturi la care nu se aplica tratamentul.
Sa ne punem deci pentru început problema de a raspunde cât mai precis la întrebarea: mediile reale, ale populatiilor din care provin loturile de mai sus (sanatosi si lacunarism cerebral), sunt egale?
Sa ne reamintim ca daca o variabila este repartizata normal sau Gaussian, cu media m si deviatia standard s, atunci luând loturi de n indivizi din acea populatie, media calculata pe un astfel de lot este o variabila aleatoare care este repartizata tot normal, cu media m si deviatia standard Chiar daca repartitia variabilei nu este Gaussiana, repartitia mediei de esantionare pentru loturi de n indivizi se apropie de una normala cu atât mai mult cu cât n este mai mare. Deci, în aparenta, vom putea estima media reala din parametrii m si sn, asa cum am mai spus, la aproximativ 95% din esantioane, adevarata medie este în intervalul m-2sn, m+2sn si la aproximativ 99% din esantioane adevarata medie este în intervalul m-3sn, m+3sn
Bazat pe aceste observatii care au fost prezentate în capitolul 7, daca vom gasi pentru doua loturi medii care sa dea intervale de încredere care se suprapun, putem decide ca mediile loturilor difera din întâmplare. Daca însa intervalele de încredere nu se suprapun diferenta între medii nu este întâmplatoare, caz în care se spunem ca este semnificativa.
În figurile 8.1 si 8.2, sunt prezentate cele doua cazuri care pot apare în acest tip de problema. În figura 8.1, intervalele de 95% pentru mediile celor doua loturi se suprapun, deci mediile reale ar putea fi egale (diferenta între mediile calculate pe cele doua loturi este probabil întâmplatoare). În figura 8.2 însa, intervalele de 95% pentru mediile celor doua loturi nu se suprapun mediile reale nu ar putea fi egale (adica exista o diferenta între mediile reale, 95% sigur). În felul acesta avem un raspuns destul destul de sigur la întrebarea pusa mai sus.
Figura 8.1 Daca intervalele de 95% pentru mediile a doua loturi se suprapun mediile reale ar putea fi egale, diferenta între mediile calculate pe cele doua loturi este probabil întâmplatoare.
Figura 8.2 Daca intervalele de 95% pentru mediile a doua loturi nu se suprapun mediile reale nu ar putea fi egale, exista o diferenta între mediile reale (95% sigur).
Asa se si procedeaza de fapt, dar numai atunci când sn este cunoscut, adica atunci când s este cunoscut. Acest lucru nu se întâmpla în realitate decât foarte rar, deoarece, asa cum media ne este necunoscuta si încercam sa o estimam, deviatia standard a populatiei ne este cu atât mai putin cunoscuta. În practica, s este înlocuit cu deviatia standard a loturilor pe care se lucreaza, sn, caz în care nu ne mai putem baza pe distibutia Gauss ci pe distributia Student, care difera de la n la n, adica în functie de numarul de indivizi ai esantionului, apropiindu-se de una normala odata cu cresterea lui n. Estimarea mediei se face asemanator, numai ca intervalele difera întrucâtva (a se revedea capitolul 7 pentru amanunte). Deci, un raspuns la întrebarea pusa anterior se poate da cu ajutorul intervalelor de încredere. Mai jos, detaliem discutia despre metode de acest gen, deoarece sunt foarte importante în statistica.
Deci, una din problemele esentiale ale statisticii este aceea de a decide asupra unor ipoteze care se nasc în mod natural din examinarea datelor avute la dispozitie sau a indicatorilor statistici care le caracterizeaza.
În exemplul, de mai sus, masurând latenta semnalului pe nervul optic la indivizi sanatosi, si la pacienti cu lacunarism cerebral si observând o diferenta destul de mare între ele, ne punem intrebarea daca în general lacunarismul cerebral conduce la o latenta mai mare sau, diferenta constatata este o pura întâmplare. De fapt, trebuie sa decidem daca populatiile din care provin cele doua loturi au medii egale sau diferite. Acesta este un tip de problema de baza la care raspund testele statistice.
Vom considera ca normalii la care s-au facut masuratori provin dintr-o populatie, teoretic infinita, pe care o vom denumi populatia normala, iar ceilalti provin in mod asemanator dintr-o populatie pe care o vom denumi populatia afectata. Vom avea doua cazuri:
a) Media latentei la cele doua populatii este aceeasi (necunoscuta) iar diferentele constatate pe cele doua loturi sunt datorate întâmplarii. Daca am continua masuratorile, marind cele doua esantioane, mediile recalculate vor fi mai apropiate, iar in cele din urma vor tinde sa devina egale, rolul întâmplarii diminuându-se încet, încet.
b) Cele doua populatii au medii diferite, si anume cea afectata are o medie a latentei mai mare, caz în care daca am continua masuratorile, marind loturile, încet, încet, mediile tind sa se stabilizeze, adica sa nu se mai modifice prea mult, dar, media la cei afectati tinde la o valoare diferita (si anume mai mare) ca media la sanatosi.
Înainte de a face masuratori efective, nimeni nu poate spune care este situatia, adica nu poate decide între cazurile a) si b). Din pacate, de obicei este greu sa se ia o astfel de decizie chiar si dupa efectuarea de masuratori. In practica, diferente destul de mari între mediile de esantionare pot apare la loturi extrase din aceeasi populatie daca s-au masurat putini indivizi, mai ales daca împrastierea datelor este mare. A trage concluzia ca cele doua loturi provin din populatii cu medii diferite este, bineînteles în acest caz nu numai riscant ci de-a dreptul gresit. Invers, diferente între mediile de esantionare care la prima vedere par neînsemnate, pot sa indice ca cele doua loturi provin din populatii diferite, daca masuratorile s-au facut pe suficient de multi indivizi, mai ales când datele au împrastieri mici.
De exemplu, la un lot de 122 de normali s-a masurat latenta semnalului nervos pe nervul optic si s-a obtinut o medie de 105,4 ms si o deviatie standard de 8,6 ms. Pacientii cu o afectiune au fost 87 si s-a obtinut o medie de 108,7 ms si o deviatie standard de 9,5 ms. Dupa cum se vede foarte usor, diferenta de medie pare mica si suntem tentati sa consideram ca suntem în cazul a), adica diferenta de 108,7 ms - 105,4 ms = 3,3 ms este întâmplatoare. În realitate testul Student, despre care va fi vorba în acest capitol arata ca este aprape sigur (p=99,52%) ca cele doua esantioane provin din populatii diferite sau ca cele doua populatii din care provin (sanatosi si afectati) au medii ale latentei diferite. Acest capitol îsi propune printre altele sa initieze cititorul în modul de a lua astfel de decizii.
Într-un alt caz, pe un lot de 35 de indivizi sanatosi s-a obtinut media de 105,2 ms si o deviatie standard de 11,6 ms în timp ce la cei bolnavi (21), media a fost de 109,6 ms si deviatia standard 13,9 ms. În ciuda faptului ca diferenta este acum ceva mai mare (4,4 ms), si ar trebui deci sa deducem ca este cu atât mai probabil ca cele doua loturi sa provina din populatii diferite, din contra, testul Student arata ca nu sunt suficiente dovezi pentru aceasta concluzie, ci, mai degraba este corect sa punem diferenta constatata pe seama intâmplarii. Acest lucru se întâmpla din cauza datelor mai împrastiate, lucru dovedit de deviatiile standard mai mari, precum si din cauza numarului mai mic de masuratori în cele doua loturi.
Vom conveni în continuare ca, daca ne aflam într-o situatie asemanatoare cu cea de mai sus, sa denumim cele doua situatii posibile (a si b) ca ipoteze fundamentale de lucru si anume pe prima o vom numi ipoteza de diferenta nula, sau ipoteza de nul, iar pe cealalta ca ipoteza alternativa.
Asadar:
Uneori, ca alternative se pot alege doua ipoteze sau chiar mai multe. De exemplu, în cazul de mai sus, putem avea doua ipoteze alternative la ipoteza de nul:
Definitie:
Vom numi test statistic, o metoda care ne ajuta sa decidem cu un grad de siguranta ales, daca ipoteza de nul poate fi respinsa în favoarea ipotezei sau ipotezelor alternative sau daca nu sunt suficiente dovezi care sa justifice respingerea ipotezei de nul.
Ipotezele pe care le putem supune deciziei unui test statistic sunt foarte variate. Din observarea datelor, se pot naste ipoteze dintre cele mai diverse. Categoriile principale de ipoteze sunt:
Ipoteze care afirma ca mediile a doua populatii sunt egale
Ipoteze care afirma ca dispersiile a doua populatii sunt egale
Ipoteze care afirma ca mediile a trei sau mai multe populatii sunt egale
Ipoteze care afirma ca dispersiile a trei sau mai multe populatii sunt egale
Ipoteze care afirma ca repartitia unei variabile aleatoare este o repartitie fixata (Gauss, Poisson, etc.)
Ipoteze care afirma ca doi factori de clasificare sunt independenti
Fiecare dintre tipurile de ipoteze formulate mai sus, are una sau mai multe ipoteze alternative.
Se poate testa deci, daca dispersiile unor populatii sunt diferite, discutia fiind în fond aceeasi ca la cea pentru medii. În plus, exista teste care testeaza egalitatea a mai multor medii, adica având la dispozitie mediile de esantionare a trei sau chiar mai multe loturi (cu deviatiile lor standard), ne situam în unul din cazurile:
Un test statistic va trebui în toate aceste cazuri, sa ne ajute sa decidem între a respinge sau nu ipoteza de nul H0.
Testarea unor ipoteze statistice se poate face bazându-ne pe proprietatile distributiei normale. De cele mai multe ori insa, ipotezele statistice sunt de asa natura ca este nevoie de cunoasterea proprietatilor altor distributii pentru a putea decide daca sunt sau nu suficient de bine sustinute de datele pe care le avem la dispozitie.
În continuare vom expune principalele categorii de teste folosite mai des în practica medicala, dupa care vom da o apreciere a metodelor expuse în acest capitol.
|