Indicatii generale O parte importanta a statisticii se ocupa cu descrierea relatiilor dintre doua sau mai multe variabile. În cele ce urmeaza ne vom concentra asupra procedurilor statistice pentru analizarea datelor calitative sau cantitative. Un test foarte util pentru datele calitative este testul hi patrat. Pentru a stabili asocieri între valori, el foloseste frecvente ale datelor în loc de medii si variante. Pentru datele cantitative ceea ce ne intereseaza este corelatia între seturile de date. Daca doua variabile sunt corelate, vom putea folosi informatia furnizata de o variabila pentru a prezice valorile celeilalte variabile. În aceasta lucrare practica veti învata sa lucrati: a) cu comanda Tables din EpiInfo, pentru analizarea perechilor de variabile calitative b) cu comanda Linear Regression pentru analizarea perechilor de varia-bile cantitative. Softul ce va fi utilizat în lucrarea practica: Excel Epi Info |
Creati documentul Word denumit nume_TESTULT, cu urmatorul continut:
|
n EpiInfo, comanda Tables se foloseste pentru a crea un tabel de contingenta pentru date de tip calitativ, categorial. Valorile primei variabile (cea "de expunere") vor fi listate în partea stânga a tabelului (Exposure Variable), iar valorile celei de-a doua variabile vor fi listate în partea de sus a tabelului (Outcome Variable). Daca în plus este specificata si a treia variabila, cea "de stratificare" (Stratify by) atunci se va construi câte un tabel de contingenta pentru fiecare valoare a variabilei de stratificare.
Pe lânga tabelul de contingenta, se vor afisa valorile OR (Odds Ratio), RR (Risk Ratio), RD (Risk Difference), precum si valorile p calculate cu testele statistice Hi-patrat necorectat, Hi-patrat Mantel-Haenszel, Hi-patrat Yates, Z (Mid-p exact), Fisher. Scopul crearii unui tabel de contingenta este de a determina daca exista sau nu o dependenta între doua variabile calitative, daca exista sau nu o asociere între valorile lor. (Impropriu se spune adeseori "asociere între variabile".) RR (riscul relativ) este raportul . Aici este riscul celor expusi, adica proportia , iar este riscul celor neexpusi, adica . Riscul relativ compara cele doua riscuri, indicându-ne cum ar trebui sa apreciem sansele ca un individ din populatia expusa sa dezvolte o maladie, în comparatie cu sansele unui indiv 15115x233p id din populatia neexpusa. RD (diferenta riscului sau riscul atribuibil) este diferenta Ne arata cu cât este mai mare riscul la cei expusi fata de cei neexpusi. OR (riscul relativ estimat) = |
Interpretarea indicatorilor de asociere este evidenta:
Pentru OR, RR si RD sunt calculate si intervalele de încredere [a, b]. Interpre-tarea lor este imediata: Daca a b, atunci variabila de expunere este un factor indiferent, Daca 1 < a, atunci variabila de expunere este un factor de risc, Daca b < 1, atunci variabila de expunere este un factor de protectie. Deschideti un chestionar cu ajutorul comenzii (Enter Data) File Open sample.mdb Select a table Smoke, pentru a adauga o noua înregistrare (cu datele d-voastra). Mai precis sex = 1, 2 (=feminin), smoke = 1, 2 (=fumator), date = "011206". Preluati date cu ajutorul comenzii: (Analysis) Read Data Formats Epi 2000 Data Source sample.mdb Views viewSmoke Sa încercam sa verificam ca valori ale variabilelor Sex si Smoke se pot asocia din punct de vedere statistic. Pentru aceasta vom folosi comanda Table în care variabila de expunere (Exposure Variable) este Sex iar variabila rezultat (Outcome Variable) este Smoke Ipotezele care sunt luate în considerare sunt urmatoarele: Ipoteza nula: Distributia fumatorilor, pentru barbati si pentru femei, este aceeasi. Ipoteza alternativa: Distributia fumatorilor nu este aceeasi pentru barbati si pentru femei. (Exista o asociere între sexul "Masculin" si obiceiul "Fumatului"). Se va folosi comanda Tables Sex Smoke |
| | |
|
Sex |
|
|
TOTAL |
|
|
|
|
|
|
|
|
TOTAL |
|
|
|
|
|
|
|
|
Point |
95% Confidence Interval |
|
|
Estimate |
Lower |
Upper |
PARAMETERS: Odds-based |
|
|
|
Odds Ratio (cross product) |
|
|
|
Odds Ratio (MLE) |
|
|
|
|
|
|
|
PARAMETERS: Risk-based |
|
|
|
Risk Ratio (RR) |
|
|
|
Risk Difference (RD%) |
|
|
|
STATISTICAL TESTS |
Chi-square |
1-tailed p |
2-tailed p |
Chi square - uncorrected |
|
|
|
Chi square - Mantel-Haenszel |
|
|
|
Mid-p exact |
|
|
|
Fisher exact |
|
|
|
Pentru interpretarea rezultatelor vom folosi testul hi-patrat. Se observa ca valorile p si statisticile pentru testele Chi square (necorectat, Mantel-Haenszel) sunt apropiate între ele. Sa luam în considerare testul Chi square - Mantel-Haenszel. Conform acestuia, valoarea p este 0.11789577 > 0.05, deci nu putem sa respingem ipoteza nula. În concluzie nu putem trage concluzia ca exista diferente între proportiile fumatorilor barbati si femei, adica nu putem asocia valoarea "fumator" nici de valoarea "barbat", nici de valoarea "femeie". Intervalele de încredere pentru OR, RR, RR sunt calculate pentru a avea estimatii ale acestor valori pentru populatia din care a fost extras esantionul. Toate contin în interior valoarea 1. Deci, la nivelul populatiei nu putem sa tragem concluzia ca avem factor de protectie, nici factor de risc. Variabila Sex este un factor indiferent pentru distributia fumatorilor (pentru variabila Smoke). Preluati fisierul nume_epiinfo.mdb (creat de d-voastra în lucrarea practica anterioara) cu ajutorul comenzii: Read Data Formats: Epi 2000, Data Source: C:\Anul2\Nume_epiinfo.mdb Views viewTabel1. (Reamintim ca datele d-voastra apar întruna dintre înregistrari). Sa analizam daca variabilele Sex si Dom se pot asocia sau nu din punct de vedere statistic, adica sexul influenteaza sau nu distributia rural/urban a pacientilor (probabil ca nu!). Pentru aceasta vom folosi comanda Table în care variabila expunere (Exposure Variable) este Sex iar variabila de rezultat (Outcome Variable) este Dom. Ipoteza nula: Distributia tipurilor de domicilii (rural/urban), pentru barbati si pentru femei, este aceeasi. Nu exista asociere între sex si domiciliu. Ipoteza alternativa: Exista asociere între sex si domiciliu. (Între sexul "Masculin" si tipul de domiciliu "Rural"?). Comandati astfel: Tables Sex Dom |
Rezultatele vor arata (aproximativ) în felul urmator (atentie, totalul ar trebui sa fie 51, nu 50!): |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Warning: The expected value of a cell is <5. Fisher Exact Test should be used. Pentru interpretarea rezultatelor vom folosi testul Fisher exact (caci nu sunt îndeplinite conditiile testului Chi-square). Observam ca valoarea p este > 0.05 (aprox. 0.0855651419) deci nu putem sa respingem ipoteza nula. În concluzie nu putem sa asociem variabilele Sex si Dom. |
Preluati datele din fisierul An2_10_1.xls (foaia "chd"). Adaugati a 572-a înregistrare cu datele d-voastra. Mai precis, Cat = 2 (nivelul de catecholamina scazut), Chd = 2 (nu suferiti de maladii cardiace), Smk (1 = fumator, 2 = nefumator), Exer (1 = faceti sistematic exercitii fizice, 2 = nu), Age (vârsta în ani), Height (înaltimea în cm). Sa verificam ca variabilele Cat (valoarea 1 = nivel de catecholamina crescut) si Chd (1 = coronary heart disease) se pot asocia din punct de vedere statistic. Pentru aceasta vom folosi comanda Table în care variabila de expunere (Exposure Variable) este Cat iar variabila rezultat (Outcome Variable) este Chd. Rezultatul este asemanator cu urmatorul: |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Single Table Analysis
|
Pentru interpretarea rezultatelor vom folosi testul Chi square (caci sunt îndeplinite conditiile pentru aplicarea acestui test). Se observa ca valorile p si statisticile pentru cele trei variante de teste Chi square (necorectat, Mantel-Haenszel, Yates) sunt apropiate între ele. Sa luam în considerare testul Chi square - Yates. Valoarea p este foarte mica (aprox. 0.0005245), prin urmare respingem ipoteza nula. În concluzie datele releva o asociere între Chd si Cat. Intervalele de încredere pentru OR, RR, RR sunt calculate pentru estimarea acestor valori în populatia din care a fost extras esantionul. Toate valorile din intervale sunt mai mari decât 1. Deci nivelul de catecholamina crescut este un factor de risc pentru prezenta maladiilor cardiace. Valoarea RR = 2.3466 se interpreteaza astfel: pentru persoanele cu nivel de catecholamina crescut riscul ca sa aiba maladii cardiace este de 2.35 ori mai mare decât la persoanele cu nivel de catecholamina scazut. Verificati gradul de asociere (statistica) între variabilele Exer si Chd De data aceasta, intervalele de încredere pentru OR, RR, RR au toate valorile mai mici decât 1. Deci prezenta exercitiilor fizice este un factor de protectie pentru prezenta bolii de inima. Daca studiul a fost prospectiv, interpretam valoarea RR = 0.5337. Daca studiul a fost retrospectiv, interpretam valoarea OR = 0.4866. Asadar, sansele ca persoanele care practica exercitii fizice sa aiba maladii cardiace este de 0.4866 ori mai mare (de fapt este de peste doua ori mai mic!) decât pentru cele care nu practica exercitii fizice. Creati un document Word nume_TABELE.doc care sa contina: - ipoteza nula si ipoteza alternativa, - tabelul de contingenta, - valoarea RR, intervalul de încredere pentru RR, interpretarea valorii RR relativ la expunerea studiata, - concluzii. |
Vom aborda acum comanda Linear Regression. Ea este folosita pentru a efectua o regresie liniara multipla. (Reamintim ca prin "regresie liniara" încercam sa aflam "cea mai buna" formula care exprima legatura liniara între variabile independente, predictor, si variabila dependenta, rezultat. Formula este de forma si toate variabilele care apar în ea sunt de tip numeric.) În fereastra de comanda ca variabila rezultat (Outcome Variable) vom selecta evident variabila Y, iar celelalte variabile (Other Variables) sunt variabilele independente X. Comanda Linear Regression foloseste metoda celor mai mici patrate pentru determinarea coeficientilor ai dependentei. Exemplu. Folositi datele din acelasi fisier An2_10_1.xls. Apelati comanda (din grupa Advanced Statistics). Alegeti (vezi figura urmatoare) Height ca variabila rezultat, iar Age ca variabila independenta. Aceasta nu înseamna altceva decât ca: a) dorim sa aflam "cea mai buna" formula de dependenta a înaltimii cu vârsta, care se "potriveste" cu datele de care dispunem (cele 572 de înregistrari), b) dorim sa aflam cât de "justificata" este aceasta formula, daca o putem folosi pentru a face prognoze. |
|
Efectul comenzii este clar: sunt afisate doua tabele. Primul tabel contine: a) valorile coeficientilor estimati pentru dreapta de regresie (Coefficient), b) erorile standard pentru acesti coeficienti (Std Error), c) Testul lui Wald (F-test) pentru validarea ipotezei nule H0: si valoarea p (P-Value) corespunzatoare. |
||||||||||||||||||||
|
||||||||||||||||||||
Din acest prim tabel obtinem formula de dependenta: Height = 167.646 + 0.048*Age Valoarea p de 0.477 este însa destul de mare ca sa nu avem încredere deloc în aceasta formula! Mai mult, valoarea coeficientului de corelatie: |
||||||||||||||||||||
|
||||||||||||||||||||
este practic 0. O formula obtinuta va putea fi folosita pentru prognoze numai daca patratul coeficientului de corelatie este apropiat de 1 (peste 0.8). Nu este cazul aici! Explicatia anterioara este întrucâtva gresita. Nu este vorba despre coeficientul de corelatie r, ci despre patratul sau, asa-numitul coeficient de determinatie (r^2). O valoare a lui r apropiata de 0 înseamna ca nu avem relatie liniara între variabila Y si variabilele X, sau ca relatia de tip liniar este "slaba". Al doilea tabel ofera detalii despre calculul coeficientului de determinatie , prezentând numarul gradelor de libertate, sumele de patrate, valoarea statisticii F. Acest tabel este, pentru moment, mai putin important. |
||||||||||||||||||||
|
Reprezentarea grafica a dreptei de regresie obtinute se obtine cu ajutorul comenzii Graph din meniul Statistics Alegeti Graph Type: Scatter XY iar la X-Axis: Main_Variable(s): Age si apoi Height. Titlul graficului (1st Title) va fi: "Dependenta inaltimii de varsta". |
|
Rezultatul va fi urmatorul: |
|
Verificati cu Excel datele obtinute (si precizia lor). Redenumiti fisierul An2_10_1.xls în nume_REGRESIE.xls. Selectati domeniul E1:F572 si creati pe baza datelor din acesta o diagrama de tipul X-Y, pe care o plasati pe o foaie noua denumita "Diagrama". Adaugati "linia de tendinta liniara", cu optiunile "Afisare ecuatie în diagrama" si "Afisare abatere medie patratica în diagrama" activate. Comparati atât diagrama obtinuta, cât si rezultatele numerice, cu cele oferite de EpiInfo Preluati fisierul An2_10_3.xls, foaia "uret". În acest fisier au fost înregistrate, pentru mai multi pacienti, diametrele calculilor renali evaluati la ecograf (evident, în coloana ECOGRAF), radiologic (coloana RADIOLOGIC) si masurati dupa extragerea lor în urma operatiei (coloana OPERATIE). Toate masuratorile au fost exprimate în mm. Teoretic, cele trei valori pe care le obtinem de la pacient ar trebui sa coincida. Practic însa nu se întâmpla asa. Pentru a ne da seama de felul în care trebuie sa corectam valorile evaluate, folositi EpiInfo, comanda Linear Regression, încercând sa declarati pe OPERATIE ca variabila rezultat (Outcome Variable), apoi pe ECOGRAF ca Other Variables, impunând ca sa nu existe termen liber în relatia dintre ele (bifati caseta de validare No intercept). Veti obtine formula de corectie OPERATIE = 0.989 * ECOGRAF însotita de valoarea 1 a coeficientului de determinatie r^2. Asadar este o formula "perfecta". Reluati comanda, alegând acum pe RADIOLOGIC drept variabila independenta. Formula OPERATIE = 1,064 * RADIOLOGIC este si ea "perfecta. Concluzia este ca la ecograf avem tendinta de a supraevalua dimensiunile reale, pe când radiologic le subevaluam. |
Exercitiu. Preluati fisierul An2_10_2.xls (32 înregistrari). Acesta contine date despre presiunea sistolica a sângelui (Sbp), vârsta (Age) si statutului de fumator (Smoke). Adaugati a 33-a înregistrare, cu datele d-voastra. Folositi apoi EpiInfo. Preluati, cu modulul Analysis, datele din foaia "sbp64" a fisierului de mai sus. Studiati relatia dintre presiunea sistolica a sângelui si vârsta, încercând sa aflati dreapta de regresie. Extrageti toate informatiile utile oferite de EpiInfo si creati un document nume_LINEAR.doc care sa contina: ecuatia dreptei de regresie (introdusa cu Equation Editor) si interpretarea coeficientilor; valoarea coeficientului de determinatie si a coeficientului de corelatie si interpretarea valorilor lor reprezentarea grafica a dreptei de regresie obtinute (prin preluarea imaginii din fisierul JPG creat); comentarii despre "bonitatea" dreptei de regresie; comentarii despre plauzibilitatea relatiei. |
|