Informatica Medicala si Biostatisticapractica

medicina

ALTE DOCUMENTE

TAPOPAMENTUL - Este cel mai excitant procedeu de masaj.

Vitamina C - vitamina vietii

Baile de abur

Risc genetic

RUJEOLA

7 secrete pentru - Un Somn Usor

ANATOMIA LIMFATICELOR

ALPRAZOLAM LPH

AUTISMUL - Definirea termenului si Diagnosticare

Informatica Medicala si Biostatistica

Indicatii generale

O parte importanta a statisticii se ocupa cu descrierea relatiilor dintre doua sau mai multe variabile. În cele ce urmeaza ne vom concentra asupra procedurilor statistice pentru analizarea datelor calitative sau cantitative.

Un test foarte util pentru datele calitative este testul hi patrat. Pentru a stabili asocieri între valori, el foloseste frecvente ale datelor în loc de medii si variante.

Pentru datele cantitative ceea ce ne intereseaza este corelatia între seturile de date. Daca doua variabile sunt corelate, vom putea folosi informatia furnizata de o variabila pentru a prezice valorile celeilalte variabile.

În aceasta lucrare practica veti învata sa lucrati:

a) cu comanda Tables din EpiInfo, pentru analizarea perechilor de variabile calitative

b) cu comanda Linear Regression pentru analizarea perechilor de varia-bile cantitative.

Softul ce va fi utilizat în lucrarea practica:

Excel Epi Info

Creati documentul Word denumit nume_TESTULT, cu urmatorul continut:

Testul t (Student) este folosit de obicei în doua situatii:

a) cele doua grupuri de observatii (ce trebuie comparate) sunt obtinute de la aceiasi indivizi, testati de doua ori (de exemplu înainte si dupa un tratament). Este evident ca datele obtinute sunt "în perechi", prin urmare Type = 1. Se testeaza:

a1) în cazul unui test unilateral, afirmatia "în urma tratamentului, situatia pacientului se îmbunatateste". Este evident ca va trebui sa controlam, anterior efectuarii testului, daca între mediile observatiilor exista relatia corespunzatoare afirmatiei (în caz contrar testul nu-si are rostul, el se aplica de fapt pentru afirmatia "în urma tratamentului, situatia pacientului se înrautateste"); în acest caz Tails = 1;

a2) în cazul unui test bilateral, afirmatia "în urma tratamentului, situatia pacientului se modifica"; în acest caz Tails = 2;

b) cele doua grupuri de observatii sunt obtinute de la indivizi din grupuri net diferite (de exemplu, un grup este format din pacientii tratati cu un medicament, celalalt grup, cel de control, este format din pacientii "tratati" cu placebo). De data aceasta Type este 2 sau 3, în functie de situatia variantelor celor doua grupuri. De regula nu avem informati despre variante, ceea ce ne obliga sa acceptam ca ele ar fi diferite între ele (cazul heteroscedastic), ceea ce înseamna ca Type = 3. Uni- sau bilateralitatea se trateaza exact ca în situatia a). Se testeaza de fapt afirmatia "pacientii tratati medicamentos se comporta mai bine (respectiv diferit) fata de cei tratati cu placebo".

Testul t este un test parametric, comparatia facându-se la nivelul mediilor. Testul neparametric corespunzator, aplicabil în cazul datelor ordinale, este testul Wilcoxon.

n EpiInfo, comanda Tables se foloseste pentru a crea un tabel de contingenta pentru date de tip calitativ, categorial. Valorile primei variabile (cea "de expunere") vor fi listate în partea stânga a tabelului (Exposure Variable), iar valorile celei de-a doua variabile vor fi listate în partea de sus a tabelului (Outcome Variable). Daca în plus este specificata si a treia variabila, cea "de stratificare" (Stratify by) atunci se va construi câte un tabel de contingenta pentru fiecare valoare a variabilei de stratificare.

	Outcome Variable
Exposure Variable	1 (îmbolnaviti)	2 (sanatosi)	Total
1 (expusi/cazuri)	a	b	a+b
2 (neexpusi/control)	c	d	c+d
Total	a+c	b+d	n

Pe lânga tabelul de contingenta, se vor afisa valorile OR (Odds Ratio), RR (Risk Ratio), RD (Risk Difference), precum si valorile p calculate cu testele statistice Hi-patrat necorectat, Hi-patrat Mantel-Haenszel, Hi-patrat Yates, Z (Mid-p exact), Fisher.

Scopul crearii unui tabel de contingenta este de a determina daca exista sau nu o dependenta între doua variabile calitative, daca exista sau nu o asociere între valorile lor. (Impropriu se spune adeseori "asociere între variabile".)

RR (riscul relativ) este raportul . Aici este riscul celor expusi, adica proportia , iar este riscul celor neexpusi, adica . Riscul relativ compara cele doua riscuri, indicându-ne cum ar trebui sa apreciem sansele ca un individ din populatia expusa sa dezvolte o maladie, în comparatie cu sansele unui indiv 15115x233p id din populatia neexpusa.

RD (diferenta riscului sau riscul atribuibil) este diferenta Ne arata cu cât este mai mare riscul la cei expusi fata de cei neexpusi.

OR (riscul relativ estimat) =

Interpretarea indicatorilor de asociere este evidenta:

Risc relativ	Risc relativ estimat	Concluzie: variabila de expunere este:
RR>1	OR>1	factor de risc
RR=1	OR=1	factor indiferent
RR<1	OR<1	factor de protectie

Pentru OR, RR si RD sunt calculate si intervalele de încredere [a, b]. Interpre-tarea lor este imediata:

Daca a b, atunci variabila de expunere este un factor indiferent,

Daca 1 < a, atunci variabila de expunere este un factor de risc,

Daca b < 1, atunci variabila de expunere este un factor de protectie.

Deschideti un chestionar cu ajutorul comenzii (Enter Data) File Open sample.mdb Select a table Smoke, pentru a adauga o noua înregistrare (cu datele d-voastra). Mai precis sex = 1, 2 (=feminin), smoke = 1, 2 (=fumator), date = "011206".

Preluati date cu ajutorul comenzii: (Analysis) Read Data Formats Epi 2000 Data Source sample.mdb Views viewSmoke

Sa încercam sa verificam ca valori ale variabilelor Sex si Smoke se pot asocia din punct de vedere statistic. Pentru aceasta vom folosi comanda Table în care variabila de expunere (Exposure Variable) este Sex iar variabila rezultat (Outcome Variable) este Smoke

Ipotezele care sunt luate în considerare sunt urmatoarele:

Ipoteza nula: Distributia fumatorilor, pentru barbati si pentru femei, este aceeasi.

Ipoteza alternativa: Distributia fumatorilor nu este aceeasi pentru barbati si pentru femei. (Exista o asociere între sexul "Masculin" si obiceiul "Fumatului").

Se va folosi comanda

Tables Sex Smoke


Sex			TOTAL
Row % Col %
Row % Col %
TOTAL Row % Col %

Single Table Analysis

	Point	95% Confidence Interval
	Estimate	Lower	Upper
PARAMETERS: Odds-based
Odds Ratio (cross product)
Odds Ratio (MLE)

PARAMETERS: Risk-based
Risk Ratio (RR)
Risk Difference (RD%)
STATISTICAL TESTS	Chi-square	1-tailed p	2-tailed p
Chi square - uncorrected
Chi square - Mantel-Haenszel
Mid-p exact
Fisher exact

Pentru interpretarea rezultatelor vom folosi testul hi-patrat. Se observa ca valorile p si statisticile pentru testele Chi square (necorectat, Mantel-Haenszel) sunt apropiate între ele.

Sa luam în considerare testul Chi square - Mantel-Haenszel. Conform acestuia, valoarea p este 0.11789577 > 0.05, deci nu putem sa respingem ipoteza nula. În concluzie nu putem trage concluzia ca exista diferente între proportiile fumatorilor barbati si femei, adica nu putem asocia valoarea "fumator" nici de valoarea "barbat", nici de valoarea "femeie".

Intervalele de încredere pentru OR, RR, RR sunt calculate pentru a avea estimatii ale acestor valori pentru populatia din care a fost extras esantionul. Toate contin în interior valoarea 1. Deci, la nivelul populatiei nu putem sa tragem concluzia ca avem factor de protectie, nici factor de risc. Variabila Sex este un factor indiferent pentru distributia fumatorilor (pentru variabila Smoke).

Preluati fisierul nume_epiinfo.mdb (creat de d-voastra în lucrarea practica anterioara) cu ajutorul comenzii: Read Data Formats: Epi 2000, Data Source: C:\Anul2\Nume_epiinfo.mdb Views viewTabel1. (Reamintim ca datele d-voastra apar întruna dintre înregistrari). Sa analizam daca variabilele Sex si Dom se pot asocia sau nu din punct de vedere statistic, adica sexul influenteaza sau nu distributia rural/urban a pacientilor (probabil ca nu!). Pentru aceasta vom folosi comanda Table în care variabila expunere (Exposure Variable) este Sex iar variabila de rezultat (Outcome Variable) este Dom.

Ipoteza nula: Distributia tipurilor de domicilii (rural/urban), pentru barbati si pentru femei, este aceeasi. Nu exista asociere între sex si domiciliu.

Ipoteza alternativa: Exista asociere între sex si domiciliu. (Între sexul "Masculin" si tipul de domiciliu "Rural"?).

Comandati astfel:

Tables Sex Dom

Rezultatele vor arata (aproximativ) în felul urmator (atentie, totalul ar trebui sa fie 51, nu 50!):

DOM
SEX	R	U	TOTAL
F Row % Col %
M Row % Col %
TOTAL Row % Col %

Single Table Analysis

	Point	95% Confidence Interval
	Estimate	Lower	Upper
PARAMETERS: Odds-based
Odds Ratio (cross product)			1.1362 `(T)`
Odds Ratio (MLE)			1.3604 `(M)`
			1.7821 `(F)`
PARAMETERS: Risk-based
Risk Ratio (RR)			0.9089 `(T)`
Risk Difference (RD%)			7.3515 `(T)`
`(T=Taylor series; C=Cornfield; M=Mid-P; F=Fisher Exact)`
STATISTICAL TESTS	Chi-square	1-tailed p	2-tailed p
Chi square - uncorrected
Chi square - Mantel-Haenszel
Chi square - corrected (Yates)
Mid-p exact
Fisher exact

Warning: The expected value of a cell is <5. Fisher Exact Test should be used.

Pentru interpretarea rezultatelor vom folosi testul Fisher exact (caci nu sunt îndeplinite conditiile testului Chi-square). Observam ca valoarea p este > 0.05 (aprox. 0.0855651419) deci nu putem sa respingem ipoteza nula. În concluzie nu putem sa asociem variabilele Sex si Dom.

Preluati datele din fisierul An2_10_1.xls (foaia "chd"). Adaugati a 572-a înregistrare cu datele d-voastra. Mai precis, Cat = 2 (nivelul de catecholamina scazut), Chd = 2 (nu suferiti de maladii cardiace), Smk (1 = fumator, 2 = nefumator), Exer (1 = faceti sistematic exercitii fizice, 2 = nu), Age (vârsta în ani), Height (înaltimea în cm). Sa verificam ca variabilele Cat (valoarea 1 = nivel de catecholamina crescut) si Chd (1 = coronary heart disease) se pot asocia din punct de vedere statistic. Pentru aceasta vom folosi comanda Table în care variabila de expunere (Exposure Variable) este Cat iar variabila rezultat (Outcome Variable) este Chd. Rezultatul este asemanator cu urmatorul:

CHD
CAT			TOTAL
Row % Col %
Row % Col %
TOTAL Row % Col %

Single Table Analysis

	Point	95% Confidence Interval
	Estimate	Lower	Upper
PARAMETERS: Odds-based
Odds Ratio (cross product)			`(T)`
Odds Ratio (MLE)			`(M)`
			`(F)`
PARAMETERS: Risk-based
Risk Ratio (RR)			`(T)`
Risk Difference (RD%)			`(T)`
`(T=Taylor series; C=Cornfield; M=Mid-P; F=Fisher Exact)`
STATISTICAL TESTS	Chi-square	1-tailed p	2-tailed p
Chi square - uncorrected
Chi square - Mantel-Haenszel
Chi square - corrected (Yates)
Mid-p exact
Fisher exact

Pentru interpretarea rezultatelor vom folosi testul Chi square (caci sunt îndeplinite conditiile pentru aplicarea acestui test). Se observa ca valorile p si statisticile pentru cele trei variante de teste Chi square (necorectat, Mantel-Haenszel, Yates) sunt apropiate între ele.

Sa luam în considerare testul Chi square - Yates. Valoarea p este foarte mica (aprox. 0.0005245), prin urmare respingem ipoteza nula. În concluzie datele releva o asociere între Chd si Cat.

Intervalele de încredere pentru OR, RR, RR sunt calculate pentru estimarea acestor valori în populatia din care a fost extras esantionul. Toate valorile din intervale sunt mai mari decât 1. Deci nivelul de catecholamina crescut este un factor de risc pentru prezenta maladiilor cardiace.

Valoarea RR = 2.3466 se interpreteaza astfel: pentru persoanele cu nivel de catecholamina crescut riscul ca sa aiba maladii cardiace este de 2.35 ori mai mare decât la persoanele cu nivel de catecholamina scazut.

Verificati gradul de asociere (statistica) între variabilele Exer si Chd

De data aceasta, intervalele de încredere pentru OR, RR, RR au toate valorile mai mici decât 1. Deci prezenta exercitiilor fizice este un factor de protectie pentru prezenta bolii de inima.

Daca studiul a fost prospectiv, interpretam valoarea RR = 0.5337. Daca studiul a fost retrospectiv, interpretam valoarea OR = 0.4866. Asadar, sansele ca persoanele care practica exercitii fizice sa aiba maladii cardiace este de 0.4866 ori mai mare (de fapt este de peste doua ori mai mic!) decât pentru cele care nu practica exercitii fizice.

Creati un document Word nume_TABELE.doc care sa contina:

- ipoteza nula si ipoteza alternativa,

- tabelul de contingenta,

- valoarea RR, intervalul de încredere pentru RR, interpretarea valorii RR relativ la expunerea studiata,

- concluzii.

Vom aborda acum comanda Linear Regression. Ea este folosita pentru a efectua o regresie liniara multipla. (Reamintim ca prin "regresie liniara" încercam sa aflam "cea mai buna" formula care exprima legatura liniara între variabile independente, predictor, si variabila dependenta, rezultat. Formula este de forma si toate variabilele care apar în ea sunt de tip numeric.)

În fereastra de comanda ca variabila rezultat (Outcome Variable) vom selecta evident variabila Y, iar celelalte variabile (Other Variables) sunt variabilele independente X.

Comanda Linear Regression foloseste metoda celor mai mici patrate pentru determinarea coeficientilor ai dependentei.

Exemplu. Folositi datele din acelasi fisier An2_10_1.xls. Apelati comanda (din grupa Advanced Statistics). Alegeti (vezi figura urmatoare) Height ca variabila rezultat, iar Age ca variabila independenta. Aceasta nu înseamna altceva decât ca:

a) dorim sa aflam "cea mai buna" formula de dependenta a înaltimii cu vârsta, care se "potriveste" cu datele de care dispunem (cele 572 de înregistrari),

b) dorim sa aflam cât de "justificata" este aceasta formula, daca o putem folosi pentru a face prognoze.

Efectul comenzii este clar: sunt afisate doua tabele. Primul tabel contine:

a) valorile coeficientilor estimati pentru dreapta de regresie (Coefficient),

b) erorile standard pentru acesti coeficienti (Std Error),

c) Testul lui Wald (F-test) pentru validarea ipotezei nule H₀: si valoarea p (P-Value) corespunzatoare.

Variable	Coefficient	Std Error	F-test	P-Value
age
CONSTANT

Din acest prim tabel obtinem formula de dependenta:

Height = 167.646 + 0.048*Age

Valoarea p de 0.477 este însa destul de mare ca sa nu avem încredere deloc în aceasta formula! Mai mult, valoarea coeficientului de corelatie:

Correlation Coefficient: r^2=

este practic 0. O formula obtinuta va putea fi folosita pentru prognoze numai daca patratul coeficientului de corelatie este apropiat de 1 (peste 0.8). Nu este cazul aici!

Explicatia anterioara este întrucâtva gresita. Nu este vorba despre coeficientul de corelatie r, ci despre patratul sau, asa-numitul coeficient de determinatie (r^2). O valoare a lui r apropiata de 0 înseamna ca nu avem relatie liniara între variabila Y si variabilele X, sau ca relatia de tip liniar este "slaba".

Al doilea tabel ofera detalii despre calculul coeficientului de determinatie , prezentând numarul gradelor de libertate, sumele de patrate, valoarea statisticii F. Acest tabel este, pentru moment, mai putin important.

Source	df	Sum of Squares	Mean Square	F-statistic
Regression
Residuals
Total

Reprezentarea grafica a dreptei de regresie obtinute se obtine cu ajutorul comenzii Graph din meniul Statistics Alegeti Graph Type: Scatter XY iar la X-Axis: Main_Variable(s): Age si apoi Height. Titlul graficului (1st Title) va fi: "Dependenta inaltimii de varsta".

Rezultatul va fi urmatorul:

Verificati cu Excel datele obtinute (si precizia lor). Redenumiti fisierul An2_10_1.xls în nume_REGRESIE.xls. Selectati domeniul E1:F572 si creati pe baza datelor din acesta o diagrama de tipul X-Y, pe care o plasati pe o foaie noua denumita "Diagrama". Adaugati "linia de tendinta liniara", cu optiunile "Afisare ecuatie în diagrama" si "Afisare abatere medie patratica în diagrama" activate. Comparati atât diagrama obtinuta, cât si rezultatele numerice, cu cele oferite de EpiInfo

Preluati fisierul An2_10_3.xls, foaia "uret". În acest fisier au fost înregistrate, pentru mai multi pacienti, diametrele calculilor renali evaluati la ecograf (evident, în coloana ECOGRAF), radiologic (coloana RADIOLOGIC) si masurati dupa extragerea lor în urma operatiei (coloana OPERATIE).

Toate masuratorile au fost exprimate în mm.

Teoretic, cele trei valori pe care le obtinem de la pacient ar trebui sa coincida. Practic însa nu se întâmpla asa.

Pentru a ne da seama de felul în care trebuie sa corectam valorile evaluate, folositi EpiInfo, comanda Linear Regression, încercând sa declarati pe OPERATIE ca variabila rezultat (Outcome Variable), apoi pe ECOGRAF ca Other Variables, impunând ca sa nu existe termen liber în relatia dintre ele (bifati caseta de validare No intercept).

Veti obtine formula de corectie

OPERATIE = 0.989 * ECOGRAF

însotita de valoarea 1 a coeficientului de determinatie r^2. Asadar este o formula "perfecta".

Reluati comanda, alegând acum pe RADIOLOGIC drept variabila independenta. Formula

OPERATIE = 1,064 * RADIOLOGIC

este si ea "perfecta. Concluzia este ca la ecograf avem tendinta de a supraevalua dimensiunile reale, pe când radiologic le subevaluam.

Exercitiu. Preluati fisierul An2_10_2.xls (32 înregistrari). Acesta contine date despre presiunea sistolica a sângelui (Sbp), vârsta (Age) si statutului de fumator (Smoke).

Adaugati a 33-a înregistrare, cu datele d-voastra.

Folositi apoi EpiInfo. Preluati, cu modulul Analysis, datele din foaia "sbp64" a fisierului de mai sus. Studiati relatia dintre presiunea sistolica a sângelui si vârsta, încercând sa aflati dreapta de regresie. Extrageti toate informatiile utile oferite de EpiInfo si creati un document nume_LINEAR.doc care sa contina:

ecuatia dreptei de regresie (introdusa cu Equation Editor) si interpretarea coeficientilor;

valoarea coeficientului de determinatie si a coeficientului de corelatie si interpretarea valorilor lor

reprezentarea grafica a dreptei de regresie obtinute (prin preluarea imaginii din fisierul JPG creat);

comentarii despre "bonitatea" dreptei de regresie;

comentarii despre plauzibilitatea relatiei.

Document Info

Accesari: 10978
Apreciat:

Comenteaza documentul:

Nu esti inregistrat
Trebuie sa fii utilizator inregistrat pentru a putea comenta

Creaza cont nou

A fost util?

Daca documentul a fost util si crezi ca merita
sa adaugi un link catre el la tine in site

Copiaza codul:
in pagina web a site-ului tau.

eCoduri.com - coduri postale, contabile, CAEN sau bancare

Politica de confidentialitate | Termenii si conditii de utilizare