Documente online.
Zona de administrare documente. Fisierele tale
Am uitat parola x Creaza cont nou
 HomeExploreaza
upload
Upload




Serii de valori si indicatori statistici

Matematica


Serii de valori si indicatori statistici

2.1 Serii de valori

Asa cum s-a vazut în capitolul anterior, uneori este necesar sa urmarim mai întâi un singur parametru numeric din multitudinea de parametri înregistrati într-un tabel de date. În acest caz, datele numerice pe care le avem la dispozitie sunt un simplu sir de numere asociate, fiecare din ele, unui individ. Întrucât aprecierile asupra întregului sir de numere nu au în acest caz nici o legatura cu situatia fiecarui individ în parte, asocierea între indivizi si valorile corespunzatoare îsi pierde interesul si trebuie avut în vedere doar sirul de numere rezultat. Este adevarat ca uneori este necesar sa se tina seama de ordinea în care apar valorile într-un astfel de sir, ca în cazul asa numitelor serii temporale la care masuratorile sunt luate într-o anumita ordine, dar de obicei ordinea este neimportanta si în cele ce urmeaza vom considera ca suntem în acest caz, în care ordinea este neinportanta. Aceste siruri de numere rezultate din datele culese le vom numi serii statistice sau serii de date sau serii de valori.



Ceea ce trebuie urmarit în primul rând la o serie de valori este modul în care valorile din serie sunt distribuite în plaja de valori între un minim si un maxim, cum se distribuie în jurul mediei, care este tendinta centrala a seriei, care sunt valorile cel mai des întâlnite, etc.

Caracterizarea sintetica a unei serii de valori este data de asa numitii indicatori statistici, între care media, deviatia standard, mediana, etc, indicatori pe care îi vom descrie în continuare.

Indicatorii statistici sunt numere reale, care sintetizeaza o parte din informatia continuta de o serie de valori, dând posibilitata aprecierii globale a întregii serii, în loc sa tinem cont de fiecare valoare din sir. Asa cum se va vedea în acest capitol, fiecare indicator urmareste sa scoata în evidenta proprietati diferite ale sirului de valori. Astfel, prin combinarea mai multor indicatori, obtinem informatii relevante si sintetice despre valorile sirului. Daca în locul sirului propriu-zis, folosim o serie de indicatori statistici, o parte din informatie se pierde. Totusi, de obicei se pierde ceea ce este nesemnificativ, accidental, indicatorii statistici retinând doar esentailul. De aici si utilitatea si importanta lor în statistica.

În cele ce urmeaza, valorile din sirul de numere ce constituie o serie de valori le vom nota cu

X: x1, x2,....... xn, sau Y: y1,y2,...yn

sau notatii asemanatoare folosind alte litere ale alfabetului.

De exemplu, în loc sa spunem ca cele 10 valori ale glicemei la cei zece pacienti dintr-un lot sunt: 88, 97, 103, 89, 93, 105, 98, 105, 88, 103, vom scrie în loc de Glicemie litera X, si în locul fiecarui numar din cele zece, simbolurile x1, x2,..x10. Deci, x1 tine locul lui 88, x2 pe cel al lui 97, etc. Aceste notatii le folosim pentru a usura întelegerea formulelor de calcul pentru unii indicatori.

2.2 Indicatori statistici

2.2.1 Valori extreme, amplitudine

Cel mai usor de cautat si de înteles ca semnificatie sunt indicatorii Minim si Maxim care sunt cei ce ne indica plaja de valori pe care se întinde seria de valori. De cele mai multe ori, valorile minima si maxima dintr-o serie nu se înscriu în limitele de normalitate, ceea ce nu înseamna neaparat ca seria contine valori anormale. Totusi, de obicei, cele mai îndepartate câteva valori, atât cele mai mici cât si cele mai mari trebuie verificate pentru a ne asigura ca nu este vorba de date eronate.

De exemplu, desi se considera ca valorile normale pentru latenta semnalului nervos pe nervul optic între stimularea retinei si raspunsul cortical sunt situate aproximativ între 90 si 115 ms, un esantion de indivizi sanatosi poate sa produca o serie de valori care are si una sau câteva exceptii. De aceea, din 20 sau 30 de valori, una poate fi 88 ms iar alta 117 ms, majoritatea fiind însa între 95 si 110 ms.

Amplitudinea absoluta, este diferenta dintre maximul si minimul unei serii de valori si ne da informatii despre largimea plajei de valori pe care se întind datele din serie (vezi figura 2.1). O serie de valori cu o amplitudine mare indica o plaja de valori întinsa datorata fie unei dispersii sau împrastieri mari a datelor, fie simplului fapt ca sunt multe valori. Daca doua serii de valori au acelasi num& 22122p151w #259;r de valori, dar una are o amplitudine mai mare, atunci valorile ei sunt mai împrastiate.

Figura 2.1. Indicatorii medie, minim, maxim, amplitudine absoluta si amplitudine relativa.

Amplitudinea relativa ne da o informatie legata tot de împrastierea valorilor din serie, dar permite compararea dispersiei valorilor a doua serii, chiar când mediile difera sensibil. Anume, o serie se considera a fi cu atât mai dispersata cu cât amplitudinea relativa este mai mare.

Plaja de valori cuprinsa între minim si maxim, desi are legatura cu ceea ce în limbaj uzual numim interval de normalitate, nu se suprapune peste acesta. Ba mai mult, pe masura ce o serie de valori are mai multe înregistrari, probabilitatea de a contine numere din ce în ce mai mici si din ce în ce mai mari, creste.

De exemplu seria:

X: 58, 74, 70, 71, 56, 68, 70, 82, 62, 62,

care reprezinta greutatea în Kg a primilor 10 pacienti dintr-un esantion de pacienti cu afectiuni hepatice, are minimul 56 iar maximul 82. Deci, greutatile celor 10 pacienti sunt între 56 si 82 de Kg. Daca mai luam si urmatorii 4 pacienti, seria:

Y: 58, 74, 70, 71, 56, 68, 70, 82, 62, 62, 59, 96, 57, 71,

are minimul tot 56 pentru ca nici unul din noii pacienti nu are o greutate mai mica, dar maximul a crescut la 96 si reprezinta greutatea pacientului al doisprezece-lea din serie.

Pe masura introducerii de noi pacienti este posibil ca minimul, sau maximul, sau amândoua sa se schimbe. Se constata ca pe masura ce creste numarul de pacienti luati în calcul, probabilitatea ca cei doi indicatori, minim si maxim sa se mai schimbe prin adaugarea de noi pacienti, scade.

În tabelul de mai jos sunt listate minimele, maximele, amplitudinea absoluta si relativa pentru câtiva parametri fiziologici si biochimici esentiali pentru organismul uman:

Tabelul 2.1 Indicatorii minim, maxim, amplitudinea absoluta si relativa

a unor parametri biochimici si fiziologici importanti pentru organismul uman

Nr. pacienti

Minimul

Maximul

Amplitudine absoluta

Amplitudinea relativa

Tensiunea sistolica

Tensiunea diastolica

Glicemia

Colesterolul

HDL

LDL

Trigliceride

2.2.2. Valori medii

Media aritmetica a unei serii de valori. Este un indicator simplu si în acelasi timp foarte sintetic, fiind un foarte bun indiciu al valorii în jurul careia se grupeaza datele. Se noteaza cu litera m sau, daca seria de valori este notata cu o majuscula ca X sau Y, media se noteaza cu sau . Formula este cea cunoscuta:

(2.1)

Definitie:

Media aritmetica unei serii de valori este raportul dintre suma valorilor seriei si numarul lor.

Iata câteva din proprietatile fundamentale ale mediei:

Media este cuprinsa între cea mai mica si cea mai mare dintre valorile din sirul de valori. Desi avem tentatia sa o consideram pe undeva pe la mijlocul intrevalului dintre minim si maxim, ea se afla de multe ori mai aproape de capetele acestui interval.

Daca valorile din sir sunt egale între ele, atunci media este egala cu fiecare din ele. Astfel, daca vârstele a 5 pacienti sunt toate 45 de ani, media lor de vârsta este tot 45.

Desi sintetizeaza valori concrete, media este o marime abstracta. De exemplu, când se calculeaza numarul mediu de copii ai familiilor dintr-o arie geografica data, se poate obtine un numar mediu de 1,34. Aceasta nu înseamna bineînteles decât o valoare abstracta. Tot astfel, prin venit mediu de 112$, nu întelegem ca neaparat unul sau mai multi angajati au ca venit aceasta suma.

Suma patratelor deviatiilor datelor de la media lor este mai mica decât suma patratelor deviatiilor lor de la orice alt numar.

În tabelul de mai jos, sunt listate tensiunile sistolice a 20 de pacienti, tensiuni care au o medie de 172. Pe coloana a doua sunt listate diferentele individuale fata de medie, iar pe coloana a treia, patratele lor. Pe ultimele doua coloane sunt listate diferentele fata de numarul 169, ales arbitrar, si respectiv patratele lor. Pe ultima linie a teblului sunt efectuate cele doua sume. Se observa ca suma a doua este mai mare.

Tabelul 2.2. Diferentele dintre valorile unei serii si medie (si patratele lor) si diferentele valorilor

fata de un alt numar (si patratele lor). Suma patratelor este mai mica atunci când

diferenta se face fata de medie.

xi

xi-media

sau

xi-172

(xi-172)2

xi-169

(xi-169)2

Suma

Daca în locul numarului 169, am fi luat alt numar, diferit de 172, care este media, suma calculata pe ultima coloana ar fi fost mai mare decât 2720, indiferent de numarul ales.

Media calculata cu formula de mai sus se numeste media aritmetica, pentru a o deosebi de alte tipuri de medii pe care le prezentam mai jos. Media aritmetica este cea mai importanta dintre medii si cea mai folosita în practica. De aceea, de obicei i se mai spune simplu medie.

Media este indicatorul care arata tendinta centrala a seriei de valori, si de obicei arata unde tind datele sa se aglomereze. De cele mai multe ori, valorile din serie sunt situate în majoritate în apropierea mediei, iar o mai mica parte din ele sunt situate mult în stânga sau în dreapta mediei. O situare a valorilor din serie fata de medie se poate observa din asa-numitul grafic punctual de dispersie, din care este dat un exemplu în figura 2.2

Figura 2.2. Cele mai multe valori sunt de obicei mai apropiate de medie.

Dar nu totdeauna datele din seria de valori se situeaza preponderant în apropierea mediei. Mai rar, si oarecum mai fortat, ne putem întâlni si cu situatii în care datele din serie se situeaza preponderant în stânga si dreapta, departe de medie si doar o mica parte dintre ele se situeaza aproape de medie, asa cum se observa în figura 2.3.

Figura 2.3. Uneori, cele mai multe valori sunt sub medie si peste medie, destul de departe de aceasta. În seriile de mai sus, avem aceeasi medie, dar este evident ca nu avem aceeasi situatie. Valorile din seria de jos sunt mai împrastiate.

Astfel, daca în acelasi lot sunt cuprinsi indivizi hipertiroidieni si hipotiroidieni, si se masoara la fiecare concentratia hormonului tiroidian T4, vom observa ca hipotiroidienii au preponderent valori în stânga mediei, cei mai multi destul de departe de medie, iar hipertiroidienii au preponderant valori în dreapta, tot departe de medie. De fapt într-un asemenea caz, în zona centrala lipsesc exact ceea ce am spune ca sunt normalii, adica indivizi care au valori pentru T4 usor peste si sub medie, si care nu au fost inclusi într-un astfel de lot. Evident ca un esantion asa de eterogen nu este folosit prea des în statistica pentru ca, asa cum vom vedea, în acest caz este foarte indicat sa se constituie doua esantioane distincte pentru cele doua categorii de pacienti. Totusi, asemenea situatii, chiar daca de obicei nu sunt indicate si sunt putin artificiale, exista. Situatia de mai sus este ilustrata în figura 2.3.

Vom nota cu media unei serii de valori X.

Pentru seriile X si Y de mai sus mediile , si sunt:

Am folosit pentru medie si notatia pe care o vom folosi de acum înainte. Notatia m are dezavantajul ca daca se lucreaza cu doua serii de valori odata, trebuie folositi indici pentru a deosebi cele doua medii, de aceea vom folosi în cele ce urmeaza cealalta notatie.

Se observa ca introducerea celor 4 pacienti în plus în seria Y, fata de cei 10 pe care îi contine si seria X, modifica destul de mult media, din cauza valorii 46, care este mult mai mica decât celelalte. Deci, media este un indicator sensibil la introducerea sau înlaturarea unor valori extrem de mari sau de mici.

O formula simplificata pentru media aritmetica este data de (vezi cap. 1.9):

unde cu n am notat numarul de valori diferite din seria de valori, iar F1, F2, ... Fn sunt frecventele de aparitie în serie ale valorilor x1, x2, ... xn

Aceasta formula se spune ca este formula pentru media ponderata, ceea ce este gresit, dar expresia a intrat în uz si este folosita curent, de aceea o vom folosi în aceasta carte. Nu trebuie sa credem ca media ponderata calculata cu formula de mai sus si media aritmetica calculata cu formula (2.1), sunt indicatori diferiti. Ambele medii sunt în realitate identice. Media ponderata se calculeaza de obicei mai simplu si deci nu reprezinta decât o forma mai simpla de calcul al mediei aritmetice.

Prin faptul ca este un indicator extrem de fidel al tendintei centrale al unei serii statistice, media este un indicator statistic extrem de mult utilizat în statistica. Media aritmetica are dezavantajul ca este sensibila la valori extreme fie foarte mici, fie foarte mari. Adaugarea unei singure valori (sau a câtorva) mult mai mari decât celelalte, modifica sensibil media aritmetica.

De asemenea, daca datele sunt distribuite în jurul mediei puternic asimetric, media îsi pierde din puterea de a evoca tendinta centrala, în aceste cazuri fiind mult mai utila mediana (vezi mai jos).

De exemplu, în figura 2.4, se observa ca cele mai multe valori din cele 233 ale seriei reprezentate în grafic (viteze de sedimentare a hematiilor la o ora), sunt aglomerate în primele patru bare din stânga, adica în stânga mediei, care este 40,57. În acest caz, media nu arata locul unde se aglomereaza mai mult datele din serie si îsi pierde o parte din utilitate. A se vedea mai jos, indicatorul mediana si de ce în acest caz este mai util decât media.

Fig. 2.4 Daca datele se distribuie asimetric, media (40,54) nu mai arata tendinta centrala. Majoritatea valorilor sunt în stânga mediei (156 în stânga, 77 în dreapta). Cele mai multe valori din serie sunt în intervalul 10 - 30, deci nu în jurul mediei.

Media armonica

Pentru o serie de valori, media armonica are formula:

(2.2)

Este o medie mai rar folosita în medicina. Are si ea dezavantajul ca adaugarea sau eliminarea a una sau câteva valori foarte mici sau foarte mari din serie, modifica semnificativ media. Are proprietatile de baza ale unei medii adica:

Arata tendinta centrala a valorilor,

Este cuprinsa între valoarea minima din serie si valoarea maxima,

Daca valorile din serie sunt egale, media este egala cu fiecare din ele

Exemplu:

Sa presupunem ca un experiment sau o analiza se realizeaza într-un timp t1 iar un alt experiment se realizeaza în timpul t2. Timpul mediu pentru cele doua experimente, este media armonica a celor doi timpi. Aceasta deoarece, pentru calculul mediei, trebuie sa calculam în prealabil câte experimente de fiecare fel se pot realiza într-o perioada fixa de timp T, si apoi sa împartim timpul T la numarul total de experimente. Astfel, în timpul T s-ar putea realiza T/t1 experimente de tipul 1 si T/t2 experimente de tipul 2. Deci, în timpul T+T, se pot realiza în total T/t1+T/t2 experimente. Deci media va fi

adica, tinând cont ca T se simplifica, deoarece apare si la numarator si la numitor, media armonica pentru doua valori este:

De exemplu, daca un experiment se poate realiza în 16 de luni iar un alt experiment în 20 de luni, pentru calculul duratei medii, rationam astfel: în 80 de luni, se pot realiza 5 experimente de tipul întâi, sau 4 experimente de tipul al doilea. Deci, în 160 de luni, se pot realiza si cinci experimente de tipul întâi, si 4 experimente de tipul al doilea, în total, 9 experimente. Timpul mediu este 160/9 = 17,7 luni. Aceasta medie este mai informativa si mai utila decât media aritmetica a celor doi timpi, 16 luni si 20 de luni, care este 18 luni.

Daca avem nevoie de timpul mediu pentru trei tipuri de experimente, fiecare tip realizabil în timpii t1, t2 si respectiv, t3, prin acelasi rationament vom obtine:

ma=(T + T + T) / (T/t1 + T/t + T/t3)

iar formula mediei armonice pentru trei valori va fi:

În general, daca avem o serie de n valori, x1, x2, .. xn, media armonica este data de formula (2.2). Daca valorile pentru care se calculeaza media armonica sunt egale, media devine egala cu fiecare din ele si cu media aritmetica.

Media geometrica

Este o medie destul de rar folosita în medicina, mai ales datorita dificultatii de a o calcula cu precizie

Are formula:

Pâna la aparitia calculatoarelor electronice, calculul ei s-a facut dificil, deoarece este nevoie sa se manipuleze numere foarte mari si radicali de ordin superior.

Are proprietatile de baza ale unei medii adica:

Arata tendinta centrala a valorilor,

Este cuprinsa între valoarea minima din serie si valoarea maxima,

Daca valorile din serie sunt egale, media este egala cu fiecare din ele

Exemplu:

Cheltuielile unei sectii de spital sunt uneori exprimate prin procentul pe anul în curs, raportat la anul precedent. La fel se procedeaza uneori cu variatia incidentei sau a prevalentei unei maladii într-o populatie. De exemplu, daca pe 4 ani, procentele de crestere a incidentei fiecarui an fata de precedentul sunt 102,3% 103,2% 104,4% 103,4%, indicele mediu de crestere este calculat ca radicalul de indice 4 al produsului celor 4 valori. Deci,

mg4=102,3·103,2·104,4·103,4.=

Ca si celelalte medii, are acelasi dezavantaj ca este sensibila la adaugarea sau eliminarea a unor valori foarte mari sau foarte mici din serie. De exemplu, în sirul de mai jos, media primelor 11 valori ale seriei este 107,99 si adaugarea ultimelor doua conduce la o medie de 112,06

Tabelul 2.3. Procente anuale, raportate la anul precedent. Media geometrica a primelor 11 valori

ale seriei este 107,99 si adaugarea ultimelor doua conduce la o medie de 112,06

În cazul în care pe perioade diferite se înregistreaza ritmuri diferite, se poate folosi media geometrica ponderata. De exemplu, daca pe o perioada de 4 ani, s-a înregistrat acelasi ritm de crestere a incidentei unei afectiuni într-o populatie, anume 102,5%, fata de anul precedent, apoi pe o perioada de 3 ani, indicele a fost 101%, fata de anul precedent, indicele mediu cel mai util este calculat dupa formula:

în fiecare an, în medie, fata de anul precedent.

Media trimerizata

Se calculeaza îndepartând un anumit procent din cele mai mici valori si cele mai mari valori. De exemplu o medie 50% trimerizata se obtine îndepartând 25% din valorile cele mai mici si 25% din valorile cele mai mari. O medie trimerizata 20% se obtine îndepartând 10% din valorile cele mai mici si 10% din valorile cele mai mari.

Utile sunt mediile trimerizate cu procent mic, de exemplu 10% când avem suficient de multe date. O medie trimerizata 10% înseamna îndepartarea a 5% din valorile prea mari si 5% din valorile prea mici. Acest lucru poate fi util uneori la seriile foarte dispersate, când se banuie ca dispersia mare este datorata si unor erori mai grosolane de masurare.

Mediana este media trimerizata 100%

Media aritmetica este media trimerizata 0%.

Mediile trimerizate se folosesc mult la jocurile olimpice pentru a minimiza efectul scorurilor extreme posibil datorate aprecierii gresite.

De exemplu, daca într-un experiment repetat de 10 ori pe 10 solutii identice, obtinem concentratia unui compus la valorile:

23,3%, 23,9%, 24%, 22,8%, 23,4%, 23,9%, 23%, 23,2%,

Se poate face o medie trimerizata prin eliminarea celei mai mici si a celei mai mari valori gasite, media obtinuta fiind 23,43%. Prin eliminarea celei mai mici si celei mai mari valori, media celor 10 masuratori efectuate nu s-a modificat prea mult. Anume, media celor 10 masuratori obtinute din cele 10 experimente a fost 23,5%, deci diferenta fata de media trimerizata de 23,43% este doar de 0,07%.

Uneori însa, acest procedeu este util pentru ca înlatura eventualele valori eronate. Daca de exemplu, în seria de mai sus, în locul valorii de 24,8% era valoarea de 25,8%, atunci media pe cele 10 valori ar fi fost crescuta artificial la 23,6%, în timp ce media trimerizata ramîne aceeasi, caci oricum valoarea 25,8 se elimina ca si 24,8 pentru ca este cea mai mare valoare din serie.

2.2.3 Împrastiere

Abaterea medie. Aprecierea numai dupa medie este lacunara, adica destul de saraca în informatii, deoarece doua serii de valori cu aceeasi medie pot avea o distributie extrem de diferita a valorilor în jurul mediei. Într-adevar, asa cum am mai subliniat mai sus, valorile seriei pot fi foarte apropiate de medie, caz în care se spune despre serie ca este grupata, sau foarte departate de medie, adica seria este dispersata. Dar cum sa exprimam cantitativ diferenta dintre doua astfel de serii? Evident ca va trebui sa cautam o masura a abaterii fiecarei valori de la medie si sa spunem ca este mai dispersata seria la care aceste abateri sunt mai mari.

Situatia modului de asezare a datelor în jurul mediei, poate fi vizualizata, asa cum am mai spus cu ajutorul graficului punctual de dispersie ca cel prezentat în figurile 2.1, 2.2 si 2.3

Abaterea absoluta se calculeaza pentru fiecare individ din serie si este diferenta între valoarea individuala si media seriei. Neajunsul este ca se constata usor ca, daca adunam abaterile absolute între ele, obtinem 0. Într-adevar, daca seria x1, x2,..,xn, are media , atunci abaterile absolute sunt x1-, x2-, ., xn -, unele negative si altele pozitive, iar suma lor este

S= (x1-) + (x2-) +......+ (xn-) = (x1+x2+.....+xn) - n= n- n= 0

Tabelul 2.4. Abaterile de la medie a 20 de valori ale glicemiei

Nr

Glicemie

Abaterea

suma

suma

Media

Abaterea medie se obtine facând media aritmetica a acestor abateri absolute luate cu semnul plus, adica în modul. Aceasta este un indicator al împrastierii valorilor din serie dar nu este aproape deloc folosita în practica, pentru ca, asa cum se va vedea în capitolul despre teste statistice, un alt indicator al împrastierii, dispersia, este mult mai utila.

Formula pentru abaterea medie este:

Tabelul 2.5 Abaterile absolute de la medie a 20 de valori ale glicemiei

Nr

Glicemia

Abaterea

Dispersia Un alt mod de a ocoli faptul ca suma abaterilor absolute este 0, este ridicarea la patrat a acestora înainte de a fi adunate, pentru a face sa dispara semnele negative la unele si pozitive la altele. Suma obtinuta, ar trebui împartita la numarul de abateri pentru a se obtine o medie. În realitate, din motive teoretice foarte bine întemeiate, dar mai greu de explicat în cuvinte simple, împartirea se face la n-1 si nu la n. Motivul pentru care se face acest lucru va fi înteles mai bine în contextul unor notiuni enuntate în capitolul despre teoria estimatiei. Valoarea care se obtine astfel se numeste dispersie si este un indicator al gradului de împrastiere al seriei. Dispersia se noteaza cu D si are formula:

Dupa cum se observa, numaratorul fractiei din definitia dispersiei este cu atât mai mare cu cât abaterile individuale de la medie sunt mai mari si deci este natural sa consideram ca o valoare mare a dispersiei arata o împrastiere mare a valorilor din serie.

De fapt, este bine de retinut ca:

La medii aproximativ egale, este mai împrastiata seria cu dispersia mai mare.

La dispersii aproximativ egale, este mai împrastiata seria cu media mai mica.

Dispersia are dezavantajul ca se exprima cu unitatile de masura ale valorilor din serie, ridicate la patrat, si are în general valori foarte mari comparativ cu abaterea medie. De exemplu, daca valorile din serie se masoara în mg/l, atunci dispersia se masoara în mg2/l2, ceea ce este în mod evident extrem de nenatural. În plus, daca abaterile absolute au o medie, de exemplu în jurul lui 10, dispersia va avea o valoare în jurul lui 100, adica exagerat de mare în comparatie cu abaterile absolute (vezi pagina urmatoare pentru exemple). De aceea se mai foloseste un alt indicator, numit abatere standard care este radicalul dispersiei.

Abaterea standard. Se noteaza cu s si are formula:

sau

Acest indicator se exprima cu aceeasi unitate de masura ca si valorile din seria considerata si este un indicator foarte fidel al împrastierii seriei.

Exemplu de calcul:

Sa presupunem ca am masurat zilnic tensiunea arteriala sistolica la doi pacienti timp de 10 zile, obtinând pentru fiecare urmatoarele valori:

170, 180, 160, 180, 190, 190, 180, 190, 170, 190, pentru primul pacient si

160, 170, 190, 160, 190, 190, 200, 180, 180, 180, pentru al doilea.

Lasând la o parte studiul modului cum evolueaza de la zi la zi tensiunea pacientilor, care este bineînteles importanta, sa ne propunem sa determinam care are tensiunea cu valori mai împrastiate, indiferent de evolutia în timp.

Notând prima serie cu X iar pe a doua cu Y se constata usor ca ambele au media 180 (datele nu sunt reale, au fost deliberat alese ca sa simplifice calculele). Atunci, vom avea pentru abaterile de la medie si pentru patratele lor urmatoarele valori:

xi - : -10, 0, -20, 0, 10, 10, 0, 10, -10, 10. = 180.

yi - : -20, -10, 10, -20, 10, 10, 20, 0, 0, 0. = 180.

(xi - )2 : 100, 0, 400, 0, 100, 100, 0, 100, 100, 100.

(yi - )2 : 400, 100, 100, 400, 100, 100, 400, 0, 0, 0.

Deci vom avea pentru Dx:

si cu un calcul absolut analog, Dy = 1600 / 9 = 177,7. Se observa ca, în timp ce abaterile de la medie sunt de ordinul zecilor, dispersiile sunt de ordinul sutelor, ceea ce este destul de nenatural, si în plus, dupa cum am mai spus, unitatea de masura este cu totul alta.

Pentru abaterile standard, vom avea:

calculele fiind facute cu aproximatie. Deci, este mai împrastiata seria Y.

De fapt, este bine de retinut ca:

La medii aproximativ egale, este mai împrastiata seria cu deviatia standard mai mare.

La deviatii standard aproximativ egale, este mai împrastiata seria cu media mai mica.

Ce se întampla însa daca mediile si deviatiile sunt foarte diferite? Atunci o buna apreciere se obtine daca se foloseste raportul deviatiei standard fata de medie, exprimat în procente, acest raport fiind un alt indicator al împrastierii valorilor dintr-o serie. Acest indicator se numeste coeficient de variatie.

Coeficientul de variatie. Este raportul dintre deviatia standard si medie, atunci când media este diferita de 0 si se exprima în procente:

Pentru seriile de mai sus, coeficientul de variatie este mai mare pentru cea mai împrastiata, adica pentru cea cu deviatia standard mai mare:

C.V.x= 10,5 / 180 = 0,058 = 5,8 %.

C.V.y = 13,3 / 180 = 0,073 = 7,3%.

Totusi, seriile de mai sus sunt comparabile cu ajutorul abaterilor standard, deoarece au aceeasi medie, si, asa cum s-a vazut, la medii egale sau aproximativ egale, are valorile mai împrastiate seria cu abaterea standard mai mare.

Aprecierea cu ajutorul coeficientului de variatie se face mai ales atunci când doua serii de valori au medii mult diferite si deviatiile standard pot sa nu ne dea o indicatie suficient de utila. De exemplu, masurând latenta si amplitudinea semnalului electric pe nervul optic la 120 de pacienti cu scleroza multipla, s-au obtinut urmatoarele rezultate:

Latenta medie: 113,6

Abaterea standard a latentei: 14,7

Amplitudinea medie: 2,68

Abaterea stndard a amplitudinii: 2,03

Daca dorim sa apreciem împrastierea valorilor din cele doua serii, abaterile standard nu ne sunt de ajutor. Într-adevar, latenta are o abatere standard mult mai mare decât amplitudinea, dar si media latentei este cu mult mai mare decât aceea a amplitudinii. De aceea, în acest caz, doar coeficientul de variatie ne permite o apreciere corecta a împrastierilor, în vederea compararii lor:

Pentru latenta:

Pentru amplitudine:

Se observa ca valorile amplitudinii sunt cu mult mai împrastiate decât cele ale latentei. Acest fapt se datoreaza atât unei variabilitati biologice mai mari la amplitudine decât la latenta, cât si unei variabilitati datorate aparatelor de masura, care masoara latenta cu mai multa precizie, în timp ce la masurarea amplitudinii, erorile de masurare sunt mai mari.

Coeficientul de variatie este cel mai fidel indicator al împrastierii unei serii statistice, dar are si el un inconvenient, este cu atât mai fidel cu cât mediile sunt mai departate de 0.

La medii foarte apropiate de 0 îsi pierde din fidelitate si nu este indicat sa fie folosit. Acest lucru se întâmpla mai ales atunci când valorile din serie sunt si negative si pozitive, si când, din acest motiv, media poate fi aproape de 0.

Este mai ales cazul când se fac masuratori repetate ale aceleiasi marimi, cum ar fi cazul unui laborator care, pentru precizie, efectueaza o serie de masuratori repetate si face media. În acest caz, abaterile individuale nu sunt altceva decât erorile întâmplatoare pe care laborantul le face inerent la fiecare masuratoare. Este evident ca daca se încearca studiul erorilor si se scrie o serie de valori formata din aceste erori, media lor trebuie sa fie în jurul lui 0 si coeficientul de variatie nu mai are nici un sens.

Tabelul 2.6 Erorile în plus sau în minus a 12 masuratori într-un laborator.

Suma acestor erori este 0.

Nr

Masuratorile

Erorile

Media

În acest caz, media erorilor este 0, iar deviatia standard este 0,884. Deci nu putem face decât o apreciere a dispersiei erorilor pe baza deviatiei standard. Aceasta deoarece calculul coeficientului de variatie este imposibil pentru faptul ca media apare în formula la numitor si nu putem face o împartire la 0.

Tabelul 2.7. indicatorii minim, maxim, medie, deviatie standard si coeficient de variatie pentru câtiva parametri anatomici, biochmici si fiziologiciimportanti pentru organismul uman, calculati la un esantion de 100 de pacienti bolnavi de ciroza

Minim

Maxim

Media

Deviatia standard

C.V. %

Varsta

Talie

Greutatea

Diametrul lobului prehepatic

Diametrul lobului cardiohepatic

Albumina

Timpul de protrombina

Bilirubina totala

Bilirubina indirecta

Bilirubina directa

Fosfataza acida

LDH

Gamma GT

GPT

GOT

Gamma globuline

IgA

IgG

IgM

C3

Tensiunea sistolica

Tensiunea diastolica

Uree Serica

Creatinina

Clearence de creatinina

Sodiu seric

Sodiu urinar

Potasiu seric

Potasiu urinar

Clor seric

Calciu seric

Hemoglobina

Diureza apoasa

Observatie: deviatia standard este posibil sa fie mai mare decât media si ca atare se pot obtine coeficienti de variatie mai mari decât 100%. Depasirea procentului de 100%, la o anumita serie de valori, este un semn al faptului ca C.V. reflecta mai putin fidel împrastierea.

2.2.4 Indicatori de asimetrie

Atunci când valorile unei serii sunt distribuite nesimetric în jurul mediei, acest fapt este imposibil de surprins cu ajutorul indicatorilor de dispersie. De aceea, s-au introdus indicatori care sa puna în evidenta si acest aspect al seriilor de valori: excentricitatea, sau asimetria. Va trebui sa tinem cont atât de numarul de valori care sunt în stânga si în dreapta mediei, cât si departarea lor fata de medie.

Mediana.

Definitie:

Mediana este acea valoare dintr-o serie de valori, pentru care exact jumatate din ele sunt mai mici decât ea, iar jumatate mai mari.

Altfel spus, este valoarea masurata pentru individul din mijloc, daca indivizii pe care s-au facut masuratorile ar fi ordonati creascator. Pentru o întelegere mai usoara, sa luam un exemplu cu numai 10 înregistrari: tensiunea arteriala maxima la un bolnav în 10 zile:

.

Daca se asaza aceste valori într-un sir crescator, obtinem:

În acest caz, mediana se ia între a cincia si a sasea valoare din acest sir ordonat, adica 160. Daca aceste doua valori de mijloc difera, se ia media lor aritmetica. Daca numarul de masuratori este impar atunci madiana este chiar valoarea de mijloc, care în acest caz este unica.

De fapt, mediana este importanta în primul rând la serii de valori cu mai multe înregistrari, caz în care se poate lucra direct pe tabelul de frecventa, sau chiar pe tabelul pe clase.

Pentru a exemplifica modul cum se cauta mediana pe tabelul de frecventa, vom lua tabelul 2.1, în care sunt centralizate vârstele a 234 de pacienti, fiecare valoare a vârstei având o anumita frecventa absoluta Fi, o frecventa relativa fi si o frecventa relativa cumulata crescator, ficc (vezi subcapitolul 1.9, pentru amanunte).

Tabelul 2.1. Vârstele a 234 de pacienti centralizate într-un tabel de frecventa

Valoarea medianei se culege din coloana întâi, din dreptul frecventei cumulate de 50%. Se observa ca, frecventa de 47,9%, este prea mica, dei vârsta mediana nu este 54 ani. În acest caz, mediana se citeste din dreptul primei frecvente cumulate crescator care depaseste 50%, în cazul nostru, 55 ani. Deci, vârsta mediana este 55 ani.

Deci, vom spune ca jumatate dintre pacienti au vârstele cuprinse între 26 si 55 ani si jumatate au vârstele mai mari decât 55 ani. Aceasta alegere este permisa în cazul acesta al vârstelor care se înregistreaza cu valori întregi.

Pentru exemplificarea modului de lucru în tabele în care valorile au fost grupate pe clase, sa luam tabelul 2.2 si sa încercam sa determinam mediana.

Tabelul 2.2 Vârstele a 229 de pacienti, grupate

pe clase din 10 în 10 ani

Nr. Clasei

Interval

(ani)

Fi

Ficc

Deoarece în total sunt 229 de înregistrari ale vârstelor pentru cei 229 de pacienti valoarea din mijloc este a 115-a (114 vor avea vârste mai mici, iar ceilalti 114, mai mari, daca îi ordonam crescator). Din frecventele absolute cumulate crescator, se vede ca înregistrarea cu numarul 115 este în clasa a 4-a, între 50 - 59 de ani. Pentru un calcul aproximativ, trebuie aplicata regula de trei simpla si anume, daca înregistrarile ar fi ordonate crescator nu numai pe clase ci si în interiorul unei clase, atunci putem spune ca: ultima înregistrare din clasa 3 are 49 de ani si este a 70-a. În clasa a 4-a, prima înregistrare are 50 de ani si este a 71-a, iar ultima are 59 de ani si este a 166-a. Deci:

La 50 de ani corespunde înregistrarea 71.

La 59 de ani corespunde înregistrarea 166.

La ce vârsta va corespunde înregistrarea 115? Sa notam cu x aceasta vârsta necunoscuta, care este de fapt chiar mediana. Deci, de la locul 115 la 166, avem o crestere de vârsta de 59-x ani, iar de la locul 71 la 115, avem o crestere de x-50 ani. Cele doua cresteri de vârsta, sunt proportionale cu numarul de locuri:

Aceasta ecuatie simpla se rezolva scriind ca produsul mezilor este egal cu produsul extremilor, deci:

(166 -115) (x-50) = (115 - 71) (59-x)

sau

51 x - 2550 = 2596 - 44 x

sau

95 x = 5146

de unde se obtine

x= 5146 / 95 = 54 ani, aproximativ.

De obicei, valorile obtinute din astfel de calcule sunt cu zecimale, dar ele trebuie rotunjite pentru ca, oricum, calculele sunt aproximative, cresterea de vârsta nefiind aceeasi de la loc la loc, asa cum se presupune când se scriu rapoartele de proportionalitate.

În general, calculul medianei pentru o serie de valori cu N numere se face astfel: daca stim ca mediana se afla în clasa numarul k, daca acea clasa este definita de intervalul [a,b), iar frecventa cumulata crescator a acestei clase este Fk, si frecventa cumulata crescator a clasei precedente este Fk-1, suntem în situatia data de tabelul de mai jos:

Nr. Clasei

Interval

Fi

Ficc

ficc

Fk-1

fk-1 < 50%

[a , b )

Fk

fk > 50%

În acest caz, formula de calcul a medianei este:

Mediana este un indicator al tendintei centrale, ca si media, dar ofera mai putina informatie decât aceasta din urma. La distributiile echilibrate, la care valorile din serie se dispun aproximativ simetric în stânga si în dreapta mediei, media si mediana sunt foarte apropiate, deci folosirea medianei este superflua. Daca însa mediana este mult în stânga sau în dreapta mediei, distributia se zice ca este excentrica.

De exemplu, venitul median este mai informativ decât venitul mediu deoarece distributia veniturilor într-o populatie este foarte excentrica. Astfel, angajatii unei firme mici ar putea avea veniturile în euro date de tabelul de mai jos:

Media venitului este 842.3 euro, iar venitul median este 80 euro. Daca apreciem venitul unui angajat al firmei, este mai informativa mediana care ne spune ca jumatate din angajati au sub 80 euro sau chiar 80 si jumatate au 80 sau mai mult.

Mediana are proprietatea ca suma deviatiilor absolute de la mediana a valorilor din serie este mai mica dacât suma deviatiilor absolute de la orice alt numar. Mediana este mult mai putin sensibila la variatiile introduse în serie de aparitia câtorva valori extreme foarte mari sau foarte mici. Acesta este un avantaj dar si un dezavantaj si o face sa fie preferata mediei în cazul distributiilor asimetrice.

Cuartilele. De obicei, o distributie excentrica trebuie cunoscuta prin tendinta sa de a se apropia de axa orizontala mai brusc sau mai lent (vezi figura 2.4, unde cresterea înaltimii barelor se face brusc, iar scaderea mult mai lent). De un real folos în aceasta directie ne pot fi indicatorii numiti cuartile.

Definitie:

Cuartila Q1 este acea valoare dintr-o serie de valori, pentru care 25% din valorile seriei sunt sub Q1 si 75%, peste

Pentru tabelul de frecvente 2.1, cuartila Q1 se cauta în dreptul frecventei relative cumulate crescator de 25%. În tabel gasim procentul de 24,4% si în dreptul lui vârsta de 47 de ani. Cuartila Q1 poate fi luata cu aproximatie 47. Pe tabelul cu frecvente pe clase 2.2, un calcul analog cu cel de la mediana, dar nu pentru îndividul 155 ci pentru individul 58 (57*4=228, si sunt 229 înregistrari), da pentru Q1 valoarea 46,9 ani si trebuie luata prin rotunjire 47 ani.

Definitie:

Cuartila Q3 este acea valoare dintr-o serie de valori, pentru care 75% din valorile seriei sunt sub Q3 si 25%, peste

Pentru tabelul 2.1, cuartila Q3 se ia din dreptul frecventei relative cumulate crescator de 75%. Poate fi luata cu aproximatie, 60 ani. Pentru tabelul 2.2, Q3 este corespunzatoare individului 172 (57*4=228, sunt 229 înregistrati, iar 57*3= 171). Dupa calcule asemanatoare se gaseste Q3= 60,8 ani si se ia prin rotunjire 61 ani.

Pentru a sublinia utilitatea indicatorilor Q1 si Q3, sa consideram sirul vârstelor:

cel mai tânar pacient,

Q1,

mediana,

Q3,

cel mai în vârsta pacient.

Pentru tabelul 2.2, obtinem sirul: 26 ani, 47 ani, 54 ani, 61 ani, 69 ani.

Se observa ca sfertul (25%) pacientilor cei mai tineri este situat în zona 26 - 47 de ani adica într-o plaja de 21 de ani.

Sfertul urmator, este intre 47 si 54 de ani, adica pe un interval de doar 7 ani.

Al treilea sfert este situat între 54 si 61 de ani, adica tot pe 7 ani,

Cei mai în varsta 25 % din pacienti sunt între 61 si 69 de ani, pe un interval de 8 ani.

Sa mai observam ca mediana este într-un fel "cuartila de 50%", adica Q2. Se spune ca exista trei cuartile: Q1, mediana, Q3.

Decile Uneori, loturi mai mari de multe sute de indivizi trebuie urmarite foarte atent în ceea ce priveste modul cum sunt distribuite valorile si de aceea s-au introdus indicatorii decile, care sunt de o acuratete mai buna decât cuartilele. Sunt 9 decile, fiecare corespunzând unui procent de 10%, 20%, ... 90% din lot, asemanator cu cuartilele. Decila 5, sau de 50%, este de fapt mediana.

Minim

Cuartila Q1

Mediana

Cuartila Q3

Maximum

Nr

Valoarea

Decila

Modul cum arata decilele simetria sau asimetria valorilor dintr-o serie de valori, poate fi urmarita în figurile 2.5, 2.6, 2.8 si 2.9.

Se oserva în figura 2.6 ca dispunerea celor 9 decile este extrem de simetrica de la stânga la dreapta, ceea ce spune ca distributia valorilor din serie este foarte simetrica. În figura 2.9, dispunerea decilelor este foarte asimetrica, descriind bine asimetria valorilor din serie.

Centilele (percentilele) sunt mai rar folosite, în studii pe mii de cazuri, de obicei de un interes mai larg, national, international, în studii epidemiologice, si sunt corespunzatoare precentelor de 1%, 2%,...99% din lot. Centila de 25% este cuartila Q1, cea de 50% este mediana, iar cea de 75% este cuartila Q3. Centilele de 10%, 20%,..90%, sunt cele noua decile. Centilele dau o imagine destul de exacta a distributiei valorilor dintr-o serie de valori foarte mare. Nu are rost sa calculam centile pentru serii cu câteva sute de valori, pentru ca erorile sunt prea mari si imaginea obtinuta este deformata.

Valoarea

Centila

Valoarea

Centila

Valoarea

Centila

Valoarea

Centila

Se poate aprecia utilitatea centilelor în aprecierea simetriei sau asimetriei unei serii de valori urmarind figurile 2.5, 2.7, 2.8 si 2.10.

Se oserva în figura 2.7 ca dispunerea celor 99 de centile este extrem de simetrica de la stânga la dreapta, ceea ce spune ca distributia valorilor din serie este foarte simetrica. În figura 2.10, dispunerea centilelor este foarte asimetrica, descriind bine asimetria valorilor din serie.

Figura 2.5. O distributie simetrica cu media 12 si deviatia standard 2

Figura 2.6. Decilele distributiei simetrice din figura 2.5. Se observa ca si ele sunt simetrice si din ce în ce mai apropiate spre centru

Figura 2.7. Centilele distributiei simetrice din figura 2.5. Se observa ca si ele sunt relativ simetrice si din ce în ce mai apropiate spre centru. Abaterile de la simetrie sunt întâmplatoare

Figura 2.8. O distributie asimetrica cu media 5 si deviatia standard 2,25

Figura 2.9. Decilele distributiei asimetrice din figura 2.8. Se observa ca si ele sunt asimetrice si din ce în ce mai apropiate spre centru. Se observa ca, în acest caz, ele sunt o indicatie a asimetriei. Este evident ca cele 10% dintre valori situate între decila 9 si maxim (ultimul dreptunghi alb din dreapta) sunt mult mai rarefiate decât cele 10 la suta dintre minim si prima decila (primul dreptunghi alb din stânga)

Figura 2.10. Centilele distributiei asimetrice din figura 2.8. Se observa ca si ele sunt asimetrice si din ce în ce mai apropiate spre centru. Sunt o indicatie destul de fidela a asimetriei distributiei. Comparati cu figura 2.8 si observati ca centilele sunt mai dese acolo unde barele histogramei sunt mai înalte.

Trimedia. Trimedia se calculeaza ca medie între cuartila întâi (Q1), dublul medianei (2*Q2) si cuartila a treia (Q3). De exemplu, pentru distributia simetrica din figura 2.5 cele trei valori sunt:

Indicatorul

Valoarea

Q1

Mediana

Q3

Deci, vom obtine conform formulei, o trimedie data de:

adica trimedia este practic egala cu media si cu mediana, ceea ce este normal la o ditruibutie simetrica

Totusi, în cazul distrubutiei puternic asimetrice din figura 2.8 valorile mediei, cuartilelor, a medianei si a trimediei sunt:

Indicatorul

Valoarea

Media

Q1

Mediana

Q3

Trimedia

Se observa ca în acest caz, între medie, mediana si trimedie, diferentele sunt destul de importante. Deci, trimedia este un indicator al asimetriei. Cu cât este mai departata de medie, cu atât distributia valorilor din serie este mai asimetrica.

Trimedia este de obicei stabila fata de adaugarea sau eliminarea câtorva termeni extremi, în mod asemanator cu mediana. Are de asemeni avantajul ca în cazul distributiilor puternic asimetrice, fluctueaza mai putin decât media atunci când datele se schimba aleator. De asemenea, este cel putin la fel de rezistenta la valori extreme ca si mediana.

2.2.5 Alti indicatori statistici

Eroarea standard Este indicatorul care arata cât de precis aproximeaza media calculata din valorile unei serii, media populatiei din care a fost extras esantionul sau lotul pe care s-au facut masuratorile.

Are formula:

unde este deviatia standard calculata folosind valorile seriei, iar n este numarul de valori din serie.

Se observa ca este direct proportionala cu deviatia standard a valorilor din serie si deci, cu cât valorile din serie sunt mai dispersate, cu atât valoarea indicatorului Err va fi mai mare. Proportionalitatea este directa, adica o crestere a deviatiei standard, conduce la o crestere proportionala a lui Err.

Valoarea lui Err, este influentata dupa cum se vede din formula si de numarul de valori din serie, în sensul ca, este cu atât mai mica cu cât sunt mai multe valori în serie, daca deviatia standard nu se schimba. Err scade în functie de numarul de valori din serie, nu însa proportional.

De exemplu, daca n creste de 4 ori, Err scade de doua ori: doua serii de valori, X si Y, au aceeasi deviatie standard egala cu 2,3, iar numarul de valori în seria X este 25 iar cel al seriei Y este 100. Atunci erorile standard pentru cele doua serii sunt:

Deoarece este considerata a fi abaterea standard a mediei (calculata pe valorile masurate pe un lot), fata de media întregii populatii, i se mai spune uneori «abaterea standard a mediei de la medie», ceea ce este bineînteles un simplu joc de cuvinte si nu trebuie luat în serios atunci când este întâlnit.

Nr

Media

Deviatia

standard

Eroarea

standard

Nr

Media

Deviatia

standard

Eroarea

standard

Intervalul semi-intercuartilic Se calculeaza ca jumatate din diferenta cuartilelor Q3 (percentila 75, cuartila 3) si Q1 (percentila 25, cuartila 1), fiind deci o masura a împrastierii valorilor din serie. Are deci formula:

Deoarece între Q1 si Q3 se afla jumatate dintre valorile seriei, intervalul semi-intercuartilic are o lungime egala cu jumatate din lungimea care acopera jumatate din valorile seriei.

Parametrul

Media

Cuartila Q1

Mediana

Cuartila Q3

IQ

IQ/Medie %

C.V.

Varsta

Talie

Greutatea

Diametrul lobului prehepatic

Diametrul lobului cardiohepatic

Albumina

Timpul de protrombina

Bilirubina totala

Bilirubina indirecta

Bilirubina directa

Fosfataza acida

LDH

Gamma GT

GPT

GOT

Gamma globuline

IgA

IgG

IgM

C3

Tensiunea sistolica

Tensiunea diastolica

Uree Serica

Creatinina

Clearence de creatinina

Sodiu seric

Sodiu urinar

Potasiu seric

Potasiu urinar

Clor seric

Calciu seric

Hemoglobina

Diureza apoasa

La distributiile puternic asimetrice este un indicator bun al împrastierii si poate fi folosit în locul deviatiei standard care nu este prea utila în asemenea cazuri. În cazul distributiilor simetrice se prefera folosirea deviatiei standard pentru aprecierea împrastierii deoarece este mai putin sensibila la fluctuatii aleatoare.

Modul. Dintre frecventele absolute aparute într-un tabel de frecvente, una este maxima. Clasa sau valoarea corespunzatoare acestei frecvente maxime se numeste mod. Modul este de obicei un indicator al tendintei centrale. În tabelul 2.2. modul este clasa de la 50 la 59 de ani, cu frecventa absoluta 96. De obicei, frecventele absolute au tendinta de a creste catre mod, dupa care urmeaza o descrestere continua. Modul este deci o indicatie relativa la maximul frecventelor absolute. Sunt însa distributii la care se înregistreaza cresteri si descresteri astfel încât pot apare doua moduri sau chiar mai multe. Aceste distributii sunt mai rare si au un caracter cu totul special. Ele se numesc distributii bimodale sau multimodale,dupa caz.

Este un indicator care poarta în el putina informatie despre datele seriei. Modul este mult influentat de fluctuatii aleatoare si nu este prea recomandat pentru a aprecia tendinta centrala a valorilor dintr-o serie. Mai mult, unele distributii pot fi multimodale, caz în care modul nu mai indica prea mult despre tendinta centrala.

Excentricitate. (Engl. Skew, Skweness). Este un indicator al asimetriei si este luat de diversi autori cu diverse formule

O distributie este excentrica daca una din cozile sale este mai lunga decât cealalta. Prima distributie din figura 2.11 este cu excentricitate pozitiva. Adica are o coada mai lunga în directia pozitiva. A doua distributie este asimetrica cu asimetrie negativa, deoarece are o coada în directia negativa. În sfârsit, a treia distributie este simetrica si nu are cozi. Uneori se spune despre o distributie cu excenticitate pozitiva ca este asimetrica spre dreapta, iar despre o distributie cu excentricitate negativa ca este asimetrica spre stânga.

Figura 2.11 Distributii cu excentricitate pozitiva, negativa si distributie simetrica

Distributiile cu excentricitate pozitiva sunt mai des întâlnite decât cele cu excentricitate negativa. În medicina, parametrii fiziologici sunt în majoritate modificati în diverse afectiuni în sensul ca au valori peste normal. Astfel, tensiunea arteriala o vom întâlni la valori normale, crescute sau scazute. Cum indivizi cu valori foarte mari, vom întâlni cu atât mai rar cu cât valoarea este mai mare, distributia va avea o coada spre dreapta. La fel la multi alti parametric cum ar fi bilirubina, transaminazele, colesterolul, lipemia, etc.

Totusi, vom întâlni si parametri care se distribuie cu asimetrie stânga în patologii: hemoglobina, calcemia, sodiul ionic, etc. Hemoglobina, de exemplu, se poate distribui cu frecventa mai mare la valori relativ normale si cu frecvente din ce în ce mai mici pe masura ce coborâm la valori mai mici. Chiar daca avem o patologie de tip anemie, ne asteptam ca frecventa în jurul a 9-10 sa fie mai mare decât frecventa în jurul a 7-8, frecventa care ne asteptam sa fie foarte mica.

Tot distributie cu excentricitate negativa întâlnim în cazul când centralizam notele obtinute de o serie de studenti la un examen sau de un esantion de indivizi la un test psihologic. Majoritatea au rezultate spre maximum, considerate rezultate normale, dar o mica parte au rezultate mai slabe sau, unii chiar foarte slabe (vezi figura 2.12).

Figura 2.12 Distributia scorurilor obtinute la un test psihologic, la care punctajul maxim este 15. În dreapta, tabelul de frecventa asociat seriei de 28 de scoruri

Excentricitatea unei serii de valori x1, x2,...xn, se calculeaza cu formula:

Cu cât o distributie este mai simetrica cu atât sk tinde la 0. Ca o regula generala, la distributiile cu excentricitate pozitiva, media este mai mare decât mediana. Evident, media este mai mica decât mediana la distributiile cu excentricitate negativa. Exista cazuri rare în care regula de mai sus nu este valabila.

Sunt multe alte formule pentru alti coeficienti de excentricitate si când vorbim despre excentriciatte, trebuie sa mentionam la ce coeficient de excentricitate ne referim. Uneori se foloseste un coeficent de asimetrie care masoara diferenta dintre medie si mediana, eventual raportata la abaterea standard sau la intervale intercuartilice( Q3 - Q1). Indiferent ce formula se foloseste, o excentricitate egala cu zero, sau foarte apropiata de zero, este un indiciu al simetriei repartitiei valorilor din serie. Din contra, excentricitati mult diferite de 0, peste 0,15 -0,20, sau mai jos de -0,15 -0,20 sunt indicii ale asimetriei.

Boltirea Boltirea este un indicator care se bazeaza pe lungimea cozilor unei distributii. Cele cu cozi relativ mari se numesc leptocurtice iar cele cu cozi relativ mici se numesc platicurtice (vezi figura 2.13). Formula de calcul a boltirii este:

Asa cum se va vedea în capitolul despre repartitii, boltirea este un indicator util în aprecierea apropierii repartitiei de repartitia normala. Distributiile din figura 2.13 au aceeasi medie, aceeasi dispersie, aproximativ aceeasi excentricitate dar difera mult ca boltire.

Figura 2.13 Distibutie leptocurtica si distributie platicurtica.

2.3 Clasificarea indicatorilor

Indicatorii statistici poarta în ei, fiecare, o anumita cantitate de informatie, din seria de valori pentru care au fost calculati. Asa cum s-a vazut în paragraful precedent, unii indicatori ne dau informatii despre tendinta centrala a valorilor din serie, altii ne dau informatii despre împrastierea valorilor, altii ne dau indicatii despre simetria valorilor din serie, boltirea ne da indicatii despre lungimea cozilor distributiei, etc.

Informatia oferita de indicatorii statistici este redundanta, în sensul ca, de exemplu, împrastierea valorilor din serie este indicata si de dispersie si de abaterea standard si de amplitudinea absoluta si de coeficientul de variatie, etc. Totusi, fiecare din ei aduce o mica informatie specifica, deci, nu ne putem lipsi de unul sau altul dintre indicatorii statistici. Uneori trebuie folositi unii dintre indicatori, fiind cei mai eficienti, alteori trebuie folositi altii.

Pentru a avea o ideie despre modul cum trebuie folositi indicatorii statistici, ei sunt clasificati în câteva categorii mai importante, categorii care vor fi exemplificate mai jos, insistând pe aceia care sunt cei mai importanti, restul fiind indicatori mai rar folositi, numai în cazuri speciale.

Indicatori ai tendintei centrale. Cei mai importanti indicatori ai tendintei centrale sunt media, mediana si modul. Media indica tendinta centrala atunci când seria de valori este repartizata simetric în jurul ei si când valorile nu au o dispersie exagerat de mare. În cazul seriilor de valori distribuite foarte asimetric, tendinta centrala nu mai este indicata de catre medie, ci de catre mediana.

Modul, este un indicator al tendintei centrale, la seriile unimodale, adica atunci când în tabelul de frecvente exista un singur maxim. Daca avem o serie multimodala, modul îsi pierde calitatea de indicator al tendintei centrale.

Indicatori ai împrastierii. Folositi mai des în practica, si deci mai importanti, sunt dispersia, abaterea standard si coeficientul de variatie.

Abaterea standard este indicatorul folosit cel mai des pentru aprecierea împrastierii, dar atunci când mediile difera mult, este mai util coeficientul de variatie. Dispersia este folosita ca masura a împrastierii în testele statistice (vezi capitolul dedicat testelor statistice).

Indicatori ai asimetriei. Mediana, cuartilele si excentricitatea sunt cel mai mult folosite pentru aprecierea asimetriei valorilor dintr-o serie. De fapt, mediana se foloseste în combinatie cu media pentru aprecierea asimetriei. O mediana mult diferita de medie indica asimetrie puternica, iar o mediana foarte apropiata de medie indica o tendinta spre simetrie.

Cuartilele, se folosesc în combinatie cu mediana si indicatorii minim si maxim, pentru aprecierea simetriei. De exemplu, asa cum se vede în figura 2.14, indicatorii minim, Q1, mediana, Q3 si maxim, împart valorile seriei în patru sferturi, care ne arata cât de asimetric sunt repartizate.

Figura 2.14 Folosirea indicatorilor minim, Q1, mediana, Q3 si maxim pentru aprecierea simetriei valorilor din seria de valori.

Primul si ultimul sfert de pacienti se distribuie pe intervale aproximativ egale

Al doilea si al treilea sfert se distribuie pe intervale aproximativ egale

Concluzie: valorile se distribuie aproximativ simetric, cu o usoara asimetrie spre stânga.

Indicatorii statistici fundamentali. Sunt indicatorii care poarta în ei cea mai mare cantitate de informatie din informatia continuta de seria de valori.

La seriile de valori distribuite relativ simetric, indicatorii statistici fundamentali sunt media si deviatia standard. În capitolul dedicat repartitiilor, se va vedea ca, daca o serie de valori are o repartitie normala si are suficient de multe valori, cei doi indicatori, poarta în ei aproape toata informatia. Astfel, daca o serie de valori de acest tip are media si deviatia standard , scrierea încetatenita este

La seriile distribuite asimetric, sunt mai utile mediana si cuartilele si acesti indicatori pot fi considerati fundamentali pentru aceste serii. În acest caz, este încetatenita scrierea medianei M si a cuartilelor Q1 si Q3 în forma M [Q1; Q3]. De exemplu, daca o serie puternic asimetrica are mediana 2,45, iar cuartilele sunt Q1=1,54 si Q3=5,23, acest fapt se precizeaza astfel: 2,45 [1,54; 5,23].


Document Info


Accesari: 22147
Apreciat: hand-up

Comenteaza documentul:

Nu esti inregistrat
Trebuie sa fii utilizator inregistrat pentru a putea comenta


Creaza cont nou

A fost util?

Daca documentul a fost util si crezi ca merita
sa adaugi un link catre el la tine in site


in pagina web a site-ului tau.




eCoduri.com - coduri postale, contabile, CAEN sau bancare

Politica de confidentialitate | Termenii si conditii de utilizare




Copyright © Contact (SCRIGROUP Int. 2024 )