Notiunea de statistica - biostatistica

Matematica

ALTE DOCUMENTE

PLAN DE INTERVENŢIE PERSONALIZAT MATEMATICA

Var 99 S I 1,4,5,6

Cercul

TEST matematica

Formule fundamentale trigonometrice

Calculul coordonatelor prin intersectia înainte

Blaise Pascal

Reciproca teoremei lui Stolz-Cessaro

TEST DE EVALUARE - matematica

Serii de valori si indicatori statistici

Notiuni generale

1.1 Ce este biostatistica ?

Cei mai multi dintre noi au nevoie de definitii ale obiectului despre care se discuta. De aceea, vom da în acest prim paragraf o definitie a statisticii si, bazat pe aceasta, o definitie a biostatisticii. Din pacate, trebuie spus de la început ca în privinta statisticii, oamenii de stiinta nu au reusit sa ajunga la un consens în ceea ce priveste o definitie unanim acceptata. De aceea, vom începe cu câteva observatii descriptive, din care se va desprinde una din definitiile cele mai acceptate ale acestei stiinte.

Multi oameni au o parere gresita, (pe care trebuie sa si-o schimbe), ca statistica este o stiinta care se ocupa cu numaratul, calculul procentelor, gruparea pe clase, tabele si alte lucruri asemanatoare. Definitiile, deci, sunt necesare, cel putin pentru a contura în mare, obiectul stiintei statisticii. Cum însa în general, definitiile, prin laconismul lor, spun mai putin, se poate ca multi sa înteleaga ce este statistica abia dupa ce au câteva contacte practice cu aceasta disciplina, din definitii teoretice neîntelegând prea mult.

Statistica este asociata cu un anumit tip de prelucrare a informatiilor din lumea înconjuratoare si anume acel tip de prelucrare care clasifica, centralizeaza informatiile în tabele, si grafice, grupeaza informatiile, descopera legaturi între ele, descopera eventuale cauzalitati, analizeaza fenomene complexe. În plus, statistica face si generalizari ale unor ipoteze descoperite de obicei empiric. Chiar daca nu avem o idee precisa, cu totii gândim despre aceasta stiinta ca nu opereaza cu informatii referitoare la un pacient sau o planta sau un obiect sau la un numar foarte restrâns de astfel de entitati. stim ca statistica este stiinta care prelucreaza informatii care se refera la un numar mare de entitati cum ar fi pacienti sau indivizi sanatosi sau sau plante sau obiecte de alta natura. 959m1218j

Fenomenele macroeconomice, care cer manipularea si interpretarea unei cantitati uriase de date sunt deseori explicate prin estimari de natura statistica. Aprecierea evolutiei unui fenomen macroeconomic sau social în timp si estimarea modului lui de evolutie în viitor se face cu ajutorul statisticii. De exemplu, estimarea tendintei economiei unei tari pe anul urmator sau pe o perioada mai lunga se face prin metode statistice tinând cont de datele anterioare. Estimarea consumului anumitor tipuri de alimente, estimarea modului de evolutie a popularitatii diferitelor personalitati, partide, se realizeaza de asemeni prin sondaje statistice complexe, elaborate.

Utilitatea statisticii este pusa mai bine în evidenta atunci când trebuie studiate fenomene complexe în care intervin factori sau marimi care se afla în relatii complexe ce nu pot fi descrise satisfacator prin ecuatii sau formule, sau prin relatii cantitative de dependenta. De exemplu, în tehnica, daca suntem la un moment dat interesati de consumul de carburant al unui motor, exista în mod sigur o determinare destul de exacta a acestuia în functie de puterea motorului, tipul sau, viteza de deplasare, si alti câtiva parametri. Cunoscând parametrii de care depinde consumul, aplicam o formula si obtinem consumul de carburant al acelui motor. Ceea ce obtinem este valabil pentru orice motor de acelasi tip si care functioneaza în aceleasi conditii.

Daca însa am dori, în mod utopic, sa calculam numarul de leucocite pe care ar trebui sa la aiba pacientii care sufera de o anumita afectiune având datele generale despre acea afectiune si folosind cunostintele de fiziologie, biochimie, biofizica, etc, nu vom avea nici un succes. Variabilele care ar trebui sa intre în calcul sunt atât de multe si atât de complex depind unele de altele încât orice încercare de cuprindere în formule matematice este sortita esecului. În asemenea cazuri, numai abordarea statistica este posibila. Se poate doar, eventual afirma, ca exista o tendinta (semnificativa din puncte de vedere statistic), ca numarul de leucocite sa depinda într-o anumita masura de unul sau mai multi factori, si se pot chiar cuantifica aceste legaturi de dependenta. De aceste probleme se ocupa unul din capitolele importante ale statisticii, capitol tratat si în aceasta carte, anume teoria corelatiei (vezi capitolul 9).

De fapt, biologia si medicina lucreaza cu concepte, fapte, notiuni, dintre care doar o mica parte se preteaza la o interpretare determinista, exacta. Chiar daca avem impresia ca majoritatea afirmatiilor de baza din medicina sunt suficient de clare, lamurite si întelese, prea putin ne dam seama ca, de fapt, majoritatea lor sunt numai de natura statistica si ca trebuie bine nteles interpretate ca atare. Desigur, a spune ca omul are doua emisfere cerebrale sau ca ciclul cardiac are o sistola si o diastola, sunt afirmatii care nu au legatura directa cu statistica. Dar toate determinarile cantitative, unele calitative, toate masuratorile referitoare la parametri fiziologici, biochimici, biofizici etc., au înteles deplin numai în context statistic.

În medicina si stiintele vietii, afirmatiile despre mase de oameni cum ar fi populatia unei tari sau regiuni geografice sunt deseori de natura statistica. Daca exista centralizate situatii suficient de clare ale incidentei unei anumite maladii se poate face o apreciere exacta a acestei incidente. De exemplu, afectiunile maligne sunt supravegheate destul de strict în toate tarile civilizate si exista date centralizate destul de exacte asupra incidentei. Totusi, chiar si în tarile dezvoltate, dar mai ales în tarile sarace, datele sunt lacunare, în ceea ce priveste incidenta reala, adica tinând cont si de cazurile care nu sunt luate în evidenta de medici si urmarite în evolutie. În aceste cazuri, se poate face o estimare a incidentei unor maladii prin metode statistice. Se alege un esantion reprezentativ, acesta este cercetat în totalitate si pe baza rezultatului obtinut se face estimarea la nivelul întregii populatii. Tot asa se fac în ultimul timp din ce în ce mai mult studii de piata, studii în ce priveste intentiile de vot, estimari ale dorintelor unei populatii, etc. De problemele de acest tip, se ocupa un alt capitol al statisticii, acela al inferentei bazate pe sondaje.

Atunci când vorbim de prelucrarea statistica a informatiilor, folosim expresia "prelucrare a datelor". Informatiile referitoare la un pacient sau la un individ normal sau la orice alt obiect le numim Date. Numele, prenumele, vârsta, sexul, afectiunea si celelalte informatii despre un anume pacient, marimea, greutatea unui obiect, productivitatea unei plante, etc, le numim date despre acel pacient, acel obiect sau acea planta. Informatiile referitoare la mai multi pacienti sau indivizi sanatosi, sau animale de experienta, sau plante, sau alte obiecte pe care le studiem, le vom numi tot date. Când ne referim la prelucrarea informatiilor, ca scop important al statisticii, vom spune prelucrarea datelor. Când vorbim despre înregistrarea pe calculator a acestor informatii vom spune înregistrarea datelor.

Astfel, statistica are ca unul din scopuri, înregistrarea si prelucrarea datelor. Totusi, nu orice tip de înregistrare de date si orice prelucrare, tin de obiectul statisticii. Înregistrarea evenimentelor cosmice în astronomie, înregistrarea facturilor în contabilitatea unei firme, înregistrarea pozitiei unui mobil în fizica, si alte înregistrari asemanatoare, nu sunt legate de statistica si nu obliga la prelucraari de natura statistica.

Cuvântul statistica este folosit în limbajul uzual în sensuri diferite:

În sensul cel mai larg, statistici, se refera la un evantai de procedee pentru analiza, interpretarea, reprezentarea datelor si luarea deciziilor pe baza faptelor pe care le culegem din realitate. Sensul acesta al cuvântului este acoperit de cursurile de statistica.

Al doilea sens este acela de statistica definita ca o cantitate numerica calculata pe baza datelor culese din realitate. Asa cum se va vedea în capitolele ce urmeaza, statisticile aproximeaza caracteristici ale unor populatiilor, cum ar fi media pe întreaga populatie, pe care nu o cunoastem si care trebuie aproximata pe baza datelor din realitate, pe care le avem la dispozitie la un moment dat. Datele se culeg de obicei prin studiul unei parti a populatiei, care se numeste esantion sau lot. De exemplu, media calculata luând în considerare doar indivizii dintr-un lot, se numeste statistica.

Uneori, termenul de statistica se refera la cantitati calculate nu neaparat relativ la un esantion. De exemplu, exista o statistica a performantelor unui sportiv anume, o statistica a actelor oficiale publicate de o editura, etc.

Definitie:

Statistica este stiinta care se ocupa cu descrierea si analiza numerica a fenomenelor de masa, dezvaluind particularitatile lor de volum, structura, dinamica, conexiune, precum si regularitatile sau legile care le guverneaza.

Volumul unui fenomen de masa se refera la amploarea lui numerica, la numarul de indivizi cuprinsi sau afectati de fenomenul repectiv. Astfel, o afectiune foarte raspîndita ca HTA (Hipertensiunea Arteriala Esentiala), este un fenomen de un volum mai mare ca o afectiune rara cum ar fi Sindromul Down.

Prin structura a unui fenomen de masa, întelegem modul în care acesta afecteaza diferite categorii de indivizi, cum ar fi în cazul studierii unei afectiuni raspîndite, structura afectarii pe sexe, rase, religii, grupe de vârsta, ocupatie, zone geografice, etc. De asemeni, structura reflecta relatiile de legatura între marimile prin care descriem fenomenul. De exemplu, în cazul studierii legaturii între starea sociala si intentiile de vot, structura presupune si descrierea diferitelor categorii de indivizi pe sexe, rase, stari sociale, ocupatie, etc, cât si legaturile între acestea si intentia de vot, exprimata numeric, în procente, etc.

Prin dinamica a unui fenomen de masa, întelegem modul cum evolueaza acesta în timp. Conexiunea fenomenelor este indicata de relatiile de legatura si, eventual, de relatiile de dependenta între ele. De exemplu, fenomene economice pot influenta evolutia incidentei unor afectiuni în cadrul unei populatii. Anumite tendinte de evolutie a incidentei unei maladii, sau de modificare a valorilor normale la pacientii cu o anumita afectiune, pot capata caracter de regularitate. Statistica este cea care pune în evidenta aceste regularitati sau legi, care sunt valabile numai la modul general, ca tendinta, nu neaparat la fiecare individ în parte. De exemplu, daca stim ca o anumita fractiune leucocitara este crescuta în alergii, nu înseamna neaparat ca fiecare alergic are acea fractiune leucocitara crescuta, ci ca exista numai o tendinta în acest sens.

Definitiile, ca cea de mai sus, sunt de natura sa ne dea o ideie abstracta despre subiectul definit si este extrem de util ca domeniul de interes sau de aplicare al statisticii sa fie mai degraba exemplificat, pentru a crea o imagine concreta. De aceea, în aceasta carte, notiunile introduse sunt mereu exemplificate pentru a crea cititorului o imagine cât mai clara, mai concreta, a notiunii respective.

Se stie ca metodele statisticii au o aplicabilitate larga, începând cu ramuri ale economiei, stiintelor biologice, în viata sociala, ca sa nu mai vorbim de stiintele tehnice, astronomie, fizica atomica, etc. Cartea de fata va pune în mod normal accent pe aplicatiile în medicina si stiintele vietii, ca reprezentând obiectul biostatisticii.

Definitie:

Biostatistica este stiinta care se ocupa cu aplicarea metodelor statisticii în stiintele vietii.

Astfel, toate capitolele importante ale statisticii ca: statistica descriptiva, teoria sondajelor, teoria estimatiei, teoria corelatiei, regresiile, analiza componentelor principale, capitole care vor fi studiate si în acesata carte, au aplicabilitate si în stiintele vietii ca: medicina, biologia, psihologia, sau discipline mai înguste ca biochimia, biofizica, stomatologia, fizioterapia, farmacologia, etc. Metodele cu aplicabilitate în stiintele vietii au fost impulsionate în dezvoltarea lor chiar de domeniul lor de aplicare. Astfel, capitolul statisticii care se ocupa cu studiul si estimarea supravietuirii, are o aplicabilitate larga în medicina si biologie si dezvoltarea lui a fost influentata pozitiv de acest fapt Aceasta deoarece ca medicina a avut mereu nevoie de metode mai perfectionate, pe care statistica a fost nevoita sa i le puna la dispozitie.

În multe situatii, apar confuzii între doua cuvinte care exprima discipline diferite, si anume între biostatistica si statistica medicala. Aceasta din urma, este un capitol al primeia, si anume:

Definitie:

Statistica medicala este stiinta care se ocupa cu aplicarea metodelor statisticii în medicina.

În aceasta carte va fi vorba în principal de statistica medicala. Totusi, titlul cartii este "Introducere în biostatistica" si de-a lungul cartii este folosit termenul de biostatistica, în traditia existenta nu numai în literatura româneasca ci si în cea occidentala. Dintre aplicatiile biostatisticii sunt tratate acelea care se refera în primul rând la medicina, fiind ocolite cele cu aplicabilitate numai în alte stiinte biologice, cum ar fi cele cu aplicabilitate numai în agricultura sau în alte stiinte.

1.2 De ce este necesara statistica?

Se poate naste întrebarea daca nu ne putem dispensa de metodele statistice. Adica daca nu ne putem dispensa de urmarirea cât mai exacta a dinamicii populatiei, afectiunilor, simptomelor si chiar a indivizilor, având în vedere posibilitatile oferite de mijloacele moderne de înregistrare a datelor si de posibilitatile imense de prelucrare aproape instantanee a acestora. Un raspuns partial ar fi ca niciodata nu putem avea situatii exacte deoarece dinamica sociala implica si o evolutie rapida a starii de sanatate a populatiei, a diferitelor afectiuni, si tot ce este valabil azi nu mai e valabil mâine.

În plus, urmarirea efectului unor factori nocivi (poluare, substante toxice, alimentatie deficitara, etc) sau benefici (medicamente, viata ordonata, alimentatie sanatoasa, etc), se face des prin studii speciale cum ar fi trialurile clinice în care statistica ocupa un rol central si fara statistica, aceste studii nici nu ar avea sens.

Singurele situatii centralizatoare pe care ne putem baza sunt cele statistice, care ne ofera doar aproximari ale realitatii, dar sunt mai usor de realizat prin studiul unor esantioane reprezentative. Statistica ofera si posibilitati de comparare a diferitilor parametri ai organismului uman, care se modifica în patologie si care sunt atât de multi încât este imposibil sa se afirme ca au fost studiati toti si ca se stie totul despre ei. Mereu apar noi studii statistice care demonstreaza ca organismul uman reactioneaza într-un fel sau altul la diferite substante noi, ca organismul uman, normal sau patologic este supus la noi factori de mediu care se schimba mereu si care îl fac sa reactioneze mereu altfel. Apar noi afectiuni despre care nu se stie nimic si care pot fi studiate ca impact social si asupra starii de sanatate, prin metode statistice.

În plus, statistica ne informeaza stiintific, daca de la o stare la alta, sau sub influenta unui medicament sau agent patogen etc, modificarile unuia, sau a unor parametri importanti sunt aleatorii (întâmplatoare, nedependente de factorul pe care îl banuim ca le-a produs), sau sunt reale, sigur dependente de acesta. Acest lucru se realizeaza prin testele de semnificatie, care garanteaza printr-o valoare cifrica precisa existenta unor modificari. Valoarea cifrica furnizata de un test, indica si cât de mare este siguranta ca exista modificari reale si nu aleatorii. Tot astfel, ea poate determina corelatia (interdependenta) dintre doi sau mai multi factori (simptome, de exemplu) prin coeficienti de corelatie, prin ecuatii si drepte de regresie, etc. Toate aceste metode statistice sunt deschideri noi, moderne, foarte importante atât pentru medicina fundamentala, preclinica, cât si pentru medicina practica curenta.

De asemenea, tot pe baza statisticii elaborate, si numai asa, în urma determinarii pe foarte multi subiecti (milioane uneori), se afirma în tratatele de medicina între ce limite este valoarea normala (tensiunea arteriala, frecventa respiratorie sau cardiaca, glicemia, lipemia, temperatura, forma si greutatea unui organ, înaltimea la o anumita vârsta a copilului, hidratarea, presiunea osmotica, debite, viteze, forte musculare, formula leuccitara, etc). Valoarea normala o putem afla numai dupa determinari facute la populatia din tara sau zona geografica respectiva pe loturi de mii, zeci de mii de indivizi normali.

Statistica ne ofera mijlocul de a privi mai exact lumea. Sa luam de exemplu parametrul pH sanguin care este o marime cuprinsa normal între 7,38 si 7,42, sau, cum se mai scrie uneori nu prea corect 7,40,02. Ce înteles exact se ascunde în spatele acestor numere? Nu este, bineînteles vorba de faptul ca toti oamenii au pH-ul sanguin cuprins între aceste limite, întrucât exista unii oameni care au 7,37 sau 7,43 fara a se putea spune despre ei ca sunt sigur în afara normalului. Afirmatia trebuie înteleasa în sensul ca valorile masurate "la majoritatea indivizilor normali" sunt cuprinse între limitele respective. Dar care majoritate? Cuvântul "majoritate" are un înteles prea ambiguu pentru a pretinde ca ne exprimam suficient de clar. În plus, unele surse dau pentru acelasi parametru valoarea 7,36-7,44 ceea ce este în aparenta contradictie cu intervalul dat mai sus. Având însa în vedere ambiguitatea exprimarii, am putea spune ca ambele intervale sunt pe undeva corecte, însa ceva trebuie sa fie incorect, probabil la amândoua.

Statistica ofera posibilitatea unui limbaj riguros în cazuri ca cel de mai sus. Anume, intevalul între 7,38 si 7,42, este asa-numitul interval de normalitate, sau intervalul în care se gasesc majoritatea persoanelor normale, sanatoase. Se va vedea în capitolele urmatoare mult mai clar, ce sunt aceste intervale si care este utilitatea lor. Majoritatea care este luata în considerare în medicina când este vorba de intervale de normalitate este de 95%. Deci, corect este sa se spuna ca 95% din indivizii sanatosi au pH-ul sanguin între 7,38 si 7,42. În ceea ce priveste limitele de la 7,36 la 7,44, acest interval este asa-numitul interval de normalitate de 99%, adica intervalul în care sunt cuprinsi 99% din indivizii sanatosi.

Medicina moderna este de neconceput fara cercetarea medicala, iar un segment din ce în ce mai consistent al acestei cercetari are la baza statistica. Nu se mai poate face cercetare de laborator sau clinica, iar rezultatele sa fie raportate doar prin comparari puerile între numarul de cazuri sau procente sau medii. Fara asigurarea statistica, nici o cercetare nu are valoare. Acele simple comparari între valorile mediilor pot duce la concluzii total gresite. Nici o revista stiintifica medicala serioasa, de 30-40 de ani nu mai publica rezultate neprelucrate statistic, diferente de medii între loturi, fara deviatii standard si teste de semnificatie (cel putin).

De exemplu, este posibil, ca diferente care par ochiului foarte importante sa nu se dovedeasca semnificative din punct de vedere statistic, în timp ce diferente aparent minore, sa ascunda semnificatii statistice importante. Se va vedea în capitolul despre teste statistice (capitolul 8), ca nu numai diferentele între medii sunt importante ci si dispersarea valorilor luate în calcul. O modificare a creatininei de la o medie de 80 la o medie de 70, poate sa nu fie semnificativa statistic daca valorile luate în calcul au o dispersie mare. Dar o modificare de la o medie de 80 la o medie de 75, poate sa fie semnificativa statistic, daca valorile sunt mai putin dispersate. Asadar, simpla comparare a mediilor, fara a tine seama de dispersii, este lipsita de valoare stiintifica.

1.3 Scurt istoric

Notiunea de statistica a suferit de-a lungul timpului modificari importante. Desi termenul în sine este adoptat abia din secolul al 18-lea, practici statistice sunt atestate din cele mai vechi timpuri. Initial, statisticile au fost egale cu recensamintele. Mai întâi numaratori ale populatiei, care sunt atestate înca din Egiptul antic din vremea regatului vechi, adica în mileniul III înainte de Christos, când recensamintele se faceau odata la doi ani. Chinezii au facut si ei recensaminte ale populatiei si pamânturilor tot din mileniul III înainte de Christos. Recensamintele sunt cunoscute mai mult la vechile imperii, desi ele erau cunoscute si polisurilor grecesti.

Imperiul Roman, este recunoscut printr-o organizare foarte bine pusa la punct si foarte eficienta. Censul, instituit dupa traditie, de Servius Tulius, rege din secolul VI înainte de Christos, cerea fiecarui cetatean sa îsi declare numele, prenumele, vârsta, numarul de sclavi si toate celelalte bunuri. Mai târziu, când Roma din regat, a devenit un mare imperiu, anchetele si recensamintele au devenit operatii vaste si complicate de care se ocupau uneori însisi împaratii, asa cum a facut-o Octavian Augustus (primul împarat roman) care a redactat cu mâna lui rezultatul unuia dintre recensaminte.

Acest fel de înregistrare a informatiilor a fost facut si în evul mediu si mai târziu, pâna în epoca moderna, dar mult timp nu au avut decât un caracter empiric si a izvorît din necesitati pur practice si anume din nevoia statului de a centraliza datele despre resursele umane si materiale de care dispune.

Acceptiunea statisticii ca descriere a statului, se accentueaza în timpul renasterii când republicile italiene detin date nu numai despre propriul stat ci si despre partenerii comerciali. Descrierea statului devine în secolele 17 si 18 disciplina universitara în Germania, unde activeaza asa-numita scoala descriptiva germana, care încet, încet, capata un sistem de norme teoretice si practice. Ea este denumita initial Staatskunde, iar ulterior capata numele de Statistik.

În a doua jumatate a secolului al 18-lea, statistica se diferentiaza din ce în ce mai accentuat de Geografie, punând accentul pe exprimarea numerica a informatiei si pe eliminarea treptata a aspectului descriptiv.

Înca din secolul al 17-lea, apar în Anglia o serie de gânditori care, plecând de la simple tabele de mortalitate (mugurii demografiei ulterioare), încearca sa faca comparatii si sa descopere anumite legitati, sa analizeze datele prin procedee matematice si chiar sa formuleze rudimente de previziuni. Era vorba de curentul denumit aritmetica politica.

În secolele al 18-lea si al 19-lea, curentul predominant este cel al aritmeticii politice, care folosea mai mult procedeele matematice, în detrimentul statisticii ca descriere a statului, care folosea mai mult descrierea verbala. Totusi, denumirea care s-a consacrat a fost tot aceea de statistica si nu de aritmetica politica.

Un aport deosebit la fundamentarea statisticii din punct de vedere stiintific l-a avut teoria probabilitatilor. Nascuta ca o teorie a jocurilor de noroc, aceasta si-a dovedit curând utilitatea în descrierea fenomenelor aleatoare în general si în descrierea fenomenelor statistice în special. Matematicieni celebri precum Bernoulli (1654 - 1705), Pierre-Simon Laplace (1749 - 1827) sau Karl Frederich Gauss (1775 - 1855), au fundamentat prin lucrarile lor în acelasi timp si teoria probabilitatilor si statistica.

Catre sfârsitul secolului al 19-lea poate fi plasata nasterea statisticii moderne, care deplaseaza accentul de pe desciptivism pe interpretarea analitica (analiza componentelor si cauzelor care concura la evolutia unui fenomen de masa) si spre generarea de concluzii inductive (deducerea de concluzii general valabile din observatiile empirice). Astfel, apar lucrari ale unor personalitati, nu neaparat matematicieni, care au impulsionat dezvoltarea statisticii. Printre ei, biologul si antropologul Francis Galton (1822 - 1911), antropologul, psihologul si filozoful Karl Pearson (1857 - 1936), matematicianul si biologul Ronald Aylmer Fisher (1890 - 1962). Galton a pus bazele biometriei, care este o disciplina ce se ocupa cu studiul masuratorilor în biologie, Pearson a adus numeroare contributii la teoria corelatiei iar Fisher a dezvoltat un larg evantai de metode statistice cu aplicabilitate în special în agricultura.

Ulterior, în secolul 20, Neyman si Egon S. Pearson (fiul lui Karl Pearson), au dezvoltat teoria estimatiilor prin introducerea riscurilor de ordinul întâi si al doilea si al puterii unui test statistic (vezi capitolul despre teste statistice din aceasta carte). Au urmat apoi o serie de statisticieni care au întarit rolul statisticii ca stiinta, printre celelate stiinte si au largit aria de aplicabilitate a acesteia practic, la toate domeniile principale ale vietii economice si sociale. Printre ei, W. Gosset, Abraham Wald, Georg Udny Yule, A. N. Kolmogorov. Printre matematicienii români care au adus contributii importante în statistica se numara Octav Onicescu, I. Cuculescu, Gh. Marinescu, etc.

Azi, statistica este foarte bine fundamentata stiintific si se dezvolta permanent. Cu toate ca au fost descoperite de-a lungul timpului foarte multe metode utile, care acopera necesitati din cele mai diverse, firea iscoditoare a omului si necesitatile practice fac ca si statistica, în paralel cu celelalte stiinte sa se dezvolte continuu.

1.4. Populatii statistice, indivizi statistici

Introducem câteva notiuni specifice cu care opereaza statistica si cu care vom lucra în capitolele ce urmeaza. Fiind o stinta care nu lucreaza cu fenomene strict deterministe, toate afirmatiile statisticii se refera nu la evenimente sau obiecte singulare ci sunt deduse prin observarea unei multimi cât mai cuprinzatoare de obiecte sau fenomene. Desigur, nu se pot face generalizari pripite din studierea unui caz sau a câtorva cazuri si este destul de clar pentru oricine ca o generalizare este cu atât mai valoroasa cu cât au fost observate un numar mai mare de cazuri. Aici însa apare problema de a face o apreciere corecta a numarului de observatii efectiv realizate, raportat la numarul posibil de observatii.

Daca ne propunem sa facem un studiu asupra unei afectiuni foarte raspândite, cum ar fi hipertensiunea arteriala esentiala (HTA), concluzii valabile nu se pot trage decât pe baza unui numar de cazuri de cel putin câteva mii sau zeci de mii, dar în cazul unei maladii rare cum sunt unele din anomaliile cromozomiale de exemplu, un astfel de numar de cazuri pur si simplu nu poate fi gasit în aria de cercetare considerata, uneori nici pe întregul glob. Oricum, în general vorbind, este bine ca, în limita posibilitatilor, studiul sa se faca pe un numar cât mai mare de indivizi.

Pentru prelucrarea datelor despre pacienti, prin metode statistice, este necesara clarificarea câtorva principii fara de care este posibil ca munca de introducere a datelor precum si efortul de prelucrare sa fie irosite în zadar, fie pentru ca odata introduse datele sa constatam ca nu avem la îndemâna notiunile de baza cu ajutorul carora sa ne ghidam în hatisul de metode, fie pur si simplu sa constatam ca nu am introdus corect datele si deci o reprelucrare sau, mai rau, o reintroducere a datelor sa fie necesara.

Cea mai generala notiune pe care trebuie sa o discutam este cea care se refera la totalitatea cazurilor, elementelor, obiectelor care au în comun trasatura sau proprietatea studiata de noi.

Definitie:

Vom numi populatie statistica o multime de elemente care au una sau mai multe însusiri comune si care fac obiectul unei cercetari statistice.

De obicei, prin populatie statistica, în mod empiric, întelegem o multime de persoane umane:

persoanele din judetul Dolj care sufera de HTA, sau
persoanele din judetul Dolj de sex feminin care sufera de HTA, sau
persoanele din România care sufera de cancer de colon si care au fost operate, etc.

Cum de cele mai multe ori, loturile studiate trebuie comparate cu loturi de normali, ne vom mai referi la populatii ca:

persoanele normale dintr-o arie geografica data, sau
persoanele de sex feminin din Dolj, sau
copiii normali între 2 si 14 ani, etc.

Exemplele de populatii statistice de acest gen pot fi multiplicate practic nelimitat, de fapt fiind necesar sa se considere aproape pentru fiecare nou studiu statistic o populatie specifica la care se refera.

Pe de alta parte, de obicei în statistica, o populatie nu este o multime de persoane. De exemplu, în studiile demografice se iau câteodata ca elemente fundamentale grupuri sociale ca asezari omenesti sau institutii, intreprinderi, populatia asezarilor umane din România, populatia scolilor dintr-un judet, etc. Avem deci în acest caz populatii de grupuri socio-umane.

Mai mult, populatiile pot sa nu aiba o legatura directa cu indivizi umani ci mai degraba indirecta, si anume se poate vorbi despre populatii de evenimente (accidentele de circulatie dintr-o arie geografica, accidentele cardiace pe o perioada anume de timp, etc) sau despre populatii de masuratori (tensiunea arteriala a unui pacient considerata la intervale regulate de timp).

Vom avea deci ca tipuri mai importante de populatii:

Populatii de indivizi umani (normali, afectati de o afectiune, expusi la un risc, etc)
Populatii de grupuri socio-umane (localitati, scoli, intreprinderi, spitale, etc)
Populatii de evenimente (la oameni, la animale de experienta, la celule, etc)
Populatii de masuratori (la oameni, la animale, la plante, la alte obiecte, la celule, la gene, la mitocondrii, etc).

Deci, când vorbim despre o populatie, nu este vorba neaparat despre populatia unei tari sau oras, adica despre grupe de oameni. Pe de alta parte, având în vedere ca studiem o populatie din punctul de vedere al unei caracteristici comune tuturor indivizilor, ceea ce ne intereseaza de fapt sunt nu indivizii în sine cât caracteristica ce le este comuna si pe care o studiem. De aceea, de obicei ne referim la populatii ca la multimi de numere ce reprezinta masuratori efectuate pe indivizi umani sau de alta natura, plante, obiecte, evenimente, etc.

Indiferent despre ce tip de populatie discutam la un moment dat, unitatea fundamentala cu care avem de a face este individul statistic.

Definitie:

Vom numi individ statistic un element al unei populatii statistice indiferent de natura acesteia.

Astfel notiunile de individ uman si de individ statistic nu se suprapun deoarece asa cum rezulta din aceasta definitie, individul statistic poate fi:

persoana umana (individ sanatos, pacient),
un grup socio-uman (o scoala, o localitate, un spital, etc),
un eveniment,
o masuratoare, etc.

Mai mult, nu orice individ uman poate fi si individ statistic ci, pentru aceasta trebuie sa fie cuprins într-o populatie statistica. Relativ la indivizii statistici, preocuparea fundamentala este studiul anumitor caracteristici ale acestora, anume acele caracteristici care au legatura cu cea avuta în vedere atunci când am considerat populatia statistica.

De exemplu, într-un studiu statistic în care dorim sa punem în evidenta modificarea functiei hepatice la indivizii care sufera de o anumita afectiune, populatia este definita de existenta afectiunii, iar indivizii vor fi studiati prin masurarea mai multor parametri de definesc functia hepatica si pe baza carora putem decide cât de mult a fost afectata functie hepatica. Daca urmarim numai bilirubina totala, în cadrul cirozelor hepatice, avem:

Populatia statistica este multimea indivizilor umani care au ciroza hepatica (în interiorul ariei geografice în care are loc studiul)

Indivizi statistici sunt fiecare din cei considerati în cadrul populatiei, adica este individ statistic, orice persoana cu ciroza hepatica (din aria geografica considerata). Valoarea masurata a bilirubinei la un anumit individ statistic este cea care ne intereseaza în cadrul studiului. De aceea se pot confunda la un moment dat individul uman cu valoarea numerica a bilirubinei totale masurate la el. Aceasta confundare nu este periculoasa daca în studiu nu ne intereseaza decât bilirubina totala.

1.5 Caracteristici, variabile

1.5.1 Definitii

Organismul uman, cel mai complex sistem existent în natura, nu poate fi descris exact nici prin tomuri întregi de descriere în cuvinte si nici prin numre oricât de multe am folosi. Omul este capabil sa descrie numai anumite trasaturi sau proprietati ale organismului sau. Trebuie sa fim constienti ca desi numarul de trasaturi ale organismului pe care le studiaza anatomia, biochimia, biofizica, fiziologia si toate celelalte discipline este enorm, niciodata nu vom fi capabili sa descriem exact organismul uman, caci numarul de trasaturi de care am avea nevoie este practic infinit. Trasaturile sau proprietatile organismului uman sunt denumite în statistica caracteristici si sunt cuprinse în categoria generala de date, asa cum sunt descrise în subcapitolul 1.1 al acestui capitol.

Definitie:

Numim caracteristica o proprietate comuna tuturor indivizilor dintr-o populatie statistica data.

Caracteristicile sunt ceea ce în limbajul obisnuit întelegem prin atribut, calitate. Din punctul de vedere al statisticii medicale, caracteristicile sunt de doua tipuri fundamentale: cantitative si calitative.

Caracteristicile cantitative sunt acelea care prin natura lor sunt masurabile, adica pentru care exista unitati de masura si o conventie de masurare general acceptata. În aceasta categorie intra toate constantele fiziologice, biochimice, biofizice, unele anatomice, care în general pot fi determinate prin masuratori uzuale sau de laborator: înaltime, greutate, vârsta, glicemie, calcemie, hemoglobina, numar eritrocite, forta musculara, viteza de reactie, nivel de inteligenta (QI), dar si marimile referitoare la celule, organite, sinapse, vezicule, membrane, etc. Ele sunt totdeauna exprimate cifric într-un mod precis, obiectiv.
Caracteristicile calitative, sunt cele care nu pot fi masurate prin metode obiective, cantitative, ci se exprima descriptiv prin termeni calitativi: culoare, forma, consistenta, aspect, etc. Caracteristicile calitative nu au o unitate de masura general acceptata si deci nu pot fi exprimate cifric, ca rezultat al unor masuratori. Ele sunt adesea subiective si de obicei exprimate analogic si nu numeric.

Caracteristicile cantitative sunt si ele subîmpartite în doua categorii fundamentale:

Daca masuratorile pot da orice numar cuprins între doua limite date, zecimal sau nu, caracteristica respectiva este o caracteristica continua.
Daca însa valorile nu pot fi decât în numar finit, de obicei întreg, caracteristica se numeste discreta.

Deci, un prim criteriu de clasificare a datelor în statistica este acela care le împarte în calitative si cantitative, iar pe cele cantitative le împarte în continui si discrete (vezi figura 1.1).

Figura. 1.1 Clasificarea cea mai generala a datelor în statistica

Astfel, majoritatea analizelor de laborator, sunt masuratori cantitative continue. Aceasta deoarece, hemoglobina sau calcemia sau glicemia, etc, pot lua orice valori între limitele de normalitate, sau chiar în afara limitelor de normalitate, iar aceste valori depind de pacientul la care s-au facut masuratorile. Atunci însa când înregistram anumite caracteristici anatomice, numarul de copii al unei paciente, numarul de nasteri, numarul de avorturi, folosim pentru înregistrare numere întregi si spunem ca înregistram o caracteristica numerica discreta.

Lumea biologica este caracterizata printr-o mare variabilitate, acest domeniu al realitatii find de fapt cel mai greu de cuprins în cifre foarte exacte, iar atunci când se obtin astfel de cifre, diferentele individuale pot fi atât de accentuate încât trebuie sa manifestam o mare reticenta în folosirea lor bruta, imediata. Desi sunt unele aspecte care se mentin constante la o aceeasi specie, si în particular la om, unele se schimba de la individ la individ, adica sunt variabile. Asadar, atunci când indivizii statistici sunt oameni, caracteristicile care se studiaza sunt de multe ori variabile. De fapt, acelasi lucru se poate spune si când indivizii sunt grupuri umane, evenimente, etc, adica se constata aceeasi variabilitate de la individ la individ.

Definitie:

O caracteristica care se schimba de la individ la individ sau la acelasi individ în timp sau ca raspuns la conditiile de mediu, de boala de medicatie, etc, se numeste variabila.

În aceasta carte, vom opera îndeosebi cu variabile. O valoare numerica care se obtine printr-o masuratoare pe un pacient sau în general pe un individ statistic, este de obicei o variabila si are valori cuprinse de regula între anumite limite naturale. Ceea ce este important la aceste variabile sunt doua aspecte:

Înainte de a face masuratoarea, nu avem o informatie clara asupra rezultatului. De obicei stim între ce limite ar trebui sa fie cuprins rezultatul (limite de normalitate), dar în biologie aceste limite sunt depasite de multe ori de rezultate la limita (sau dincolo de limita) sau aberante (eronate).

Depasirea limitelor este normala atâta timp cât nu devine o regula. Orice interval de normalitate defineste anumite limite în care se înscriu majoritatea indivizilor. Totdeauna însa, exista indivizi, în numar mic, care au valori ce depasesc limitele de normalitate (vezi capitolul 6).

Bineînteles ca, daca o caracteristica nu se schimba de la individ la individ, se numeste constanta. Constatntele nu sunt obiectul de studiu al statisticii. Acest fapt nu saraceste prea mult obiectul de studiu al statisticii medicale, deoarece putine sunt acele caracteristici ale organismului uman care sa fie cu adevarat constante.

1.5.2. Variabilitate

Medicina este stiinta care trebuie sa puna ordine într-un ocean de variabilitate. Cauzele care conduc la date de o variabilitate mai mica sau mai mare sunt atât obiective cât si subiective. Variabilitatea contine atât variatiile biologice normale si patologice cât si variatiile datorate procesului de masurare si variatii întâmplatoare carora nu li se pot da explicatii logice.

Variatia biologica este o suma de factori necunoscuti care contribuie fiecare cu mici efecte aleatoare la valori mai mici sau mai mari. Sunt nesistematice, adica variatiile sunt în plus sau în minus, întâmplatoare atât ca semn cât si ca amplitudine.

Variatia asociata cu conditiile de observare apare atunci când masuratorile se fac în conditii despre care se stie ca afecteaza rezultatele. De obicei sunt sistematice, afectând majoritar în plus sau majoritar în minus.

Variatia datorata masuratorilor, sau erorile de masuratoare sunt datorate numai procesului de masurare în sine si pot fi aleatorii sau sistematice. Cele aleatorii sunt erori inerente datorate preciziei limitate de observare a celui care masoara sau preciziei limitate a aparatului de masura. Cele sistematice apar daca aparatul de masura este prost calibrat sau experimentatorul are tendinta de a face citiri de obicei în minus sau de obicei în plus.

Variatiile întâmplatoare, fac ca observatiile sa fie centrate pe media reala, în timp ce variatiile sistematice fac ca observatiile sa fie centrate fie pe valori mai mari, fie pe valori mai mici decât media reala. În timp ce variatiile biologice sunt de neocolit, obiective, celelalte tipuri de variabilitate enumerate mai sus sunt considerate ca factori care perturba procesul de observare si care trebuie pe cât posibil minimizate. Pentru aceasta se folosesc în medicina aparate si metode de masurare din ce în ce mai perfectionate care sa micsoreze cât mai mult erorile.

Important:

Variatiile biologice, pot fi privite fie ca variatii intraindividuale sau interindividuale.

Variatia valorilor unui parametru la un acelasi individ la momente diferite de timp este variatie intrainidividuala. Se poate datora unor modificari fiziologice sau patologice care sunt legate de evolutia în timp a organismului.
Variatia valorilor unui parametru de la individ la individ care se datoreaza diferentelor naturale între indivizi se numeste variatie interindividuala.

Observatie: în realitate, variabilele cu care se lucreaza în mod curent în medicina sunt de obicei datele despre pacienti care sunt culese fie direct de la pacienti, fie prin masuratori directe, fie prin masuratori de laborator. Din motive practice, care tin de precizia posibil de obtinut la o masuratoare, fie ea de laborator sau nu, datele se inregistreaza doar cu un numar finit de valori. De exemplu, hemoglobina este data de obicei pe buletinele de analiza cu o singura zecimala exacta si deci valorile posibil de înregistrat sunt doar câteva zeci, adica în numar finit. Atunci, aceasta variabila este continua sau discreta? Nu trebuie uitat ca de fapt valorile reale pot într-adevar avea o distributie mult mai fina decât din 0,1 în 0,1 si deci variabila o vom considera de tip continuu. Este vorba de fapt de o falsa discretizare care se manifesta la aproape toate variabilele în procesul de înregistrare, din motive obiective.

1.6 Tipuri de date

Un alt criteriu de clasificare, si cel mai important se refera la simbolurile pe care le folosim pentru a reprezenta datele experimentale pe care dorim sa le înregistram si care sunt dependente de natura intrinseca a datelor. Aceasta înseamna ca, pentru înregistrarea datelor putem folosi fie numai numere (spunem ca înregistram date numerice), fie numai simboluri consacrate pe plan international sau national, ori simboluri convenite local (spunem ca înregistram date nominale, sau date ordinale), fie simboluri amestecate cu numere (caz în care spunem ca înregistram date alfanumerice). Datele înregistrate ca numere sau prin simboluri consacrate sau convenite se numesc scalate, în timp ce restul le numim alfanumerice.

Astfel, scala numerica va permite celui care înregistreaza date sa scrie numere reale sau întregi. Scala ratio, permite înregistrarea tot prin numere reale sau întregi dar exprima rapoarte, asa cum este descris mai jos. Scala ordinala si cea nominala, scale asemanatoare, permit înregistrarea dupa coduri si prescurtari. De exemplu, grupa sanguina, stadiul evolutiv al unei afecttiuni maligne, tipul de afectiune, tipul de tumora, etc sunt de obicei standardizate prin conventii internationale la scara continentala sau mondiala (vezi figura 1.2 pentru o clasificare a tipurilor de date).

Alte prescurtari privesc sistemul de sanatate dintr-o tara, iar unele sunt specifice unui spital, unei sectii sau unui medic. Astfel, protocoalele de tratament, desi se supun unor directii dictate de organizatii internationale, pot diferi de la tara la tara. Tot astfel, un medic poate sa prescurteze diferite observatii la echograf ale ficatului pacientilor cu ciroza hepatica, prin prescurtari care sa fie fixate chiar de el, sau sa fie specifice unei sectii de care apartine aparatul, etc. Acest lucru este permis atunci când importanta datelor nu depaseste limitele sectiei respective, adica sunt informatii interne.

Fig. 1.2 Clasificarea datelor dupa simbolurile folosite la înregistrare

1.6.1. Date scalate

De obicei, datele care se înregistreaza în vederea unei prelucrari statistice sunt înregistrate mai succint prin numere, simboluri, prescurtari. Cel care înregistreaza datele nu poate scrie decât informatie codificata conform scalei alese. Principalele tipuri de scale sunt descrise succint mai jos.

1.6.1.1 Scala numerica

Datele înregistrate pe scala numerica descriu acele caracteristici ale pacientului care sunt prin excelenta cantitative si se exprima prin numere întregi sau zecimale. De obicei este stabilita o margine superioara si inferioara pentru ele (nu putem spune ca un pacient are temperatura mai mare ca 44 ^o C. ). Masuratorile pe scala numerica sunt de asa natura încât o unitate pe scala are aceeasi magnitudine pe întreaga scala. De exemplu, înregistrarea greutatii, presupune ca o greutate de 40 kg, este de doua ori mai mica decât una de 80 kg

Totusi, scalele numerice nu permit totdeauna interpretari comparative. Astfel, este gresit sa se spuna ca un pacient cu hemoglobina Hb=8 este de doua ori mai anemic decât unul cu Hb=16, bazându-ne pe faptul ca hemoglobina le cel de-al doilea are o valoare dubla. La fel cu glicemia, calcemia, tensiunea, colesterolemia si aproape toate celelalte analize de laborator exprimate numeric si în general cu caracteristicile cantitative exprimate pe aceasta scala.

Pe scala numerica sunt reprezentate caracteristici cantitative continui si caracteristici cantitative discrete. De exemplu, numarul de nasteri sau numarul de avorturi la o pacienta de înregistreaza numeric, discret, adica din 1 în 1, neavând sens valori zecimale. Majoritatea analizelor de laborator însa, se înregistreaza numeric, prin numere zecimale, de obicei cu una sau doua zecimale.

1.6.1.2 Scala ratio

Scala ratio este similara cu cea interval cu exceptia faptului ca valorile reprezinta mai curând rapoarte fata de o valoare standard, fixata. Toate masuratorile se raporteaza la acest numar standard. De exemplu, coeficientul de inteligenta al unui copil este exprimat pe scala ratio. Un copil are QI=120 (corect 1,2), în sensul ca raportul dintre scorul sau si scorul mediu pentru vârsta lui este 1,2. Scorul mediu pentru o anumita vârsta este un scor standard la care se raporteaza toate scorurile obtinute de diversi copii cu acea vârsta biologica. De aceea, sunt atâtea scale ratio pentru QI câte vârste biologice. De obicei, valorile standard se determina numai pentru vârste biologice exprimate în ani întregi. Pe scala ratio sunt reprezentate caracteristici cantitative continui

1.6.1.3 Scala nominala

Datele înregistrate pe scala nominala descriu o caracteristica sau o variabila pentru înregistrarea careia se pot folosi un numar finit de simboluri, alese la întâmplare sau prin conventie, care reprezinta categoriile posibile, exhaustiv si mutual exclusiv. De exemplu, pentru grupa sanguina, simbolurile 0, A, B, AB sunt categorii exhaustive (orice individ intra în exact una din ele) si mutual exclusive (un individ nu poate intra în doua categorii în acelasi timp) si sunt date de tip nominal; Masuratorile nominale constau în asignarea pacientilor la grupuri sau categorii. Nu este purtata nici o informatie cantitativa si nu exista o ordine a categoriilor. Pe scala nominala se înregistreaza caracteristici calitative. Exemplu: preferinte religioase, rasa, sexul, mod de alimentatie, tip de temperament, culoarea ochilor, a parului, etc.

Pe scala nominala, indivizii sunt împartiti în câteva clase:

Exhaustive (fiecare individ apartine unei singure clase)
Mutual exclusive (nici un individ nu poate apartine la doua clase, simultan)
Numele claselor sunt simbolice si de obicei sunt fixate de practica medicala sau de conventii internationale, nationale, locale
Doi indivizi din aceeasi clasa sunt echivalenti pe scala considerata (chiar daca din alte puncte de vedere nu sunt echivalenti)
Nu are sens sa ordonam clasele crescator sau descrescator dupa nici un criteriu

De exemplu, tot pe o scala nominala este bine sa se înregistreze ocupatia, starea civila, tipul de afectiune, tipul de educatie primita, etc. Pentru ocupatie, uneori este suficient sa se aleaga numai câteva clase, care ar putea fi intitulate: muncitor, intelectual, functionar, elev, student, pensionar, fara ocupatie. Avem astfel 7 clase. Trebuie sa ne asiguram ca fiecare individ din cei pe care îi studiem, apartine la una din aceste clase. Evident nici unul nu apartine la doua clase în acelasi timp. În ce priveste starea civila, cel mai simplu exemplu de alegere a claselor este sa luam doua: casatorit si necasatorit. Uneori, se iau patru clase, casatorit, necasatorit, divortat si vaduv. si în acest caz, trebuie urmarit ca fiecare individ sa apartina exact la una din clasele alese. Numele claselor este ales dupa dorinta, numele putând fi si prescurtate pentru a economisi timp daca trebuie înregistrati un numar foarte mare de pacienti. De exemplu, în cazul ocupatiilor, putem folosi prescurtarile: munc, intel, func, elev, stud, pens, fara. În toate cazurile însa trebuie avut în vedere sa nu apara situatii în care se înregistreaza odata cu nume complet al clasei, altadata cu nume scurt, caci apar complicatii.

1.6.1.4 Scala ordinala

Descriu o caracteristica pentru înregistrarea careia se folosesc tot simboluri ce definesc categorii exhaustive si mutual exclusive, dar care sunt ordonate gradat, de obicei crescator. De exemplu, stadiul evolutiv în anumite afectiuni ca cele maligne (stadiul 0, 1, 2, 3 si 4). Deosebirea fata de caracteristicile nominale, desi pare neimportanta, conduce la principii diferite de tratare statistica si de aceea, este important de stabilit daca o caracteristica o înregistram ca nominala sau ordinala. Masuratorile pe scala ordinala sunt ordonate în sensul ca numere mai mari reprezinta valori mai mari. Totusi, intervalele între numere nu sunt în mod necesar egale. De exemplu, daca un pacient apreciaza starea de confort indusa de un medicament contra astmului pe o scala de la 0 la 3, diferenta între 0 si 1 nu este neaparat egala cu diferenta între 2 si 3. De altfel nici nu s-ar putea descrie cantitativ aceste diferente, ele sunt subiective si lasate la latitudinea observatorului care în exemplul de mai sus este chiar pacientul. Nivelul 0 este ales absolut arbitrar, la fel de bine scala putea fi de la 3 la 6 sau de la -1 la 2. Tot astfel, în cazul stadiilor evolutive în afectiunile maligne stadiile sunt din ce în ce mai grave, dar diferenta de gravitate nu este aceessi când trecem de la un stadiu la altul.

Pe scala ordinala, indivizii sunt împartiti în câteva clase:

Exhaustive (fiecare individ apartine unei singure clase)
Mutual exclusive (nici un individ nu poate apartine la doua clase, simultan)
Numele claselor sunt simbolice si de obicei sunt fixate de practica medicala sau conventii internationale nationale, locale
Doi indivizi din aceeasi clasa sunt echivalenti pe scala considerata (chiar daca pot fi neechivalenti dintr-un alt punct de vedere)
Clasele pot fi ordonate crescator sau descrescator, dar diferentele între clase nu exprima cantitati, nu conteaza decât ordinea lor

A se observa ca primele patru puncte sunt identice la scala ordinala si respectiv, nominala. Singura diferenta este data de posibilitatea ordonarii claselor, care la cele ordinale nu este posibila, în timp ce la cele ordinale este posibila-

Exista o legatura între scala de masurare si metodele statistice folosite. De exemplu, este absurd sa calculam media datelor nominale. Folosirea mediei pentru datele ordinale este înca controversata. Pentru calculul mediei sau a altei statistici ce impune calcule, trebuie sa avem date numerice sau ratio.

Observatie:

Precizam aici o proprietate fundamentala a datelor de tip nominal si anume aceea ca simbolurile prin care sunt denumite categoriile sub care înregistram datele nu sunt critice, ele ar putea în principiu sa fie schimbate fara a afecta fundamental structura datelor. Sa revenim pentru aceasta la exemplul grupelor sanguine, la care dupa cum se stie uneori folosim simbolurile 0, A, B, AB, pentru a denumi grupele. În limbajul curent, folosit mai ales de nespecialisti, simbolistica intrata în uz este 0I, AII, BIII, ABIV. Acest lucru nu împiedica cu nimic o buna întelegere si chiar am putea schimba oricând aceste simboluri fara ca frecventele observate într-un grup de pacienti sa se schimbe (cu conditia bineînteles ca lumea medicala sa accepte si aceste noi simboluri). Ordinea în care apar citate aceste simboluri nu este fundamentala, este doar o problema de obisnuinta. Poate doar grupele 0I ca donator universal sau ABIV ca primitor universal au cumva locul 1 si 4 ca naturale.

Daca însa grupam pacientii dupa culoarea ochilor, dupa temperament, dupa consistenta ficatului, culoarea urinei, motivul internarii, afectiunea de care sufera, atunci simbolurile sau prescurtarile pe care le folosim au doar importanta data de uzul comun sau de conventiile internationale, sau de ordinea obisnuita numai în clinica, spitalul, orasul respectiv, neavând importanta ordinea în care le asezam atunci când facem o clasificare a lor.

1.6.2 Date alfanumerice sau literale

Sunt cele care retin numele, prenumele, sexul, adresa, locul de munca, date despre starea generala a pacientului, data nasterii, etc. Sunt înregistrate folosind cuvinte din limbajul curent, eventual numere, dar nesistematizat. Astfel, pe coloana numita "Adresa", la un pacient poate sa apara o informatie de genul "Str. Trandafirilor, Nr. 24", iar la alt pacient poate sa apara pe aceeasi coloana o informatie ca: "Cart. Calea Giurgiului, Bl A7, Sc A, Ap 24". În general, programele de calculator nu sunt capabile sa clasifice astfel de informatii. De exemplu, nu se poate cere unui program sa scoata o lista cu toti pacientii care locuiesc într-un anumit cartier, daca datele au fost înregistrate ca în exemplul de mai sus. Nu sunt folosite prea mult pentru prelucrarile statistice, totusi ele sunt foarte utile si nu se înregistreaza pacienti fara acest tip de date. De fapt, din punctul de vedere al înregistrarii propriu-zise, ele sunt cele mai importante, de obicei sunt prevazute primele în orice tabel, constituind mijlocul de identificare a pacientului. Ca prelucare sunt folosite mai mult pentru selectii si sortari de loturi: lotul de femei si lotul de barbati, lotul celor din Craiova si lotul celor din judet, etc.

1.7 Înregistrarea datelor

Pâna la aparitia calculatoarelor moderne s-a obisnuit ca informatiile din domeniul medicinei sa fie pastrate în general în fisele medicale de diferite tipuri care sunt destul de greu de mânuit, în special atunci când este nevoie sa se realizeze o cercetare a situatiei pe o perioada mai îndelungata de timp. Calculatoarele ofera posibilitatea înregistrarii facile a informatiei si, avantaj esential, accesul la informatie este foarte rapid iar prelucrarea datelor poate fi deosebit de complexa. Este foarte important ca fiecare medic sa înregistreze toate datele semnificative despre pacientii sai fiindca acest lucru usureaza în mod evident activitatea de zi cu zi si modul în care acestia sunt observati si tratati. De fapt, înregistrarea datelor are un caracter continuu, iar prelucrarea lor se poate face permanent, pe masura ce datele se acumuleaza, de obicei concluzii interesante si valide aparând doar dupa luni sau chiar ani de înregistrari. Astfel, se pot naste ipoteze de lucru care mai apoi pot fi testate prin metode statistice elaborate si se poate verifica veridicitatea lor.

Datele se înregistreaza pe calculator în tabele primare, sa le numim tabele de date, sau tabele de pacienti, care pot fi legate între ele prin natura datelor pe care le contin si se constituie în asa-numitele baze de date. Prelucrarile statistice de baza pot fi facute prin înregistrarea datelor în tabele simple, de aceea vom discuta în continuare despre date tabelate.

Asa cum se vede în tabelul 1.1, de obicei datele despre un pacient sunt scrise pe o linie a tabelului, iar pe o aceeasi coloana se pastreaza date de acelasi tip despre toti pacientii.

Tabelul 1.1 Date despre primii 15 pacienti dintr-un tabel care contine de fapt mai multe linii si coloane decât se vad aici. Pe o linie sunt pastrate datele despre un acelasi pacient, iar pe o coloana date de acelasi tip despre toti pacientii

Nr.	Nume	Prenume	Vârsta	Sex	Mediu	Hb	Proteine	Glicemie	Albumina
	Popescu	Ion		b	U
	Ionescu	Alin		b	U
	Vasilescu	Constantin		b	R
	Georgescu	Elena		f	R
	Darie	Vasile		b	R
	Florescu	Maria		f	U
	Morega	Marin		b	R
	Drâmba	Ioana		f	U
	Gherghina	Ion		b	R
	Casota	Vasile		b	U
	Uliu	Constantin		b	U
	Ulmeanu	Elena		f	U
	Popa	Costel		b	U
	Rotaru	Adriana		f	U
	Surugiu	Nicolae		b	R

De obicei, datele brute ni se prezinta într-un astfel de tabel, care poate fi mult mai mare, atât ca numar de linii (ca numar de pacienti înregistrati, în acest caz), cât si ca numar de coloane, adica ca numar de masuratori efectuate pentru fiecare pacient. În mod curent un tabel contine zeci, sute si uneori chiar mii de pacienti, iar numarul de coloane poate sa varieze de la câteva, la câteva zeci sau chiar mai multe sute.

Facem câteva observatii de natura practica care pot scuti pe cei ce doresc sa înregistreze si sa prelucreze date, de complicatii inutile. În continuare sunt exemplificate câteva situatii si sunt date recomandari care nu trebuie interpretate ca obligatorii ci mai degraba ca o directionare, astfel ca cel care înregistreaza date sa nu aiba surprize neplacute, mai ales atunci când datele introduse trebuie prelucrate folosind mai multe pachete de programme.

Chiar daca programul folosit pentru introducerea datelor numeroteaza automat liniile din tabel, este bine ca tabelul sa aiba o coloana de numerotare proprie asa cum se vede în figura 1.3. Asadar, pacientul nr. 1, Voinea Radu, se afla pe linia a doua, pacientul nr. 2, Diaconescu Ion se afla pe linia a treia, etc. Acesta este clar un inconvenient, dar utilizatorul trebuie sa se obisnuiasca. Majoritatea programmelor numeroteaza linia pe care se afla numele coloanelor (Excel, SPSS, Statistica), dar este recomandabil sa se numeroteze înregistrarile.

Figura 1.3. Tabel de date cu numerotarea pacientilor.Desi programul numeroteaza de la 1 la 11, numerotarea utilizatorului de la 1 la 10 este importanta. Pacientul Voinea este al doilea pentru program, dar primul pentru utilizator.

Figura 1.4. Tabel în care vârstele pacientilor au fost ordonate crescator. Pacientii au fost inversati, fiind asezati dupa vârsta, împreuna cu toata informatia aferenta. Reasezarea în pozitia initiala se poate face usor cerând reordonarea dupa coloana A

Cel mai important motiv pentru care este bine sa numerotam înregistrarile este acela ca pot fi oricând ordonate asa cum au fost introduse, daca avem nevoie. Acest lucru nu este obligatoriu dar este recomandabil. De exemplu, în figura 1.4, înregistrarile au fost ordonate dupa vârsta, crescator. Daca nu s-ar pastra pe coloana A informatia despre locul pe care l-a ocupat initial fiecare înregistrare în tabel, restabilirea ordinii initiale nu ar mai fi posibila. Se poate cere programului sa aseze înregistrarile în ordine crescatoare dupa coloana A si astfel de exemplu, Voinea Radu, va fi reasezat pe linia 2, unde a fost initial, si asa mai departe.

Se recomanda ca pe coloanele numerice cum ar fi Vârsta (coloana D), sa nu se precizeze la fiecare celula si unitatea de masura, ceea ce îngreuneaza procesul înregistrarii si în plus, face dificile calculele. Astfel, programul Excel, ca si alte programme nu va face media de vârsta pe coloana D din figura 1.5, întrucât în toate celulele, programul considera ca am introdus texte si nu numere si ca atare nu opereaza cu datele ca si cu numere. Pentru calcule, trebuie respectat caracterul numeric al datelor.

Figura 1.5. Înregistrarea vârstelor cu precizarea unitîtii de masura este eronata. Toate programele vor considera continutul celulelor de pe coloana D ca texte si nu ca numere. De exemplu, nu vom putea calcula media de vârsta.

Figura 1.6. Date introduse gresit. În afara de cele precizate în figura 1.5, pe coloana G s-au introdus doua numere într-o celula, pe coloana sex barbatii sunt scrisi când cu m când cu M când cu B, si chiar pe coloana H, nu este indicat sa se procedeze ca la celula H8

De asemeni, este total contraindicat sa se introduca mai mult de un singur numar într-o celula, asa cum se vede ca s-a procedat în tabelul din figura 1.6, unde viteza de sedimentare a hematiilor la o ora si la doua ore au fost introduse comasat pe coloana G. Nici un fel de prelucrare nu se va putea face, nici ordonari, nici medii, nici comparari, într-un cuvânt, nimic. Aceasta este gresala cea mai grava care se comite la introducerea datelor caci, practic ele trebuie reintroduse. Tot în figura 1.6, puteti vedea pe coloana H o alta gresala curenta. Daca coloana H a fost declarata ordinala, cele patru categorii sau clase în care se introduc pacientii fiind I, II, III si IV, atunci este contraindicat sa se scrie de exemplu IV M (pentru metastaza) ca în celula H8. Aceasta deoarece odata încalcata regula, vom fi tentati sa o reîncalcam la un alt pacient cu o alta însemnare specifica cum ar fi o localizare sau orice altceva. În final în loc de patru categorii cât am fixat la început, gasim 5 sau mai rau, 7-8, uneori mai multe. Nu este gresit sa se stabileasca de la început un numar mai mare de categorii. De altfel, mai modern, în oncologie, în afara de stadiul 0, si cele patru stadii clasice, au aparut stadiile IIa si IIb în locul stadiului II, IIIa si IIIb în locul stadiului III. Însa odata stabilite aceste simboluri care sunt deja intrate în uz, este bine ca ele sa nu fie imbogatite cu alte însemnari, oricât ni s-ar parea de utile.

În cazul vitezei de sedimentare a hematiilor este bine sa se foloseasca doua coloane, asa cum se vede în figura 1.7 unde s-au folosit coloanele G si H pentru înregistrarea acelorasi date. La fel trebuie procedat în cazul tensiunilor sistolica si diastolica unde în loc de înregistrarea de genul 140/70 într-o aceeasi celula a unei coloane, trebuie folosite doua coloane, una pentru tensiunea sistolica si una pentru cea diastolica. Pentru stadiile afectiunii maligne, este bine ca pe o coloana sa se înregistreze strict numai 0 sau I sau II sau III sau IV, iar însemnarea care priveste metastaza sa fie înregistrata pe o coloana separata, asa cum se vede mai jos ca s-a procedat pe coloanele I si J. În cazul în care anumiti pacienti nu au analiza facuta, deci nu exista valori de înregistrat este bine sa se ocoleasca practica de a scrie explicit acest lucru în tabel, asa cum vedeti ca s-a procedat în figura 1.7, pe coloanele G si H la pacientii Nedelcu, Radulescu si Armeanca. Unele programme lucreaza corect în aceste cazuri (SPSS), dar altele, cum este cazul programului foarte des utilizat EXCEL, nu lucreaza corect. Astfel, daca i se cere calculul indicatorilor statistici pentru VSH1, deci pentru datele de pe coloana G (vezi capitolul al doilea în legatura cu notiunea de indicator statistic), programul va raspunde cu un mesaj de avertizare si nu va efectua calculele.

Figura 1.7. Înregistrarea corecta a VSH, pe doua coloane. Este singura înregistrare corecta. Totusi, la pacientii la care nu sunt înregistrate valorile nu este indicat sa se scrie ceva. Este bine sa fie lasate celulele goale.

Nici asa cum se vede în figura 1.8 nu este corect, deoarece introducerea numerelor 0 acolo unde nu avem date, adica pe coloanele G si H la pacientii 8, 9 si 10, va modifica drastic si va falsifica media sau alte calcule, caci programul nu va considera ca nu s-a facut masuratoarea ci ca din contra, aceasta s-a facut, dar pacientul are valoarea 0, ceea ce este cu totul fals.

Figura 1.8.Introducerea de valori 0 acolo unde masuratorile nu s-au facut, este o gresala. Celulele trebuie lasate goale

Ar mai fi de semnalat ca neînregistrarea unitatilor de masura ale datelor de pe o coloana sau alta, desi pare cam nepotrivita, este recomandata. Mai jos, în figura 1.9, pe coloana D s-a scris si unitatea de masura si s-a folosit si litera specifica pentru alfabetul românesc "â.". Acest lucru nu este interzis dar este nerecomandabil. Programele moderne au introdus de mult caracterele din majoritatea limbilor si pe cele din limba româna. Totusi, datele pe care le introducem folosind un anumit program, vor fi prelucrate probabil cu un altul sau cu mai multe alte programe. Nu pot fi descrise prin suficiente cuvinte frustrarea si deziluzia unui utilizator, chiar versat, atunci când diverse programe trateaza complet diferit numele lungi, cu caractere speciale ca a, î, s, t, - ?, etc, sau nume formate din doua sau mai multe cuvinte.

Figura 1.9. Pe coloana D numele este scris cu " ", este format din doua cuvinte si este prea lung. Se recomanda un singur cuvânt (adica fara spatii libere), nefolosirea literelor românesti în numele coloanelor si nume scurte, de preferat sub 8-10 caractere.

De aceea este bine sa nu se scrie în paranteza unitatea de masura, sa nu se foloseasca caractere speciale, sa nu se scrie nume de coloane formate din mai multe cuvinte si sa nu se denumeasca coloanele cu nume foarte lungi (vezi tabelul 1.2 pentru exemple corecte de nume de coloane). Aceste îndrumari s-ar putea sa para foarte restrictive si unii utilizatori de programe de calculator sa fie tentati sa nu le respecte. Recomandam totusi cu tarie respectarea lor. În ce priveste unitatile de masura, care uneori este absolu necesar sa fie pastrate, mai ales atunci când sunt diferite de cele uzuale si exista riscul de a se pierde informatia în legatura cu ele, acestea pot fi pastrate într-un tabel separat de tabelul care contine date propriu-zise.

Tabelul 1.2. Exemple de nume de coloane indicate pentru diferite cazuri

Nume de coloana	Nume recomandat
Frecventa cardiaca	Frcard
Vârsta (ani)	Varsta
Activitatea reninei plasmatice	ARP
Leucocite la internare	Lintern
Leucocite la externare	Lextern
Diagnostic	Diag
Mediul de provenienta	Mediu
Luna decesului	Ldec
Data nasterii	DataNast
Antecedente heredo-colaterale	AHC
Accident vascular cerebral	AVC

În ce priveste unitatile de masura, este bine ca acestea sa fie pastrate separat într-un alt tabel, oricât ar parea de incomod. Din punctul de vedere al prelucrarilor care se vor face cu datele introduse, unitatea de masura nu are nici o relevanta atâta timp cât datele tuturor indivizilor sunt inregistrate folosind aceeasi unitate de masura. De altfel, înregistrarea în acelasi tabel de date folosind la anumiti pacienti o unitate de masura si la altii o alta unitate de masura, este total contraindicat în orice aplicatie.

În figura 1.10 este aratat modul cum ar putea arata numele coloanelor si datele despre care s-a vorbit mai sus, astfel încât, majoritatea programelor cu care am dori sa facem prelucrarea nu ar comite erori si ar face orice prelucrare am dori.

Figura 1.10. Înregistrare corecta de date

1.8 Baze de date

Programele moderne de calculator, ajuta la pastrarea si prelucrarea informatiilor în asa-numitele "baze de date". În mod empiric, vom întelege prin baza de date, o colectie de tabele ca cel exemplificat în subcapitolul 1.7, tabele care au între ele o legatura logica si care concura la pastrarea mai simpla a datelor. Daca am încerca sa retinem datele despre pacienti în tabele ca cel de mai sus, apar dificultati care sunt greu de ocolit sau imposibil. De exemplu, cum înregistram într-un singur tabel pacientii care se reinterneaza, daca dorim sa retinem rezultatele unor analize? Solutia cea mai simpla este sa folosim câte o linie pentru fiecare reinternare a pacientului. Atunci tabelele ar putea arata ca în figura 1.11.

Figura 1.11 Exemplu de tabel în care unele date se repeta

Acest tip de înregistrare nu este însa utilizat în practica, deoarece repetarea unor date duce la redundanta care îngreuneaza prelucrarea. Astfel, în exemplul nostru, numele pacientilor, sexul, vârsta, localitatea si medicul, se repeta, ori de câte ori este reinternat un pacient. Doar vârsta se poate schimba odata cu trecerea unei perioade mai mari de timp între doua reinternari. Într-un tabel cu câteva linii si coloane bineînteles ca acest lucru este foarte putin important, dar o baza de date pentru un mare spital poate avea câteva mii de coloane si câteva zeci de mii de linii, daca înregistrarea s-ar face într-un singur tabel. O economie deosebita de spatiu de memorare, dar mai ales de timp de prelucrare se obtine daca un tabel ca cel de mai sus se împarte în patru tabele mai mici: un tabel de pacienti, unul de localitati, unul de medici, si unul de analize.

Tabelele vor arata ca în figurile 1.12 - 1.14, si trebuie retinut ca, intern, în memoria calculatorului ele se structureaza de obicei într-un mod asemanator, pastrând bineînteles proportiile, în sensul ca tabelele reale sunt mai mari, cuprind zeci de localitati si medici, sute sau mii de pacienti si mii sau zeci de mii de buletine de analiza.

Figura 1.12 Tabelul "Pacienti", contine datele despre fiecare pacient, o singura data. Fiecare pacient are un cod numeric pe coloana întâi, folosit în identificarea pacientului în alte tabele. Localitatea si medicul nu sunt scrise în clar ci prin codurile lor, care se pot urmari în figura 1.13.

În figura 1.12, este un exemplu simplificat al unui tabel de pacienti, în care fiecare pacient apare o singura data, si este codificat pe coloana întâi printr-un numar. Codificarea se poate realiza si altfel, nu neaparat prin numere de la 1 în sus, de exemplu se pot folosi combinatii de litere, sau de litere si cifre, sau codul numeric personal al pacientului.

În general, tabelele contin date mai complete. De exemplu, la pacienti, se înregistreaza si datele de identificare civila (data nasterii, coduri numerice), datele de identificare medicala (carnet de sanatate, codul fisei din spital, etc), antecedente, etc. De asemeni, la medici, se înregistreaza si alte date despre medic, cum ar fi specialitatea, functia în cadrul spitalului, saloanele în îngrijire, etc. În figura 1.13, sunt exemplificate tabelele "Localitati" si "Medici", într-o forma foarte simpla.

Figura 1.13 Tabelele "Localitati" si "Medici", dau câte un cod numeric pentru fiecare localitate si câte un cod numeric pentru fiecare medic. În mod normal, aceste tabele contin si alte informatii despre medici si respectiv localitati.

Tabelul Analize" poate contine foarte multe coloane si uneori este nevoie ca si acesta la rândul lui sa fie împartit în baterii de analize înrudite. În figura 1.14, este dat un exemplu simplu, în care codul pacientului este situat pe coloana a doua si, atunci când este cazul, codul se repeta, fara ca celelalte date despre pacient sa se repete.

Figura 1.14 Tabelul Analize" care contine în locul numelui si prenumelui numai codul pacientului, pe coloana a doua. Se observa ca daca un pacient repeta analizele, în tabel se repeta numai codul sau, nu si celelalte date despre el.

Trebuie retinut ca aceasta împartire în tabele mai simple nu afecteaza lizibilitatea datelor, pentru ca în memorie datele sunt reprezentate asemanator cu exemplele din figurile 1.12, 1.13 si 1.14, în timp ce vizualizarea datelor se face într-un format care poate fi chiar cel din figura 1.11. Mai mult, programele de calculator au de obicei functii care permit vizualizarea la un moment dat numai a acelor coloane sau linii care ne intereseaza, dintr-un tabel mare, care altfel ar putea fi foarte greu urmarit.

Totusi, nu trebuie înteles ca problema împartirii în astfel de tabele mai mici a unei baze de date mari, este o problema interna a programului cu care lucram, sau a specialistului în programare. Dimpotriva, medicul este cel care, împreuna cu specialistul în programare, participa activ la conceperea acestor tabele. Specialistul în programare nu are nici cea mai vaga ideie de modul cum se înlantuie între ele datele dintr-o baza de date medicala si numai ghidat de medicul care va fi beneficiarul bazei de date, poate concepe o structura de tabele care sa ofere o prelucrare cât mai simpla si eficienta.

1.9 Tabele de frecventa

Datele culese si înregistrate pot contine informatii despre diversi parametri care au fost urmarite fie din necesitatea de a face un studiu anume fie, pur si simplu pentru ca urmarirea lor are importanta pentru indivizii la care au fost masurate sau pentru cel care face studiul, adica pentru medic. La fiecare individ s-au înregistrat poate mai multi parametri care sunt în anumite relatii de dependenta unii cu altii, fiecare dintre ei participând într-o anumita masura la edificarea specialistului atât în ceea ce priveste situatia individuala a pacientilor cât si a întregului lot. Tabelele din care este alcatuita o baza de date contin datele nesistematizate, ele urmeaza de obicei o ordine aleatorie, sau sunt ordonate dupa un criteriu cum ar fi cel alfabetic, sau în ordinea codurilor. Un exemplu, la care ne vom opri ceva mai mult este cel din tabelul 1.3.

Este un exemplu de tabel, care pentru simplitate nu are dacât câteva linii, adica înregistrari, si câteva coloane, adica câmpuri, cum se mai spune în limbajul uzual pentru programarea pe calculator. Tabelul este o mica parte dintr-un tabel mare în care au fost înregistrati un numar de peste 230 de pacienti cu afectiuni hepatice grave (ciroza hepatica, cancer hepatic, etc), tratati de-a lungul timpului în clinica de boli interne a Spitalului de Urgenta din Craiova. Întelesul câmpurilor este evident pentru aproape toate (Diag.= Diagnostic, H.A.V.= Daca pacientul a suferit în trecut de hepatita acuta virala). În câmpul H.A.V. se observa ca au fost înregistrate doar doua posibilitati: Y(da) = "pacientul a suferit de H.A.V. în trecut" si N(nu) pentru ceilalti. În multe programe de calculator este indicata folosirea lui "Y" si"N" în loc de "da" si "nu" (Y=yes, N=no, din limba engleza), deoarece aceste câmpuri sunt considerate de program câmpuri speciale, pe care noi le vom numi câmpuri de tip logic, si sunt tratate prin procedee speciale. Deci, vom numi câmpuri de tip logic, acele coloane pe care este natural ca datele sa fie introduse folosind "Da" si "Nu".

Tabelul 1.3. Modul de înregistrare a unor date despre pacienti (nume fictive)

De multe ori, numarul de linii al unui tabel cu date brute, adica al unei baze de date, este atât de mare, de ordinul sutelor sau miilor, încât însiruirea elementelor unei serii de valori (de exemplu seria vârstelor), este dificila si lipsita de semnificatie. De aceea se prefera folosirea tabelelor de frecventa în care se trec valorile diferite care apar în serie, în dreptul fiecareia precizându-se de câte ori apare acea valoare, sau frecventa de aparitie, sau frecventa absoluta a acelei valori. De exemplu, din 234 de pacienti cu afectiuni hepatice grave, vârstele au fost distribuite asa cum se observa în tabelul 1.4.

Tabelul 1.4 Tabelul de frecventa a vârstelor pentru 234 de pacienti

Nr	Vârsta	Frecventa absoluta *F_i*	Frecventa absoluta cumulata crescator *F_icc*	Frecventa relativa *f_i*	Frecventa relativa cumulata crescator *f_icc*














































	Total

Tabelul 1.5 Modul de calcul al valorilor cuprinse în tabelul de frecvente

Nr	Vârsta	Frecventa absoluta F_i	Frecventa absoluta cumulata crescator F_icc	Frecventa relativa f_i	Frecventa relativa cumulata crescator f_icc
		F₁	F_1cc=F₁=1	f₁=F₁/234=0.43%	f_1cc=f₁/234=0.43%
		F₂	F_2cc=F₁+F₂=2	f₂=F₂/234=0.43%	f_2cc=f₂/234=0.85%
		F₃	F_2cc=F₁+F₂+F₃=3	f₃=F₃/234=0.43%	f_3cc=f₃/234=1.28%
		F₄	F_2cc=F₁+F₂+F₃+F₄=5	f₄=F₄/234=0.85%	f_4cc=f₄/234=2.14%
		F₅	F_2cc=F₁+F₂+F₃+F₄+F₅=7	f₅=F₅/234=0.85%	f_5cc=f₅/234=2.99%
		F₆	Etc.	Etc.	Etc.

Se observa ca prin împartirea frecventelor de aparitie ale vârstelor la numarul de pacienti, se obtin frecventele relative care se exprima de obicei în procente.

Frecventele relative se calculeaza cu formula:

Este clar ca prin adunarea frecventelor absolute, se obtine numarul total de indivizi din tabel, în cazul nostru 234:

De asemeni, prin adunarea frecventelor relative (sau valorilor lor exprimate în procente), se obtine 1 (sau 100%):

În acest caz, cunoscând frecventle absolute, calculul mediei este facilitat pentru ca în loc de adunarea tuturor vârstelor, se poate calcula suma lor prin înmultirea fiecarei vârste care apare în tabel cu numarul de aparitii si apoi se aduna rezultatele. În cazul de mai sus sunt 46 frecvente absolute, corespunzatoare celor 46 vârste întâlnite între cei 234 de pacienti. Ele se noteaza cu F₁, F₂,.....,F₄₆. Notând si vârstele din cele 46 linii cu x₁, x₂,.....x₄₆, media vârstelor celor 234 de pacienti este:

În general, formula aceasta de calcul se numeste formula de calcul a mediei ponderate (vezi capitolul al doilea, indicatorul statisitc medie). Daca stim ca valorile x₁, x₂,.....x_m,se repeta fiecare cu frecventele absolute F₁, F₂,.....,F_m, media este:

Pe ultima coloana a tabelului de frecvente, apar asa-numitele frecvente relative cumulate crescator (f_icc). Frecventa relativa cumulata crescator, de pe o anumita linie, este suma frecventelor relative din celulele din coloana frecventelor relative, suma facându-se de la începutul tabelului si pâna la linia pe care se afla frecventa pe care o calculam.

Astfel, vom avea pentru frecvente relative cumulate crescator, formulele:

f_1cc=f₁

f_2cc=f₁+f₂

f_3cc=f₁+f₂+f₃

f_4cc=f₁+f₂+f₃+f₄

.............

f_mcc=f₁+f₂+f₃+.+f_m

Aceste formule ne ajuta sa gasim procentul de indivizi care au valoarea din serie sub o limita data. De exemplu, în tabelul 1.4, avem 32,48%% din indivizi sub 50 de ani, deoarece în dreptul valorii 50 pe coloana Vârsta, avem f_icc=32,48% care se obtine prin cumularea tuturor procentelor vârstelor sub 50 de ani, inclusiv 50.

Studiul seriilor de valori, asa cum este seria vârstelor de mai sus, pare la prima vedere rupt de contextul natural în care acestea apar, si anume în bazele de date. O serie de valori contine informatie care este legata de restul informatiei din baza de date, or, studiind-o separat, aceste legaturi se pierd. Totusi, asa cum se va vedea în capitolele ce urmeaza, rezultate utile pot fi obtinute abia dupa ce se clarifica suficient de bine cum se extrag informatiile dintr-o serie de valori luata de sine statator.

Tabelele de frecventa ca cel de mai sus dau de obicei o imagine despre distributie, dar nu totdeauna. De exemplu, cei 234 de pacienti cu afectiuni hepatice grave înregistrati, având vârste foarte variate, tabelul de frecvente ale acestor vârste are câteva zeci de linii, corespunzator celor câteva zeci de vârste diferite ale acestora. Mai util, în cazul vârstelor este clasificarea pacientilor pe grupe de vârsta de 5 sau 10 ani si alcatuirea unui tabel în care în dreptul fiecarei grupe de vârsta sa se înscrie numarul de pacienti din grupa respectiva, în acest fel obtinând de fapt o grupare mai sintetica a datelor. Iata cum arata distributia pe grupe de vârsta a pacientilor din baza de date de care am vorbit mai sus:

Tabelul 1.5 Tabelul de frecventa a vârstelor, pe grupe de vârsta de 10 ani,

pentru 234 de pacienti

Nr.	Clasa	*F_i*	*F_icc*	*F_icd*	*f_i*	*f_icc*	*f_icd*











	Total

Sa urmarim mai întâi cele câteva coloane noi care au aparut si sa încercam sa le subliniem la fiecare din ele utilitatea. Mai întâi sa amintim ca F_i, reprezinta frecventele absolute, sau numarul de indivizi care au vârstele cuprinse în limitele claselor respective. F_icc, sunt frecventele absolute, cumulate crescator, adica se obtin dupa formulele:

De exemplu, F_4cc = F₁ + F₂ + F₃ + F₄ = 5+6+9+26=46, asa cum se poate vedea în linia a patra a tabelului, pe coloana a patra. Sa remarcam ca aceste frecvente cumuleaza frecventele tuturor claselor, pâna la clasa curenta, si deci ele raspund la întrebari de tipul : "câti indivizi mai tineri decât 45 de ani sunt în seria de vârste"? Raspunsul se cauta în dreptul clasei 40-45 ani, adica în a patra clasa, pe coloana F_icc : 46.

Frecventele de tipul F_icd au o semnificatie analoga, cu diferenta ca se cumuleaza descrescator, la fiecare noua clasa se scade frecventa absoluta a clasei precedente, initial plecându-se de la numarul total de indivizi din lot, în acest caz, 234.

Frecventele relative f_i, sunt, asa cum am mai precizat, procentele fiecarei clase, luând întregul lot ca 100%, si se obtin ca raportul între frecventele absolute si numarul total de indivizi din lot, apoi fiind înmultite cu 100 pentru a se obtine procente. Frecventele f_icc si f_icd, sunt obtinute pe acelasi principiu ca si F_icc si F_icd, cu diferenta ca s-au cumulat crescator si respectiv descrescator, frecventele relative si nu cele absolute.

În sfârsit, câteva cuvinte despre intervalele care constituie clasele. Dupa cum se observa, din cauza faptului ca nu s-au înregistrat vârste decât numere întregi, clasele au o lungime usor de stabilit în mod natural: 25-30, 30-35, etc. În cazul variabilelor la care înregistrarea se face cu una sau doua zecimale, se obisnuieste ca acest lucru sa se reflecte în modul de alcatuire a claselor prin faptul ca se ia la dreapta intervalului una sau doua zecimale egale cu 9: [13 - 13,9]; [14 - 14,9]; etc pentru înregistrarea hemoglobinei, sau intervale care se termina în 99, sau chiar 999 pentru alte variabile. Strict matematic, acest mod de lucru nu este foarte corect, desi este foarte practic. Poate sa apara un caz în care într-o baza de date s-au prevazut intervalele [13 - 13,9] si [14 - 14,9] si dupa un timp ceva mai lung, aparate mai specializate sa dea un rezultat la o analiza de 13,92, care nu este încadrabil în nici una din clase. Corect este ca, de exemplu, o clasa sa fie reprezentata printr-un interval închis la stânga si deschis la dreapta, caz în care orice valoare ar apare ea este încadrabila în exact una din clase. De exemplu, daca hemoglobina la o serie de valori este cuprinsa între 9,6 si 15,9, clasele din 1 în 1 ar fi: [9 - 10), [10 - 11), [11 - 12), [12 - 13), [13 - 14), [14 - 15), [15 - 16). În acest fel, fiecare valoare din serie va intra exact în una din clase (intervale). Prima dintre clase, clasa [9 - 10), nu contine si valoarea 10, care este continuta de clasa urmatoare, si tot asa pentru fiecare clasa.

Intervalele trebuie sa acopere complet plaja posibila de valori ale variabilei si trebuie alese de asa maniera încât numarul de clase care rezulta sa nu fie nici prea mare nici prea mic, astfel ca aprecierea modului cum sunt datele distribuite sa fie cât mai usoara. Este recomandabil ca numarul de intervale pentru un astfel de tabel statistic sa fie de la câteva, pentru loturi de câteva zeci de indivizi, pâna la câteva zeci, daca lotul este foarte mare, de mai multe sute sau mii de indivizi.

De obicei, programele de calculator realizeaza aceste tabele dupa ce utilizatorul a furnizat lungimea clasei. Pentru a nu ajunge în situatii când un astfel de tabel are un numar total neindicat de clase, de obicei se calculeaza lungimea unei clase în asa fel încât numarul de clase sa fie cel dorit. Acest lucru se poate realiza daca se cauta cea mai mica si cea mai mare valoare din seria de date (notate mai jos cu min si max), si se ia ca lungime a unei clase, aproximativ rezultatul urmatorului calcul:

De exemplu, pentru tabelul de mai sus, cel mai tânar pacient are 26 de ani, iar cel mai vârstnic are 78, deci pentru a obtine 6 clase (numar de clase indicat pentru vârste de adulti), avem L= (78 - 26) / 6 = 8,6. Deci este indicat sa se ia clase de 10 ani, prin rotunjire. Daca însa se doresc mai multe clase, sa zicem 10, atunci obtinem: L = (78 - 26) / 10 = 5,2 si este indicat sa se ia clase din 5 în 5 ani. Prima clasa va fi [25,30), iar urmatoarele: [30, 35), [35, 40),..[75, 80).

Numarul de clase nu este neaparat 10, el se alege de fapt de catre cel care face calculul, astfel ca sa se piarda cât mai putina informatie, dar si numarul de clase sa nu fie prea mare caci atunci luam în considerare aspecte prea nesemnificative.

Ca regula generala, este bine sa se retina ca:

Se pierde cu atât mai multa informatie cu cât numarul de clase este mai mic

Un numar prea mare de clase duce la o ascundere a esentialului de catre aspectele nesemnificative

Întrucât cei care nu au experienta nu stiu cum sa aleaga numarul de clase, recomandam:

Pentru câteva zeci de valori, sa se aleaga maximum 6 - 8 clase

Pentru câteva sute de valori, sa se aleaga între 10 si 15 clase

Pentru câteva mii de valori, sa se aleaga peste 15 clase

Nu se recomanda folosirea a mai mult de 20 - 30 de clase decât în cazuri speciale, în studii cu multe mii de cazuri. Nici mai putin de 4 - 6 clase nu este recomandat sa se foloseasca. Nu se recomanda folosirea acestor tabele daca nu avem cel putin câteva zeci de valori. De exemplu, pentru o serie de 15 valori, nu se face un tabel de frecventa.

Alte exemple:

Daca avem de clasificat într-un tabel de incidenta valorile pentru hemoglobina, iar minimul este 8,13 iar maximul este 16,23, atunci, pentru a obtine 10 clase, vom face calculul:

În acest caz, vom rotunji la 1 si vom lua clasele din 1 în 1, începând de la 8: [8, 9), [9,10), [16,17).

În cazul Imunoglobulinei G, din cei 235 de pacienti din acelasi lot ca cel pentru vârste de mai sus, valoarea minima a fost 112, în timp ce maximul a fost 900. Daca dorim tot 10 clase, atunci calculul este

Vom lua clasele din 100 în 100, începând de la 100: [100,200), [200,300) .. [800,900), [900-1000).

Informatia sintetizata într-un astfel de tabel este deosebit de utila si este de multe ori completata prin reprezentarea grafica a ei care se face cu ajutorul histogramei. Se poate spune ca sintetizarea informatiei continuta de o serie de valori într-un tabel de frecventa, este primul pas în studiul datelor brute, adica asa cum au fost inregistrate. Aceasta "distilare" a valorilor se face cu o pierdere de informatie, dar ofera o imagine sintetica pe care nu o putem avea prin simpla trecere în revista a valorilor din serie. Metodele statistice au în general aceasta calitate, aceea ca, în schimbul pierderii de informatie care uneori este nesemnificativa, ofera mai multa claritate prin sintetizarea acestei informatii si scoaterea în evidenta a caracteristicilor esentiale ale seriei sau seriilor de valori pe care le avem de studiat.

Document Info

Accesari: 17672
Apreciat:

Comenteaza documentul:

Nu esti inregistrat
Trebuie sa fii utilizator inregistrat pentru a putea comenta

Creaza cont nou

A fost util?

Daca documentul a fost util si crezi ca merita
sa adaugi un link catre el la tine in site

Copiaza codul:
in pagina web a site-ului tau.

eCoduri.com - coduri postale, contabile, CAEN sau bancare

Politica de confidentialitate | Termenii si conditii de utilizare