ELEMENTE DE STATISTICĂ BIOLOGICĂ
1. Prezentare
Statistica matematica este ramura matematicii aplicate care are drept obiectiv culegerea, înregistrarea, gruparea, analiza si interpretarea datelor referitoare la un anumit fenomen în vederea obtinerii unor previziuni despre evolutia ulterioara a fenomenului respectiv.
Primele notiuni de statistica le întâlnim la începutul erei noastre cu ocazia numararii unor obiecte. Din sec. al XVIII-lea statistica se dezvolta ca stiinta de sine statatoare, metodele ei folosind la descrierea diferitelor trasaturi ce caracterizau statul. La începutul sec. XX, pe baza Teoriei Probabilitatilor, s-au dezvoltat metode de analiza statistica si de testare a ipotezelor statistice. Astfel, Statistica devine un puternic instrument matematic pentru descoperirea legilor ce guverneaza stiintele naturii, tehnica moderna etc., prin contributiile remarcabile ale renumitilor matematicieni: F. Galton, K. Pearson, R. Fisher, W. Gosset, F. Gause, O. Onicescu, Gh. Mihoc si multi altii.
Parte integranta a statisticii matematice este si statistice biologica, denumita de K. Pearson biometria. Este stiinta care aplica metodele statistice la studiul multiplelor aspecte ale vietii. Studierea fenomenelor ce apar în cazul fiintelor vii este incontestabil mai greu de realizat decât în cazul celor tipice (lumea anorganica). În biologie foarte multi factori care intervin în studiul fenomenelor nu pot fi influentati de cercetator (de exemplu efectul vremii asupra cultivarii plantelor). În medicina unele experimente sunt excluse din motive etice si atunci totul se bazeaza numai pe observatii. Dificultatile si atractia biometriei au condus la aplicarea metodelor statistice cele mai adecvate pentru problemele legate de realitate.
2. Concepte statistice fundamentale
2.1. Populatia statistica (populatia biologica)
2.2. Selectia statistica sau esantionul
2.1. Populatie statistica se defineste ca o multime de elemente ce urmeaza a fi supusa unor pre-
lucrari statistice, având un anumit numar de trasaturi esentiale comune, numite caracteristici.
Populatia biologica se defineste ca multimea indivizilor care ocupa acelasi areal, au aceeasi
amplitudine de variatie a ereditatii, se reproduc în acelasi mod si au suferit aceeasi actiune a
selectiei.
Elementele ce compun populatiile statistice se numesc unitati statistice, iar ale unei populatii biologice indivizi. Trasatura esentiala comuna a tuturor indivizilor unei populatii biologice se numeste caracteristica.
Exemple:
a) Daca se studiaza numarul locuitorilor din orasele tarii noastre, la o anumita data, atunci:
populatia statistica: multimea oraselor din
unitatea statistica: fiecare oras de pe teritoriul tarii noastre
caracteristica: numarul de locuitori din fiecare oras
b) Daca se studiaza rezultatele obtinute la testul de informatica a anului I MV atunci:
populatia statistica: multimea studentilor anului I MV
unitatea statistica: fiecare student
caracteristica: nota obtinuta la test
c) Daca se studiaza înaltimea si greutatea viteilor dintr-o ferma zootehnica atunci:
populatia statistica: multimea viteilor din ferma
unitatea statistica: fiecare vitel
caracteristica: înaltimea sau greutatea
2.2. Selectia statistica sau esantionul
Studiul statistic asupra unei populatii biologice se poate face luând date despre fiecare individ sau numai despre un numar restrâns de indivizi, alesi la întâmplare, din populatie. Se recurge la acest din urma caz atunci când populatia cuprinde un numar foarte mare de indivizi sau când nu se dispune de întreaga populatie. Din aceste considerente se extrage din populatie o subcolectivitate numita selectie statistica sau esantion.
Alegerea esantionului se face printr-unul din cele doua moduri: aleator si reprezentativ.
Alegerea aleatoare este aceea în care fiecare individ are aceeasi probabilitate de a face sau nu parte din selectie. Selectarea se face conform tabelei cu numere aleatoare.
Alegerea reprezentativa se aplica daca populatia studiata poate fi împartita în parti, în mod unic; din fiecare parte se alege la întâmplare un numar de indivizi proportional cu marimea partii, care luati apoi toti împreuna vor forma esantionul.
Volumul esantionului, adica numarul "n" de indivizi din esantion se determina în asa fel încât rezulotatele obtinute sa fie cât mai exacte cu costuri cât mai mici posibile.
Observatie Statistica biologica cuprinde metode prin care concluziile desprinse în urma
studiului unui esantion pot fi extinse la întreaga populatie biologica.
3. Metode de prezentare a datelor statistice
3.1. Prezentarea datelor statistice sub forma de tabel
3.2. Prezentarea datelor statistice sub forma de grafice
Componenta statisticii matematice care se ocupa cu planificarea experimentelor, culegerea datelor asupra caracteristicilor urmarite si înregistrarea lor se numeste statistica descriptiva.
Planificarea experimentelor trebuie respectata cu foarte mare strictete, evitându-se cheltuielile inutile. Datele sau valorile obtinute din experimente se culeg în functie de marimea esantionului si de numarul de caracteristici studiate. Ele se înregistreaza pe fise sub forma de liste, diagrame sau pe suport magnetic (banda magnetica, discheta, hard-disk etc.) în vederea prelucrarilor statistice viitoare.
Datele sau valorile, în functie de caracteristica urmarita, pot fi:
masuratori; ex. dimensiunea, greutatea etc.
numaratori; ex. nr. de seminte, nr. de petale etc.
analize de laborator; ex. continutul de grasimi, continutul de substante proteice etc.
si se pot reprezenta sub forma de tabele si sub forma de grafice.
Prezentarea datelor statistice sub forma de tabel
Consideram x1,x2,x3, ... ,xn valorile obtinute asupra caracteristicii studiate, în cazul unui esantion. Dintre aceste n valori, cât reprezinta volumul esantionului, unele se pot repeta. Numarul de repetari a unei valori xi se numeste frecventa absoluta si se noteaza cu ni. Raportul dintre frecventa absoluta ni si volumul esantionului n se numeste frecventa relativa a valorii xi si se noteaza cu: fi = ni/n.
Valorile distincte xi ( i=1,2, ...,k) ordonate crescator, împreuna cu frecventele lor corespunzatoare (absoluta si relativa) se trec într-un tabel numit repartitie statistica.
Repartitia statistica sau repartitia de frecventa se prezinta sub forma unui tabel astfel:
xi ni fi
x1 n1 f1
x2 n2 f2
x3 n3 f3
... ... ...
xk nk fk
Σ nk =n Σ fk =1
Pentru ca valorile distincte xi ( i=1,2, ...,k) se refera la o singura caracteristica a esantionului se spune ca este o repartitie statistica unidimensionala. Daca într-o asemenea repartitie statistica frecventele absolute cresc pâna la o anumita valoare si apoi descresc la fel se spune ca suntem în cazul unei repartitii statistice simetrice.
Gruparea datelor
Volumul esantionului studiat poate depasi numarul de 50. În aceste cazuri valorile vor fi grupate în intervale de numere numite clase. Pentru fiecare clasa se va stabili valoarea xi si frecventa relativa fi sau frecventa absoluta ni. Cu valorile claselor se va constitui repartitia statistica.
Împartirea datelor în clase presupune sa se determine urmatoarele elemente:
numarul claselor, notat cu k si calculat cu formulele: k = 5 log n sau k = 1+3.22 lg n
lungimea intervalului de clasa, rotunjita prin calcul la numar întreg I= xmax - xmin/k
capetele sau limitele claselor: l =limita inferioara si L=limita superioara
l = xmin ; L = l + I
valoarea xi din fiecare clasa, care poate fi valoarea medie a clasei sau valoarea centrala
valoarea frecventei absolute ni a fiecarei clase, obtinuta prin însumarea frecventelor absolute ale valorilor clasei respective
Elementele stabilite mai sus se trec în urmatoarea repartitie statistica cu date grupate:
clasele xm ni fi
l1, l1+I xm1 n1 f1
l1+I, l1+2I xm2 n2 f2
... ... ... ...
xmk nk fk
Σ nk =n Σ fk =1
Exemplu: Greutatea (în kg) a 100 vitei, la nastere, este prezentata sub forma unei liste astfel:
|
|||||||||
Datele se scriu ordonate crescator, dupa valorile distincte si frecventele absolute, în tabel:
xi |
ni |
xi |
ni |
|
|||
Pentru a scrie repartitia statistica cu date grupate se calculeaza:
numarul claselor k = 5 lg100 = 10
intervalul de clasa: I = xmax - xmin/k = (45-23)/10 = 2
limitele claselor: l = 23; L = 25
valoarea xi a fiecarei clase ca fiind valoarea medie
valoarea ni a fiecarei clase obtinuta prin însumare
valoarea fi a fiecarei clase obtinuta prin împartirea la 100
Repatitia statistica simetrica cu date grupate, pentru exemplu dat, este urmatoarea:
Clasele xm ni fi
[23,25] 24 1 0.01
[25,27] 26 4 0.04
[27,29] 28 8 0.08
[29,31] 30 12 0.12
[31,33] 32 16 0.16
[33,35] 34 21 0.21
[35,37] 36 14 0.14
[37,39] 38 11 0.11
[39,41] 40 7 0.07
[41,43] 42 3 0.03
[43,45] 44 3 0.03
Σ ni = 100 Σ fi = 1
3.2. Prezentarea datelor statistice sub forma de grafice
Datele unei repartitii statistice devin mai sugestive vizual daca se reprezinta grafic sub forma de:
poligonul frecventelor
histograma
ogiva
Poligonul frecventelor este graficul corespunzator datelor negrupate în clase. Se obtine luând pe axa Ox punctele de abscisa xi; se ridica în aceste puncte perpendicularele de marimi egale sau proportionale cu frecventele absolute ni sau frecventele relative fi; se unesc vârfurile perpendicularelor.
Exemplu: Se considera repartitia statistica unidimensionala:
y
xi ni .
6.0 3
6.5 5 .
7.0 8
7.5 7 .
8.0 4
8.5 1
O . . . . . . x
6 6.5 7 7.5 8 8.5
Histograma este graficul corespunzator datelor grupate în clase, sub forma unor dreptunghiuri asezate pe axa Ox, a caror latime este marimea intervalului de clasa si lungimea este valoarea frecventei absolute sau relative a clasei respective.
Exemplu: Se considera repartitia statistica unidimensionala:
xi ni y
25 1
30 5
35 8
40 20
45 35
50 65
55 32
60 17
65 10
70 6
75 1
O x
Ogiva: reprezinta curba frecventelor cumulate; în repartitia statistica se mai completeaza o coloana cu valorile frecventelor absolute cumulate, notata cni. Luând pe axa Ox punctele de abscisa xi, ridicând perpendicularele în aceste puncte de marime egala cu frecventele absolute cumulate Cni si unind vârfurile perpendicularelor se obtine graficul numit curba frecventelor absolute cumulate sau ogiva.
Indicatori ai repartitiilor statistice unidimensionale
Pentru analiza statistica a unui fenomen si formularea concluziilor privind legea careia i se supune fenomenul studiat nu sunt suficiente doar gruparea datelor esantionului, alcatuirea repartitiei statistice si reprezentarea sa grafica. Este necesar ca datele, în numar suficient de mare, sa fie sintetizate într-un indicator care sa dea informatii în ce priveste variatia valorilor sirului statistic.
În prelucrarile statistice se folosesc urmatoarele categorii de indicatori:
indicatori de pozitie
indicatori ai variatiei
indicatorul asimetriei
indicatorul excesului
4.1. Indicatori de pozitie
Analizând datele obtinute dintr-un esantion se observa ca desi au diverse valori exista totusi o tendinta de grupare a datelor în jurul unei anumite valori centrale a repartitiei. Orice marime care da informatii asupra pozitiei valorilor principale ale repartitiei statistice se numeste indicator de pozitie. Dintre indicatorii de pozitie enumeram si definim urmatorii:
media
mediana
valoarea modala
4.1.1. Media repartitiei statistice
a) Consideram x1,x2,x3, ... ,xn valorile distincte obtinute asupra caracteristicii studiate la un esantion de volum n. Marimea notata cu xa si calculata dupa formula:
xa = se numeste media aritmetica a valorilor esantionului
Retinem: x1 < xa < xk
b) Cel mai adesea, valorile obtinute asupra caracteristicii nu sunt distincte, reprezentându-se sub forma repartitiei statistice unidimensionale:
xi ni
x1 n1 În acest caz media aritmetica a valorilor esantionului este
x2 n2 calculata dupa formula:
x3 n3
... ... xa =
xk nk
Σ nk = n
c) Pentru cazul repartitiilor statistice cu date grupate pe clase, media aritmetica se calculeaza:
xa = xmin + I
unde: xmin = limita inferioara (valoarea minima); I = intervalul claselor; n = volum esantion
În cazul unor esantioane, la care valorile caracteristicilor prezinta un ritm de crestere uniform (cum ar fi cel al diviziunii celulare), cel mai adecvat indicator de pozitie este media geometrica.
a) Consideram x1,x2,x3, ... ,xn valorile distincte obtinute asupra caracteristicii studiate; în acest caz media geometrica este data de urmatoarea formula:
xg = si se calculeaza prin logaritmare: log xg =
adica logaritmul mediei geometrice este egal cu suma logaritmilor valorilor distincte
b) Consideram valorile esantionului reprezentate sub forma repartitiei statistice urmatoare:
xi ni
x1 n1 În acest caz media geometrica a valorilor esantionului este
x2 n2 calculata dupa formula:
x3 n3
... ... xg =
xk nk unde la fel prin logaritmare se poate calcula mai usor
Σ nk = n log xg =
4.1.2. Mediana repartitiei statistice
a) Consideram x1,x2,x3, ... ,xn valorile distincte ale sirului statistic, ordonate crescator.
Se defineste mediana acea valoare distincta din sir care-l împarte în doua siruri egale ca numar, spre stânga si spre dreapta. Se noteaza cu Me. Daca volumul esantionului este:
numar impar n = 2k+1, atunci rezulta Me = xk+1
numar par n = 2k, atunci rezulta Me = (xk + xk+1)/2
b) Mediana se calculeaza la fel si în cazul datelor reprezentate prin repartitie statistica
c) Pentru cazul repartitiilor statistice cu date grupate pe clase, mediana apartine clasei mediane si se calculeaza cu ajutorul formulei:
Me = xe + I
unde: xe = limita inferioara a clasei mediane
I = intervalul de clasa
ne = frecventa absoluta a clasei mediane
So = n/2
Clasa mediana se determina astfel: se calculeaza frecventele cumulate Cni pâna ce se obtine o valoare notata cu So si egala sau mai mica decât n/2 (unde n este volumul esantionului).
pentru So = n/2 clasa mediana este cea în dreptul careia s-a realizat valoarea respectiva
pentru So < n/2 clasa mediana este cea imediat urmatoare celei în dreptul careia s-a realizat valoarea respectiva
4.1.3. Valoarea modala (modul) a repartitiei statistice
a) În cazul sirului statistic cu valori distincte nu se pune problema valorii modale
b) În cazul datelor reprezentate prin repartitie statistica se defineste valoarea modala acea valoare care corespunde frecventei absolute celei mai mari. Se noteaza cu Mo. În cazul ca frecventa absoluta cea mai mare corespunde mai multor valori xi atunci repartitia statistica se numeste plurimodala.
c) Pentru cazul repartitiilor statistice cu date grupate pe clase, valoarea modala apartine clasei modale si se calculeaza cu ajutorul formulei:
Mo = xo + I
unde: xo = limita inferioara a clasei modale
I = intervalul de clasa
ne = frecventa absoluta a clasei modale
n+1 = frecventa absoluta a clasei dupa cea modala
n-1 = frecventa absoluta a clasei dinaintea celei modale
Observatie În cazul repartitiilor simetrice media, mediana si valoarea modala au valori
apropiate. Indicatorii de pozitie explicitati reprezinta tendinta centrala de grupare a
valorilor repartitiei statistice.
4.2. Indicatori ai variatiei
Pentru o caracterizare mai precisa a valorilor statistice a le unui esantion este necesar sa se cunoasca modul de grupare a valorile distincte în jurul valorii medii, cu alte cuvinte care este dispersia sau împrastierea valorilor distincte în jurul valorii medii.
Indicatorii care masoara variatia valorilor distincte în jurul mediei aritmetice se numesc indicatori ai variatiei. Dintre indicatorii variatiei explicitam:
amplitudinea
varianta (dispersia)
abaterea standard (deviatia sau eroarea standard)
coeficientul de variatie
4.2.1. Amplitudinea variatiei
Indicatorul este masura cea mai simpla a dispersiei. Se defineste ca diferenta dintre valoarea individuala cea mai mare si cea mai mica a sirului statistic; se noteaza cu R si este:
R = xmax - xmin
Utilitatea indicatorului este redusa pentru ca foloseste valorile extreme, care pot fi întâmplatoare si nu reflecta împrastierea celorlalte valori
4.2.2. Varianta (dispersia)
Consideram valorile distincte x1, x2, ..., xn ale caracteristicii esantionului; se calculeaza media aritmetica a acestor valori xa; se calculeaza diferentele xi-xa numite abateri; se calculeaza patratul abaterilor: (xi-xa)2; se face suma patratelor abaterilor si rezultatul se împarte la n-1; valoarea obtinuta se numeste varianta
a) În cazul sirului statistic cu valori distincte, varianta, notata cu s2 se calculeaza dupa formula:
s2 = sau dupa efectuarea calculelor s2 =
b) În cazul datelor reprezentate prin repartitie statistica formula variantei este:
s2 = , obtinuta din formula precedenta luând în cosiderare frecventele absolute ni ale valorilor statistice.
Observatie Daca varianta calculata are valoare:
mica aceasta indica o grupare strânsa a valorilor caracteristicii esantionului în jurul valorii medii
mare aceasta indica o împrastiere a valorilor individuale fata de valoarea medie, adica esantionul prezinta o mare variabilitate (în bilogie înseamna diversitate, neasemanarea indivizilor dintr-o grupa)
4.2.3. Abaterea standard (deviatia sau eroarea standard)
Indicatorul, numit si abatere medie patratica, notat cu s si calculat dupa formula:
s =
ne arata, în aceleasi unitati de masura ca si ale valorilor distincte, cu cât se abat în medie valorile distincte fata de media lor. Se foloseste la determinarea intervalului de încredere de forma:
(xa - s, xa + s) unde se afla majoritatea valorilor caracteristicilor studiate din esantion.
4.2.4. Coeficientul de variatie (coeficientul de împrastiere)
Abaterea standard fiind un indicator absolut al dispersiei (deci are aceeasi dimensiune ca si variabila studiata) nu este posibil sa comparam între ele doua sau mai multe repartitii statistice (X,Y, ...) în ceea ce priveste variatia lor. Comparatia este posibila daca vom calcula coeficientul de variatie cu ajutorul formulei:
c.v.% =
Cu cât c.v.% al unei repartitii statistice este mai mic cu atât variatia repartitiei statistice este mai mica. In biologie repatitiile statistice cu:
c.v.% < 10% prezinta variatie mica
c.v.% între 10% si 20% prezinta variatie mijlocie
c.v.% > 20% prezinta variatie mare
|