PROBLEMA DATELOR IN STATISTICA
Dincolo de orice studiu sau abordare metodologica, trebuie sa acordam o atentie deosebita datelor folosite, consistentei acestora precum si gradului de adecvare la problema particulara.
Datele sint materialul de lucru al statisticianului, fiind deopotriva obiect si subiect al muncii sale.
De cele mai multe ori acuratetea datelor constituie o problema, nu modelul teoretic ce trebuie folosit intr-un caz particular.
1.1. Tipuri de date
In general, dupa structura, avem de-a face cu urmatoarele tipuri de date:
date transversale(cross-sectional)
date de tip panel
serii de timp.
Datele transversale(cross-sectional) – reprezinta un esantion aleator de informatii extrase la un anumit moment de timp.
Exemplu: Date cross-sectional referitoare la salariu si alte caracteristici individuale
Obs. |
Salariu (lei) |
Educatie (ani de scoala) |
Experienta (ani de munca) |
Gen (F=1, M=0) |
Statut (Casatorit=1) |
Panel Data
Sunt selectate aleator date cross sections la diferite perioade de timp.
Putem urmari acelasi esantion in timp– sunt numite panel data sau longitudinal data.
Exemplu: Situatia criminalitatii intr-un oras
Obs. |
Oras |
Anul |
Crime |
Populatie |
Politisti |
| |||||
Seria de timp prezinta date pentru fiecare perioada de timp.
Nu reprezinta un esantion aleator.
Trendul si sezonalitatea sunt importante .
Exemplu: Indicatori macroeconomici la nivelul unei economii nationale
Obs. |
Anul |
Rata inflatiei(%) |
PIB/locuitor (sute euro) |
Rata somajului(%) |
Rata consumului(%) |
De asemenea, dupa caracterul masurabil avem de-a face cu date numerice si date nenumerice.
Printre furnizorii oficiali de date la nivel macroeconomic enumeram Institutul National de Statistica[1], Banca Nationala a Romaniei , EUROSTAT etc.
In cazul in care avem de-a face cu date de alta natura decit cele furnizate de statistica oficiala, se organizeaza anchete specifice pentru obtinerea acestor date.
In ceea ce priveste acuratetea datelor, trebuie avute in vedere chestiuni specifice precum: erorile de masurare, erorile de reprezentativitate, influenta agregarii etc.
1.2. Metode de culegere a datelor
Printre principalele metode de culegere a datelor amintim: recensamintul, rapoartele statistice, sondajul statistic, ancheta statistica, monografia.
In ultima vreme se recurge tot mai des la sondajul statistic si ancheta statistica.
1.3. Metode de prezentare a datelor
In general, pentru prezentarea datelor statistice se folosesc tabele statistice, adeseori fiind folosita gruparea datelor pe intervale egale(vezi bibliografia).
O alta modalitate de reprezentare a datelor statistice este seria de distributie:
,
unde Xi sint valorile variabilei studiate, iar ni sint frecventele absolute, adica numarul de
aparitii ale fiecarei valori.
De asemenea, putem avea reprezentarea cu frecvente relative sau probabilitati empirice: unde este probabilitatea de aparitie a valorii .
Modul cel mai frecvent de reprezentare grafica a distributiilor il constituie histograma, care vizualizeaza legatura dintre valori si frecvente.
Histograma ofera informatii privind forma distributiei, omogenitatea acesteia, precum si caracterul de normalitate.
|