SONDAJE STATISTICE
1 Tipuri de sondaje
Sondajul este o modalitate de investigare statistica foarte des utilizata in practica.
Cuvinte cheie:
POPULATIE – totalitatea elementelor supuse cercetarii statistice
ESANTION - o parte a populatiei selectata pentru studiu
PARAMETRU – indicator la nivelul populatiei
STATISTICA – indicator la nivelul esantionului
Avantajele sondajului:
Avantajul costului
Avantajul timpului obtinerii rezultatelor
Avantajul acuratetii rezultatelor
Avantajul utilizarii in conditiile in care observarea totala este imposibila
Tipuri de sondaje:
Sondaje dirijate
Sondaje probabilistice
sondaj simplu aleator – repetat/nerepetat
sondaj stratificat
sondaje cluster
2. Intervale de incredere
Pentru selectia simpla cu revenire: .
Pentru selectia simpla cu revenire: .
Verificarea ipotezelor statistice
Concepte si erori in testarea ipotezelor statistice
In statistica, ipotezele apar intotdeauna in perechi: ipoteza nula si ipoteza alternativa. Ipoteza statistica ce urmeaza a fi testata se numeste ipoteza nula si este notata, uzual, H0. Ea consta intotdeauna in admiterea caracterului intamplator al deosebirilor, adica in presupunerea ca nu exista deosebiri esentiale. Respingerea ipotezei nule care este testata implica acceptarea unei alte ipoteze. Aceasta alta ipoteza este numita ipoteza alternativa, notata H1. Cele doua ipoteze reprezinta teorii, mutual exclusive si exhaustive, asupra valorii parametrului populatiei sau legii de repartitie. Spunem ca ele sunt mutual exclusive deoarece este imposibil ca ambele ipoteze sa fie adevarate. Spunem ca ele sunt exhaustive, deoarece acopera toate posibilitatile, adica ori ipoteza nula, ori ipoteza alternativa trebuie sa fie adevarata.
Procedeul de verificare a unei ipoteze statistice se numeste test sau criteriu de semnificatie. O secventa generala de pasi se aplica la toate situatiile de testare a ipotezelor statistice. Ipotezele se vor schimba, tehnicile statistice aplicate se vor schimba, dar procesul ramane acelasi si anume:
Cand ipoteza nula nu poate fi respinsa (nu exista suficiente dovezi pentru a fi respinsa), sunt doua posibilitati: ipoteza nula este adevarata si ipoteza nula este totusi falsa, gresita desi nu am respins-o. De aceea, este mai corect sa spunem ca pe baza datelor din esantionul studiat, nu putem respinge ipoteza nula, decat sa spunem ca ipoteza nula este adevarata.
Eroarea pe care o facem eliminand o ipoteza nula, desi este adevarata, se numeste eroare de genul intai. Probabilitatea comiterii unei astfel de erori reprezinta riscul de genul intai (α) si se numeste nivel sau prag de semnificatie.
Nivelul de incredere al unui test statistic este (1-α) iar in expresie procentuala, (1-α reprezinta probabilitatea de garantare a rezultatelor.
Eroarea pe cere o facem acceptand o ipoteza nula, desi este falsa, se numeste eroare de genul al doilea, iar probabilitatea (riscul) comiterii unei astfel de erori se noteaza cu β. Puterea testului statistic este (1-β).
Ipoteza alternativa poate avea una din trei forme (pe care le vom exemplifica pentru testarea egalitatii parametrului „media colectivitatii generale“, μ cu valoarea μ0):
i) sa testam daca parametrul din colectivitatea generala (media μ) este egal cu o anumita valoare (inclusiv zero, μ0), cu alternativa media diferita de valoarea μ0. Atunci:
H0: μ = μ0
H1: μ ≠ μ0 (μ < μ0 sau μ > μ0);
si acest test este un test bilateral;
ii) sa testam ipoteza nula μ = μ0, cu alternativa media μ este mai mare decat μ0.
H0: μ = μ0
H1: μ > μ0
care este un test unilateral dreapta;
iii) sa testam ipoteza nula μ = μ0, cu alternativa media μ este mai mica decat μ0.
H0: μ = μ0
H1: μ < μ0
care este un test unilateral stanga.
Regiunea critica pentru testul bilateral difera de cea pentru testul unilateral. Cand incercam sa detectam o diferenta fata de ipoteza nula, in ambele directii, trebuie sa stabilim o regiune critica Rc in ambele cozi ale distributiei de esantionare pentru testul statistic. Cand efectuam un test unilateral, vom stabili o regiune critica intr-o singura parte a distributiei de esantionare, astfel (vezi fig.):
μ μ
a) b) c)
Regiunea critica pentru a) test bilateral; b) test unilateral stanga; c) test unilateral dreapta
Testarea ipotezei privind media populatiei generale (μ) pentru esantioane de volum mare
Utilizarea esantioanelor de volum mare (n > 30) face posibila aplicarea teoremei limita centrala. Dupa cum am vazut, putem intalni teste unilaterale sau bilaterale, astfel:
i) in cazul testului bilateral, ipotezele sunt:
H0: μ = μ0 (μ - μ0=0)
H1: μ ≠ μ0 (μ - μ0≠0) (adica μ < μ0 sau μ > μ0);
Testarea se face pe baza mediei esantionului si, pentru a o efectua, este nevoie sa construim un test cu un nivel de semnificatie α prestabilit. Utilizand teorema limita centrala am vazut ca daca volumul esantionului este mare, media esantionului este aproximativ normal distribuita. De aceea, variabila aleatoare z urmeaza o distributie normala standard.
Daca pragul de semnificatie (α) este stabilit, putem determina valoarea zα/2, pentru care P(z> z α/2)= α/2. Aceasta inseamna ca regiunea critica Rc este data de:
Rc: z< - z α/2 sau z> z α/2
Regula de decizie este, deci:
Respingem H0 daca
sau
Exemplu: Presupunem ca un fabricant de materiale de constructii comercializeaza ciment in pungi, care trebuie sa contina 12 kg/punga. Pentru a detecta eventuale abateri in ambele sensuri de la aceasta cantitate, selecteaza 100 de pungi, pentru care calculeaza kg, sx= 0,5 kg. Pentru α = 0 (grad de incredere (1- α)100=99%) sa se determine daca se accepta ipoteza nula, aceea ca greutatea pungilor este in medie de 12 kg.
H0: μ = 12
H1: μ ≠ 12 < 12 sau μ > 12);
z α/2=z0,005=2,575
Regiunea critica: z< - z α/2 sau z> z α/2
Cum z = - 3 < - 2,575 rezulta ca sunt suficiente evidente pentru a respinge ipoteza nula H0 si a accepta ipoteza alternativa, aceea ca greutatea pungilor difera, in medie, de 12 kg.
ii) pentru testul unilateral dreapta, ipotezele sunt:
H0: μ = μ0 (μ - μ0=0)
H1: μ > μ0 (μ - μ0>0);
Testul statistic calculat este:
Regiunea critica este data de:
Rc: z > zα
Regula de decizie este:
Respingem ipoteza H0 daca
iii) Pentru testul unilateral stanga, ipotezele sunt:
H
H : μ < μ0 (μ - μ0<0);
Testul statistic calculat este:
Regiunea critica este data de:
Rc: z < –zα
Regula de decizie este:
Respingem ipoteza H0 daca
Sa remarcam ca in nici una dintre aceste situatii nu trebuie facuta o presupunere speciala, deoarece teorema limita centrala ne asigura ca testul statistic va fi aproximativ normal distribuit, indiferent de forma distributiei din colectivitate.
Teste pentru esantioane de volum redus
In afaceri, multe decizii trebuie luate pe baza unor in-formatii foarte limitate, adica pe baza datelor provenite din esantioane mici (de volum redus, n≤30). In aceste situatii, efectul imediat este acela ca forma distributiei de esantionare a mediei depinde, acum, de forma populatiei generale din care a fost extras esantionul. In cazul esantionului de volum redus se utilizeaza testul statistic t. Distributia de esantionare a lui va fi normala (sau aproximativ normala), in cazul esantioanelor de volum redus, doar daca colectivitatea generala este distribuita normal (sau aproximativ normal).
Pe de alta parte, daca nu se cunoaste dispersia din colectivitatea generala (), atunci dispersia esantionului (), poate sa nu ofere o aproximare foarte buna a lui (in cazul esantioanelor mici). Ca atare, in locul statisticii z care necesita cunoasterea (sau o buna aproximare) a lui , vom folosi statistica:
,
unde: .
Elementele procesului de testare a ipotezelor statistice privind media colectivitatii generale (μ) pe baza datelor din esantioane de volum redus, devin atunci:
- pentru test bilateral;
H0: μ = μ0,
H1: μ ≠ μ0 (μ < μ0 sau μ > μ0);
- pentru test unilateral dreapta;
H0: μ = μ0,
H1: μ > μ0,
- pentru test unilateral stanga;
H0: μ = μ0,
H1: μ < μ0.
Testul statistic utilizat:
.
Presupunerea speciala ce trebuie facuta este aceea ca populatia generala este normal sau aproximativ normal distribuita.
Regiunea critica este data de:
i) t > t α/2,n-1 sau t < - t α/2,n-1,
ii) t > t α,n-1,
iii) t < - t
α,n-1.
Exemplu
Exemplu:
Conducerea unei companii apeleaza la 5 experti pentru a previziona profitul companiei in anul curent. Valorile previzionate sunt: 2,60; 3,32; 1,80; 3,43; 2,00 (miliarde lei, preturile anului anterior).
Stiind ca profitul companiei in anul anterior a fost de 2 mld. lei, sunt suficiente dovezi pentru a concluziona ca media previziunilor expertilor este semnificativ mai mare decat cifra anului anterior (pentru α = 0,05)?
Media previziunilor expertilor este mld. lei, cu dispersia:
si abaterea medie patratica:
mld. lei.
Elementele procesului de testare a ipotezei statistice sunt:
H0: μ = 2 ,
H1: μ > 2 (test unilateral dreapta).
.
In scopul folosirii statisticii t, vom face presupunerea ca populatia generala din care s-a extras esantionul este normal distribuita.
Cum tα,n-1 = t0,05;4 = 2,132, regiunea critica este data de t>tα,n-1. Cum t=1,874< t0,05;4=2,132, nu putem trage concluzia ca media profitului previzionata de cei 5 experti pentru anul curent este semnificativ mai mare decat profitul anului trecut, de 2,01 mld. lei.
|