UNIVERSITATEA
DE sTIINŢE AGRICOLE sI MEDICINĂ VETERINARĂ
Prelucrarea datelor statistice în cercetarea de Marketing cu SPSS sub Windows
~îndrumar de lucrari practice pentru studentii agronomi ~
CUPRINS
Nr. |
CAPITOL |
PAG. |
Cuvânt înainte | ||
Introducere | ||
Interfata programului SPSS | ||
Introducerea datelor statistice | ||
Transferul unei variabile | ||
Selectarea unor subiecti folosind comanda SELECT CASES | ||
Sistematizarea datelor în SPSS | ||
Tabelul de asociere (Crosstabs) | ||
Elementele unui grafic | ||
Distributii statistice | ||
Calculul indicatorilor tendintei centrale ,dispersiei si formei unei distributii | ||
Parametrii unei distributii bivariate (bidimensionale) | ||
Verificarea normalitatii unei distributii folosind SPSS | ||
Calculul indicatorilor statisticii descriptive | ||
Calculul probabilitatilor pentru distributii normale folosind SPSS | ||
Estimarea prin interval de încredere | ||
Demersul testarii unei ipoteze statistice | ||
Testarea egalitatii unei medii cu o valoare specificata | ||
Testarea egalitatii mediilor a doua esantioane perechi | ||
Testarea egalitatii mediilor a doua esantioane independente (Independent Samples T Test) | ||
Testarea egalitatii a trei si mai multe medii | ||
Testarea egalitatii unei proportii cu o valoare specificata (Binomial Test) | ||
Testarea egalitatii a doua si mai multe proportii | ||
Analiza de corelatie | ||
ANEXA |
Cuvânt înainte
Dragi studenti,
Îndrumarul de fata a fost conceput pentru a va ajuta în reamintirea si fixarea cunostintelor, dobândite de voi în cadrul seminariilor la disciplina Marketing, menite a va familiariza cu mijloacele moderne de prelucrare a datelor culese în urma cercetarilor de piata si nu numai. Asadar îndrumarul nu-si propune sa suplineasca, o eventuala absenta a dumneavoastra de la aceste seminarii, asimilarea informatiilor prezentate fiind dificila fara asistenta cadrului didactic.
De asemenea, lucrarea nu insista asupra notiunilor fundamentale de statistica, care v-au fost predate la cursul de profil din anul III. Ar putea fi necesara deci, revizuirea acestor cunostinte acolo unde este cazul.
Îndrumarul a fost conceput urmarind structura seminariilor predate studentilor din anul V de la profilurile IEA si IMAPA, folosind pentru alcatuirea bazelor de date, chiar chestionarele culese de acestia în practica de vara.
În speranta ca scopul didactic al acestui caiet va fi realizat, va uram spor la învatat si multa bafta în sesiune !
Autorii
1. INTRODUCERE
SPSS (Statistical Package for the Social Sciences) este unul dintre cele mai puternice si utilizate programe de prelucrare a datelor statistice (asa numitul data mining) precum si a alcatuirii de prognoze. Soft-ul a fost creat în anii '60 de compania SPSS în a carei obiect de activitate este realizarea de software pentru prelucrarea statistica a datelor si a ajuns la data scrierii acestui caiet (noiembrie- decembrie 2006) la versiun 838g61i ea 15. Site-ul companiei poate fi accesat la www.spss com sau www.spss.ro .
Programul este relativ usor de asimilat datorita faptului ca nu necesita cunoasterea detaliata a formulelor de calcul ci doar a ipotezelor verificate de testele statistice.
De exemplu,
analiticile SPSS sunt de folos:
. In ciclurile de viata ale clientilor, ca atragerea noilor
clienti, pastrarea cât mai mult timp a celor mai profitabili si
imbunatatirea interactiunilor cu ei
. Cercetatorilor si analistilor pentru a descoperi
relatiile si a identifica tendintele
. Pedagogilor, pentru a-si pregati mai bine studentii pentru
roluri în domeniile comercial, academic sau public
. Organizatiilor guvernamentale, care se concentreaza pe reducerea
fraudei, criminalitatii si infractionalitatii
. Comerciantilor independenti de software (ISVs), pentru a-si spori
valoarea solutiilor prin integrarea componentelor pre-built ale
analiticilor predictive SPSS în aplicatiile lor.
Enumeram
doar cateva modalitati prin care clientii analiticilor
predictive SPSS beneficiaza într-o varietate de domenii:
. O banca lider de piata foloseste SPSS pentru a-si
tinti mai bine eforturile de marketing, rezultatele au fost o crestere a
vânzarilor si o reducere a costurilor de marketing.
. Un furnizor de servicii de precizie pentru marketing prin e-mail care
foloseste software SPSS pentru a-si ajuta clientii sa-si
tinteasca mai bine campaniile de marketing si-a sporit
veniturile cu mai mult de 60%
. Un institut de cercetare medicala dintr-un spital important
foloseste software SPSS pentru a analiza mai eficient datele de expresie a
genelor, conducând la progrese rapide în studiul si tratamentul tumorilor
cerebrale la copii
. Un furnizor de seama în procesarea platilor si
solutii de detectare a fraudei pentru comertul prin Internet
foloseste software SPSS pentru a-si ajuta clientii
sa-si reduca pierderile datorate fraudelor.
. O mare companie de servicii
financiare foloseste software SPSS pentru a identifica locatii noi,
mai profitabile în care sa-si creasca afacerile, fapt care s-a
soldat cu o reducere de 50% a erorilor de previzionare
. Un colegiu din California foloseste software SPSS pentru a reduce costurile
în marketingul orientat pe recrutare, a-si imbunatati
oferta curiculara si a creste retentia studentilor.
2. INTERFAŢA PROGRAMULUI SPSS
In figura 1 este prezentata interfata programului SPSS care se prezinta la fel ca interfetele programelor de calcul tabelar pe care le cunoasteti ( de exemplu programul EXCEL) Asa cum puteti observa, exista un meniu (Figura 1, sageata 1) a carui butoane vor fi explicate pe parcursul acestei lucrari.
Spre deosebire de alte programe, numele fiecarei variabile va fi trecut în capul de tabel în casutele numite generic "var" (Figura 1, sageata 2).
Introducerea datelor se face prin accesarea foii Variable View prin apasarea butonului cu acelasi nume (sageata 3 din figura 1).
2
3. Introducerea datelor statistice
In fereastra "Variable View" se introduc atributele variabilei: nume (name), tip (type), lungimea (width), numar zecimale (decimals), eticheta (label), valorile etichetei (values), valorile lipsa (missing), alinierea (align) si modalitatile de masurare a variabilei (measure) ( scala, ordinal, nominal) (vezi figura 2).
Numele variabilei
Numele variabilei se editeaza în coloana Name tinând cont de urmatoarele restrictii :
sa fie unic
sa aiba cel mult 8 caractere
primul caracter sa fie o litera
ultimul caracter sa nu fie "_" (underscore)
poate sa contina litere, cifre, si simbolurile @,#, _ , $
sa nu contina spatii sau simboluri speciale folosite în SPSS
De exemplu întrebarii din baza de date 1 (vezi anexa 1) " consumati produse alimentare certificate ca fiind ecologice ?" i se va atasa variabila "consumat" nume ce va fi trecut în capul de tabel.
Tipul variabilei
Se realizeaza în coloana Type . La pozitionarea cursorului pe patratul gri din dreapta casutei corespunzatoare caracteristicii Type ( vezi Figura 3 sageata) apare fereastra cu ajutorul careia se poate alege tipul variabilei: Numeric ( cu zecimale separate prin virgula - Comma sau punct Dot ) , Data, însotite de un simbol financiar ( de exemplu Dolar) sau sub forma unui sir de caractere - String (în cazul în care dorim sa introducem un cuvânt sau o fraza).
Figura 3: Introducerea atributelor unor variabile
La rubrica Label se introduce eticheta variabilei (Figura 4 Sageata 1) . Aceasta eticheta reprezinta explicatiile care vor aparea lânga rapoarte ( grafice sau tabele) atunci când vor fi realizate.
Atunci când variabilele sunt nominale (categoriale) acestea vor fi introduse codificat de exemplu raspunsurile la întrebarea 1 vor fi codate astfel:
"1" daca raspunsul a fost "Deseori"
"2" daca raspunsul a fost "Câteodata"
"3" daca raspunsul a fost "Nu"
Acestea vor fi introduse în fereastra ce apare actionând celula corespunzatoare coloanei Values (Figura 4 -sageata 2)
Introducerea valorii se face actionând butonul "Add" , modificarea unor valori se face folosind butonul "Change" iar pentru stergere butonul "Remove" din aceeasi fereastra. Pentru a face efective aceste schimbari e necesar sa se actioneze butonul "OK"
1 2
In practica anchetelor de sondaj se folosesc pentru raspunsurile invalide, codurile:
97 - pentru "nonraspuns"
pentru " neaplicabil"
pentru " raspuns ilizibil"
Analog se introduc toate variabilele necesare.
4. Transformarea unei variabile
Pentru a transforma datele unei variabile se va folosi comanda Recode din meniul Transform asa cum se observa în figura de mai jos -sageata:
Figura 5: Transformarea unei variabile
Recodificarea unei variabile se face fie în aceeasi variabila -atunci când vechea variabila dispare ( optiunea Into Same Variables) sau în alta variabila
( optiunea Into Different Variables).
In cazul în care a fost aleasa optiunea schimbarii variabilei într-o alta variabila diferita apare fereastra Recode into Different Variables
Figura 6: Recodificarea unei variabile
1 2
De exemplu dorim ca vârsta respondentilor sa fie recodificata astfel:
Pentru cei cu vârsta sub 35 ani codificat initial cu valorile 1 si 2 sa atribuim cuvântul "tineri"
Pentru vârsta mai mare de 65 ani codificat cu 5 atributul "vârstnici"
Astfel în fereastra de mai sus (figura 6 sageata 1), în fereastra "Recode into different values" se selecteaza variabila "Vârsta", care, cu ajutorul butonului sageata din fereastra se muta în fereastra Numeric Variable ->Output Variable
In caseta Nume se trece numele noii variabile Vârsta1 iar mai jos în caseta Label se trece eticheta. Se actioneaza apoi butonul Change pentru a face schimbarile efective. Prin actionarea butonului Old and new values apare apoi fereastra Recode into Different Variables , Old and New Values (figura 6, sageata 2) . In aceasta fereastra se selecteaza optiunea Output Variables are Strings pentru a putea defini noua variabila ca si "string" (sir de caractere). Pentru a schimba valorile 1 si 2 cu valoarea "tineri" se selecteaza butonul Range iar casetele de editare corespunzatoare sunt folosite pentru a stabili limita inferioara si superioara a intervalului dorit (through - de la- pâna la). Se scrie 1 în caseta din stânga si 2 în caseta din dreapta. Apoi se selecteaza butonul de optiuni Value si se scrie "tineri" în caseta de editare dupa care se actioneaza butonul Add . Se procedeaza analog pentru toate categoriile. Prin clic pe butonul de comanda Continue se revine în fereastra Recode into Different Variables. Prin butonul de comanda OK se va declansa recodificarea variabilei. Noua foaie de date apare în foaia de date Data View cu datele de cod corespunzatoare fiecarui caz. O comanda asemanatoare comenzii Recode este comanda Compute.
In meniul Data exista comanda Select Cases. Ca urmare se deschide fereastra de dialog Select Cases. Dorim de exemplu sa alegem toate cazurile în care consumatorii consuma "Câteodata " produse agroalimentare ecologice.
Figura 7 . Filtrarea variabilelor statistice
Pentru aceasta se actioneaza butonul de comanda If care va deschide fereastra Select cases în care se introduce conditia de filtrare "consumat" =2, consumat fiind numele variabilei prin care au fost codificate raspunsurile la întrebarea " Consumati produse alimentare certificate ca fiind ecologice"
( vezi anexa ). Butonul de comanda Continue determina revenirea la fereastra Select Cases în care se activeaza butonul de comanda OK pentru a obtine fisierul filtrat. Astfel în foaia Data View din fereastra Data Editor, cazurile anulate sunt taiate printr-un slash
(/ -linie oblica) ( vezi sageata din figura de mai sus). Aceste cazuri nu vor fi folosite la nici o raportare.
Sistematizarea datelor în SPSS poate fi realizata prin optiunea Frequencies subordonata comenzii Descriptive Statistics din meniul Analyze (vezi figura 8). Activarea optiunii Frequencies determina deschiderea ferestrei Frequencies.
Figura 8: Activarea optiunii Frequencies
Din partea din stânga a ferestrei Frequencies se selecteaza variabila dorita prin click de mouse, apoi este mutata prin actionarea butonului sageata în caseta Variables. Prin butonul de comanda OK se obtine Tabelul de frecventa afisat în fereastra de rezultate Output Viewer
Intr-un tabel de frecventa sunt prezentate pentru fiecare variabila selectata, urmatoarele elemente:
valorile sau clasele de valori ale variabilei, efectivul
procentele
procentele cumulate corespunzatoare ( suma procentelor categoriilor inferioare)
7. Tabelul de asociere (Crosstabs)
Acest tip de tabel este folosit pentru prezentarea relatiilor dintre doua variabile categoriale. In fiecare rubrica (celula) este prezentata frecventa partiala asa cum va fi selectata.
Obtinerea unui tabel de asociere în SPSS presupune alegerea optiunii Crosstabs, subordonata comenzii Descriptive Statistics din meniul Analyze (figura 9).
Figura 9 Obtinerea tabelului de asociere Crosstabs
Dupa ce se selecteaza aceasta optiune , apare pe monitor fereastra Crosstabs în cadrul careia selectam variabile pentru rânduri si coloane. Se observa în fereastra Crosstabs posibilitatea de a alege mai multe optiuni care apar în fereastra (figura 10):
Numere observate- Observed
Efective sperate - Expected
Percentages: - Pe rânduri -Row, pe coloane -Column, pe total - Total
Residuals: se refera la abateri Standardizate , nestandardizate, ajustate.
Figura 10: Alegerea optiunilor pentru alcatuirea tabelelor
Se pot executa o multime de aplicatii grafice cu ajutorul programului SPSS. Acestea se pot gasi în meniul Graphs (figura 11)
Figura 11. Alegerea tipurilor de grafic din Meniul Graph
Line- Diagrama liniara
Pie- diagrama pe structura placinta
Boxplot - Diagrama "cutia cu mustati" este folosita pentru a prezenta amplitudinea, intervalul interquartilic si mediana unei distributii
Error Bar - Diagrama "bara erorilor" este folosita pentru a arata media si intervalul de încredere de 95% pentru media respectiva.Scatter - Diagrama "norul de puncte" este folosita pentru a reprezenta relatiile dintre variabile
Histograma - Este folosita pentru a arata forma unei distributii dupa o variabila înregistrata asupra unei colectivitati.
Histograma - permite vizualizarea formei unei distributii statistice, dupa o variabila cantitativa continua divizata pe intervale egale sau inegale. Constructia histogramei se face într-un sistem de de doua axe rectangulare: pe abscisa se înscriu valorile variabilei cantitative sub forma de intervale (clase de valori) iar pe ordonata numarul de observatii sau frecventa corespunzatoare fiecarui interval. Pentru variabila cantitativa se ia un numar de intervale (k) egal cu radacina patrata din numarul de observatii (n) sau k= 1+ 3.322lg n. Comanda Histogram se obtine din meniul Graphs. ( vezi figura 12 de mai jos). In fereastra Histogram se poate alege optiunea Display normal curve (vezi sageata) pentru redarea distributiei normale.
Figura 12: Obtinerea histogramei din comanda Graphs
Forma grafica a histogramei este redata în figura de mai jos.
Figura 13: Forma grafica a histogramei
O alta modalitate de obtinere a histogramei este alegerea comenzii Interactive cu optiunea Histogram din meniul Graphs .
A treia modalitate consta în accesarea meniului Analyze -> Descriptive Statistics -> Frequencies -> Charts -> Histogram.
Diagrama Boxplot este folosita pentru prezentarea unei distributii dupa o variabila numerica , chiar atunci când numarul datelor de care dispunem este mic. Constructia sa presupune ordonarea datelor si împartirea lor în patru grupe , fiecare variabila reprezentând 25% din distributie. Sunt marcate astfel cinci valori ale variabilei si anume: valoarea minima si valoarea maxima, fara outlieri , quartila 1, quartila 2 si mediana ( vezi figura)
Figura 14. Diagrama BoxPlot
Maximum (fara outlieri)
Percentila 75 ( Quartila 3)
Mediana (Quartila 2)
Percentila 25 (Quartila 1)
Minimum (fara outlieri)
In general, un fenomen pentru a putea fi descris în termeni statistici trebuie sa evalueze dupa o anumita lege- adica sa-i poata fi descrisa evolutia dupa anumite coordonate. Cea mai cunoscuta lege , inclusiv în agricultura este distributia normala. Exemple de distributie normala: productia de grâu la hectar la nivelul fermelor, cantitatea de precipitatii cazute în luna iulie din ultimii 100 ani , samd. De exemplu, putem considera productia medie de grâu la hectar în ultimii 30 de ani, ca fiind 3000 kg/ha (figura de mai jos)
Aceasta nu înseamna ca în fiecare an s-au obtinut recolte de 3000 kg /ha ci înseamna ca s-au obtinut recolte mai mici sau mai mari în jurul acestei valori. Totusi putem spune ca este mult mai probabil sa întâlnim o recolta de 3500 kg/ha decât o recolta de 10.000 de kg/ha. Deci cu cât ne îndepartam de valoarea medie cu atât productia respectiva este mai greu de obtinut. Acest aspect este redat de curba de mai jos care reflecta distributia de probablitate într-un astfel de caz , distributie numita "normala" . O astfel de distributie se numeste normala si se caracterizeaza prin doi parametrii: media si abaterea medie patratica (deviatia standard)
Media se noteaza cu μ= unde xi sunt valorile variabilei iar N volumul populatiei
Abaterea medie patratica (deviatia standard) masoara dispersia în jurul mediei si se calculeaza ca radacina patrata din varianta
σ = unde
Figura 15: Curba distributiei normale
In Statistica se defineste urmatoarea notiune: Momentul centrat μ de ordinul k e definit ca:
Coeficientul de asimetrie a unei distributii exprima gradul de dezechilibru al unei distributii si se calculeaza ca raport dintre momentul centrat de ordin trei la puterea a doua si momentul centrat de ordin doi la puterea a treia dupa relatia: adica
Figura 16: Distributia asimetrica cu abaterea spre stânga respectiv spre dreapta
Acest indicator se numeste Skewness iar atunci când ia valori între -1 si 0 indica prezenta unei distributii asimetrice negative cu abatere spre stânga iar când variaza între 0 si 1 indica o distributie cu abatere spre dreapta ( vezi figura). Valoarea 0 indica prezenta unei distributii simetrice.
Coeficientul de boltire sau aplatizare (kurtosis) e o masura a raspândirii fiecarei observatii în jurul valorii centrale. Pentru o distributie normala , valoarea kurtosis-ului statistic e 0 si se numeste distributie mezocurtica.
Atunci când coeficientul este mai mare ca zero indica o grupare mai puternica a valorilor în jurul valorii centrale, curba este mai boltita decât o distributie normala si se numeste distributie leptocurtica. Atunci când coeficientul este mai mic decât zero, indica o grupare mai slaba în jurul valorii centrale , curba frecventelor este mai aplatizata si se numeste distributie platicurtica ( vezi figura 17) DuD
Kurtosis-ul:
Figura 17: Distributia leptocurtica / platicurtica
Din meniul Analyze din comanda Descriptive Statistics alegem optiunea de calcul Descriptives . Dupa alegerea variabilei pentru care dorim sa calculam parametrii distributiei se deschide fereastra de dialog Descriptives: Options . Din aceasta fereastra selectam, prin bifare, în caseta/casetele de validare corespunzatoare , indicatorul/indicatorii care urmeaza a fi calculati.
Se pot realiza urmatoarele calcule:
Mean (media)
Sum (suma tuturor observatiilor)
Std. Deviation ( abaterea medie patratica, numita si abaterea standard)
Variance (varianta)
Range ( amplitudinea variatiei)
Minimum si Maximum (valoarea minima si valoarea maxima a variabilei selectate)
S.E. mean standard Error mean (eroarea medie de selectie: )
Kurtosis (boltirea)
Skewness (asimetria)
Figura 18: Calculul indicatorilor
statistici utilizând comanda Descriptive Statistics
Mai exista doua modalitati pe care le puteti aborda pentru a obtine calculul indicatorilor statisticii descriptive prin optiunea Frequencies.
Din Meniul Analyze comanda Descriptive Statistics optiunea Frequencies
Din Meniul Analyze comanda Reports optiunea Case Summaries (Tabel 1)
Tabel 1: Raport obtinut prin comanda Case Summaries privind frecventa consumului de produse ecologice
11. Parametrii unei distributii bivariate (bidimensionale)
Distributia de frecventa : "Consumati produse alimentare certificate ca fiind ecologice ?" si "Vârsta aproximativa a respondentului" exprima distributia esantionului de persoane observate simultan dupa cele doua variabile considerate , adica arata câte persoane dintr-o anumita categorie de vârsta au un anumit nivel al venitului. Distributia bivariata se poate obtine pe mai multe cai:
meniul Analyze comanda Descriptive Statistics optiunea Crosstabs
meniul Analyze comanda Reports optiunea Case Summaries
meniul Date comanda Split File comanda Analyze Reports OLAP Cubes
Prin demersul Analyze Descriptive Statistics Crosstabs se poate obtine o distributie bivariata parcurgând urmatorii pasi:
se deschide fereastra de dialog Crosstabs , în care selectam variabilele "consumat" si "vârsta" , din lista variabilelor si le mutam în zonele Row(s) si Column(s)
din fereastra Crosstabs, activând butonul de comanda Cells, se deschide fereastra Crosstabs: Cell Display, în care bifam modul dorit de afisare a frecventelor în crosstable;
activarea butonului de comanda Continue ne întoarce în fereastra Crosstabs, unde prin OK se comanda SPSS-ului afisarea raportului(vezi figura 19).
Figura 19: Comandarea raportului bivariat- Crosstabs
S-a obtinut urmatorul tabel:
Tabel 2: Tabel privind frecventa consumului în functie de vârsta
12. Verificarea normalitatii unei distributii folosind SPSS
Majoritatea testelor statistice si a procedeelor de modelare statistica cer îndeplinirea conditiilor de normalitate pentru a putea fi interpretate. Prin urmare e deosebit de important sa se determine daca esantionul observat provine dintr-o populatie normal distribuita.
Vizualizarea grafica a diferentelor dintre o distributie empirica si distributia teoretica folosind histograma, boxplot, PP-plot si QQ-plot sau folosind teste statistice .
Pentru aceasta vom folosi baza de date grau.sav. Aceasta baza de date are câmpurile: grau2003, prod2003, grau2004 si prod2004 care reprezinta rezultatele unui sondaj privitoare la suprafetele cultivate cu grâu în fiecare ferma (ha) (grâu2003 respectiv grâu2004 ) si productia obtinuta la aceasta recolta în anii 2003 si 2004 (prod2003 si prod2004 în tone). Acolo unde datele lipsesc fermierii fie nu au cultivat grâu fie au omis sa declare productiile obtinute. Asa cum deja s-a aratat, cu ajutorul comenzii Transform Compute se calculeaza randamentele pe ferma pentru fermele care au cultivat grâu obtinând câmpurile rand2003 si rand2004 astfel:
rand2003= prod2003/supr2003 iar rand2004=prod2004/supr2004.
Nu uitati conditia de filtrare: prod2003&supr2003>0 respectiv prod2004&supr2004>0 pentru a elimina valorile lipsa (figura 20).
Pentru vizualizarea formei grafice a distributiei consideram procedeul histogramei. Reamintim: meniul Graphs Histogram se bifeaza caseta de validare Display normal curve (vezi figura 21 de mai jos) si alegem de exemplu variabila rand2004.
Figura 21: Comenzi pentru vizualizarea distributiei normale prin diagrama Histogram
Se obtine urmatoarea histograma
Se poate observa ca distributia corespunde aproximativ distributiei normale
Alte modalitati grafice sunt procedeele Q-Q plot si P-P plot (vezi figurile 22,23 ) Q-Q plot compara valorile ordonate ale variabilei observata cu valorile quantilice ale distributiei teoretice specificate (în cazul nostru distributia normala). Daca distributia variabilei testate este normala , atunci punctele Q-Q contureaza o linie care se suprapune cu dreapta care reprezinta distributia teoretica adica trece prin origine si are panta egala cu unu. In diagrama Q-Q plot se observa ca punctele nu sunt serios deviate de la linia dreapta în cazul randamentelor obtinute în anul 2004 ceea ce arata o distributie normala.
Aceeasi interpretare grafica avem si pentru diagrama PP plot care compara functia de repartitie a distributiei unei variabile empirice cu functia de repartitie a unei distributii teoretice specificate (în cazul nostru, functia distributiei normale standard).
Figura 22: Diagrama Q-Q plot
Observatie: Procedeele grafice sunt procedee intuitive, bazate pe impresii vizuale fiind astfel încarcate cu subiectivism. Putem doar sa estimam veridicitatea ipotezei distributiei normale a variabilelor.
O alta modalitate de a verifica normalitatea pentru o anumita variabila -în cazul nostru- randamentele obtinute în anul 2003 respectiv 2004 este urmatoarea ( aplicarea testului Kolmogorov Smirnov-Lilliefors):
Selectarea optiunii: Analyze ->Nonparametric Tests 1 Sample K-S (figura 24)
Figura 24: Selectarea testului Kolmogorov-Smirnof pentru verificarea normalitatii
La rubrica Test Variable List se alege variabila de testat: rand2003 obtinându-se urmatorul tabel:
Tabel 3: Raport privind testul Kolmogorov-Smirnov
Concluzia normalitatii o putem trage din studiul coeficientului sig. (ultimul rând). Acest coeficient ia valori între 0 si 1. In functie de valoarea acestuia ipoteza de nul
" Distributia nu e normala " se respinge sau se accepta!
Astfel: daca valoarea coeficientului sig<0,05 ipoteza de nul se respinge cu o probabilitate de 95%
- daca valoarea coeficientului sig<0,01 ipoteza de nul se respinge cu o probabilitate de 99%
In cazul de fata valoarea lui Sig de 0,320 este mai mare decât 0,05 în consecinta acceptam ipoteza de normalitate.
Procedam analog si pentru variabila rand2004 si observam ca si în acest caz distributia este normala.
Folosim baza de date "grau" .
Dorim sa examinam indicatorii acestei distributii. Pentru aceasta efectuam selectiile urmatoare: meniul Analyze, comanda Descriptive Statistics , optiunea Frequencies. In fereastra Frequencies se deschide fereastra de dialog cu acelasi nume din care, prin clic pe butonul Statistics se deschide butonul Frequencies: Statistics din care se pot selecta parametrii doriti, prin bifare în casetele de validare corespunzatoare (vezi figura 25)
Figura 25: calculul indicatorilor statisticii
descriptive
Obtinem un tabel de forma (tabel 4):
Tabel 4: Raport privind indicatorii statisticii descriptive
O alta modalitate de calcul a acestor indici este:
Meniul Analyze Reports Case Summaries. Aceasta optiune deschide fereastra Summary Report: Statistics, de unde se pot selecta parametrii doriti (vezi figura 26):
Figura 26: Calculul indicatorilor statisticii
descriptive prin comanda Case Summaries
Dorim sa aflam probabilitatea ca o valoare a unei variabile aleatorii distribuita normal sa apartina unui interval. Dintre functiile disponibile în acest sens sunt functiile CDF.NORMAL si IDF.NORMAL
Pentru functia CDF.NORMAL sintaxa este urmatoarea:
CDF.NORMAL(q,mean,stddev) unde mean- valoarea medie a distributiei iar stddev- deviatia standard calculate asa cum am vazut în precedentul capitol.
Dorim de exemplu sa calculam, data fiind distributia rand2004- (randamentele la hectar pentru grâu în anul 2004 asa cum reiese din esantion), care este probabilitatea de a obtine o recolta de sub 3 t/ha. Litera "q" din sintaxa functiei CDF.NORMAL va fi înlocuita cu cifra 3 deoarece reprezinta valoarea în functie de care calculam probabilitatea. Demersul e urmatorul:
Se alege meniul Transform comanda Compute (figura 27)
- In zona Target Variable din fereastra Compute Variable introucem numele variabilei pentru a carei valoare dorim sa calculam probabilitatea , de exemplu "prob3"
In zona Numeric Expression introducem expresia functiei , selectata din lista Functions , CDF.NORMAL (q,mean,stddev) unde q este o valoare a variabilei X. Pentru exemplul dat, CDF.NORMAL (3,3.34,1.24), 3.34 fiind valoarea medie, iar 1.24 deviatia standard pentru aceasta variabila (rand2004).
Prin butonul OK se comanda calculul propriu-zis al probabilitatii
Figura 27 : Calculul probabilitatilor pentru distributii normale folosind SPSS
Dupa apasarea butonului OK se va obtine probabilitatea P(rand2004<3)= 0.39 care apare în celula de sub numele variabilei prob3.
Putem spune astfel ca probabilitatea ca un fermier sa obtina la grâu o recolta de sub 3t/ha este de 39% , si în acelasi timp, putem spune ca probabilitatea de a obtine o recolta de peste 3t/ha este de 61 % (100%-39%). Daca dorim ca sa aflam probabilitatea ca recolta unui fermier sa fie între 3 si 4 tone calculam P(rand2004<4) - P(rand2004<3) urmarind acelasi demers.
Se obtine astfel o probabilitate de 0,31% ca un fermier sa aiba o productie de grâu, între 3 si 4 tone/hectar (vezi sageata figura 28)
Figura 28: Calcul al probabilitatilor pentru distributia normala
Pentru operatiunea inversa, adica de a afla care este valoare distributiei pentru care probabilitatea este mai mica de o anumita valoare se foloseste functia IDF.NORMAL(prob,mean,stddev). Astfel, daca vrem sa aflam valoarea sub care în anul 2004 au coborât 10% din fermieri vom calcula valoarea functiei IDF.NORMAL(0.1,3.34,1.24) urmarind acelasi demers ca cel descris pentru functia CDF.NORMAL.
Valoarea obtinuta este de 1.75 t/ha. Putem spune deci, ca 10% dintre fermieri au obtinut o recolta de sub 1.75 t/ha la grâu în anul 2004.
Figura 28. Calculul probabilitatilor prin
functia IDF
Alegerea unui esantion dintr-o anumita populatie are o anumita valoare de reprezentativitate. Asta înseamna ca caracteristicile acelui esantion aproximeaza cu o oarecare probabilitate caracteristicile întregii populatii. De exemplu nu putem spune cu siguranta ca media celor 48 de înregistrari ce fac parte din esantionul rand2004 este exact media înregii populatiei datorita factorilor aleatorii ce au intervenit în formarea acestui esantion. Dar putem estima media printr-un interval "de încredere". Astfel nu putem spune cu siguranta cât e media populatiei dar putem spune cu o anumita probabilitate în ce interval se încadreaza.
Calculam de exemplu, valoarea medie pentru variabila rand2004.
Selectam meniul Analyze comanda Descriptive Statistics optiunea Explore
(figura 29)
In fereastra Explore selectam variabila dorita (rand2004) si o mutam în zona Dependent List
Activam butonul de comanda Statistics care deschide fereastra Explore:Statistics, unde bifam caseta de validare Descriptives si precizam în caseta Confidence Interval for Mean (sageata) nivelul de încredere dorit ( implicit e 95%).
Butonul de comanda Continue determina revenirea în fereastra Explore, din care activam OK pentru a comanda afisarea rezultatelor în fereastra Output
Tabel 29: Estimarea prin interval de încredere
Se obtine raportul de mai jos (Tabel 5):
Tabel 5: Raport privind estimarea prin interval de încredere
In dreptul mentiunii Mean (media) observam valoarea media a esantionului, 3,3402 t/ha - randament mediu la grâu în anul 2004. Limitele intervalului de încredere se gasesc în dreptul mentiunii "95% Confidence Interval for Mean" cu limita inferioara " Lower Bound" = 2.9779 si limita superioara
" Upper Bound" = 3.7025. Putem spune asadar cu o încredere de 95% ca productia medie la hectarul de grâu, pentru anul 2004 este între 2,97 t/ha si 3,7 t/ha. Cu alte cuvinte, daca s-ar repeta studiul de 100 de ori ( adica daca s-ar înregistra 100 de esantioane, independente si identic observate) datele obtinute pentru 95 de esantioane s-ar încadera în acelasi interval de încredere,numai 5 din cele 100 de esantioane fiind susceptibile sa dea valori în afara limitelor intervalului de încredere calculat.
Demersul testarii unei ipoteze presupune parcurgerea unor etape dupa cum urmeaza:
Se formuleaza ipotezele, în functie de problema pusa;
Se alege un test statistic în functie de distributia de selectie a statisticii considerate
Se alege un prag de semnificatie pentru test
Se stabilesc regulile de decizie , definind regiunile de "acceptare" si de "respingere" a ipotezei H0
Se calculeaza valoarea statisticii test, folosind datele înregistrate prin sondaj
Se compara valoarea calculata a statisticii test cu valoarea teoretica
Se ia decizia de a nu respinge sau de a respinge ipoteza admisa
O ipoteza statistica este o presupunere cu privire la un parametru al unei distributii date sau cu privire la legea de probabilitate a populatiei studiate. Exemplu: ipoteza de egalitate a mediilor pentru a verifica daca sunt diferente semnificative între populatiile din care s-au extras esantioanele observate.
In procesul de testare statistica , se formuleaza ipoteza nula si ipoteza alternativa.
Ipoteza nula (ipoteza de nul). Ipoteza nula pe care dorim sa o testam este notata H0. Prin ipoteza nula H0 se admite , în principal, ca nu exista nici o diferenta între valorile comparate. Ipoteza nula H0 este ipoteza pe care, de fapt, dorim sa o discreditam.
Ipoteza alternativa Ipoteza alternativa , ipoteza pe care dorim sa o testam în opozitie cu ipoteza nula, se noteaza cu H1. Ipoteza alternativa este cea care va fi acceptata daca, prin regula de decizie, se va respinge ipoteza nula. Ipoteza H1 este cea pe care, de fapt, vrem sa o dovedim ca fiind adevarata.
Din meniul Analyze comanda Compare Means optiunea One- Sample t test
Dorim, de
exemplu sa observam daca fermierii considerati au
obtinut în anul 2003 un randament mai mare la grâu decât media pe
Dupa selectarea optiunii One-Sample T Test, se parcurg urmatorii pasi (figura 30):
Selectam în fereastra One-Sample T Test variabila vârsta si o mutam în zona Test Variable (s);
Specificam valoarea dorita 1.428 în zona de editare Test Value
Activam butonul de comanda Options care deschide fereastra One-Sample T Test:Options în care, în zona Confidence Interval alegem gradul de încredere 95% dupa care actionam butonul de comanda Continue pentru a reveni în fereastra Sample T Test
Figura 30: Demersul alegerii testului student pentru
compararea unui esantion cu o valoare
Actionam butonul OK si comandam SPSS obtinerea raportului
Tabelul 6: Raport "One-Sample Statistics"
Tabelul 7: Raport "One-Sample Test"
In raportul "One-Sample Statistics" sunt redate
N- marimea esantionului (numarul de raspunsuri din esantion -48)
Mean - media esantionului
Std. Deviation - deviatia standard
Std. Error Mean - eroarea standard a mediei
In output-ul "One-Sample Test"
Test Value - valoarea cu care s-a comparat media esantionului
T - rezultatul statisticii Student
df- numarul gradelor de libertate ale statisticii ( se calculeaza ca marimea esantionului (48) -1)
Sig. - gradul de siguranta al acceptarii ipotezei de nul. Explicatia acestui coeficient a mai fost oferita pe parcursul acestui caiet ( Vezi verificarea ipotezei de normalitate - testul Kolmogorov-Smirnof-Lillefors)
Mean Difference - diferenta dintre media esantionului si valoarea testata
( Mean - Test Value adica 2.7192 - 1.428 = 1.2912 )
95% Confidence Interval of the difference - Intervalul de încredere al valorii Mean Difference cu limita inferioara (lower) si limita superioara ( upper)
Ipoteza de nul în cazul de fata este H0: media esantionului nu difera foarte mult de productia medie înregistrata în agricultura României . Pentru acceptarea/respingerea acestei ipoteze studiem valoarea coeficientului Sig.
Se observa din valoarea acestuia: Sig= 0.000 ca ipoteza de nul este respinsa cu o probabilitate de 100 % sau ca este "acceptata" cu o probabilitate de 0%. Concluzia de respingere a ipotezei de nul poate fi respinsa si studiind intervalul de încredere al "Mean Difference" interval ce nu contine valoarea zero. Faptul ca acest interval nu contine valoarea zero înseamna ca diferenta celor 2 medii ( a esantionului si valoarea testata) nu poate fi zero deci mediile nu pot fi egale.
Tragem deci concluzia ca între
media randamentele înregistrate la grâu , pentru esantionul considerat în
anul 2003 si media randamentelor
înregistrate pe
18. Testarea egalitatii mediilor a doua esantioane perechi
Paired -Samples T Test este un procedeu care se aplica în cazul esantioanelor dependente. Prin acest procedeu , se compara mediile pentru un singur grup observat în momente diferite. Adesea prin acest test se observa aceiasi subiecti în doua momente diferite, verificându-se daca diferentele dintre valorile medii sunt semnificative. Se calculeaza diferentele dintre valorile celor doua variabile pentru fiecare caz în parte si se testeaza daca diferentele dintre mediile acestora difera de zero.
Demersul folosit în SPSS este: meniul Analyze comanda Compare Means optiunea Paired-Samples T Test
Exemplu: Consideram variabilele rand2003 si rand2004 . Dorim sa verificam daca nivelul mediu al randamentelor la grâu în anul 2004 este mai mare sau mai mic decât în anul 2003.
Pentru aceasta selectam în fereastra de dialog Paired Samples T Test prima variabila rand2003 prin clic asupra ei vom vedea ca SPSS o muta în Current Selections (în partea din stânga jos a ferestrei) ca Variable 1;
Mutam perechea de variabile în zona Paired Variables (în partea dreapta a ferestrei dialog) (vezi figura de mai jos).
Figura
30: Demersul alegerii testului student pentru compararea unui esantion cu
o valoare
Intervalul de încredere al ipotezei de nul se poate modifica ( implicit e 95%) apasând butonul Options.
- Prin apasarea butonului de comanda OK se obtine output-ul prezentat mai jos.
Tabelul 8: Raportul "Paired Samples Statistics"
In tabelul "Paired Samples Statistics" la rubrica " Mean" sunt prezentate mediile celor doua esantioane rand2003 respectiv rand2004 .
In tabelul "Paired Samples Statistics" studiem valoarea lui Sig., care este 0.000. De asemenea constatam ca intervalul de încredere nu contine valoarea zero. Ipoteza de nul se respinge, adica putem afirma ca între randamentele înregistrate în anul 2003 respectiv 2004 exista diferente semnificative. Astfel în acelasi tabel la rubrica "Mean" putem constata valoarea acestei diferente : -0.4876. Putem spune deci ca, pe ansamblu , randamentele obtinute la grâu în anul 2003 sunt mai mici decât cele obtinute în anul 2004, în medie cu 487,6 kg/ha.
19. Testarea egalitatii mediilor a doua esantioane independente (Independent Samples T Test)
Independent Samples T Test este un procedeu care se aplica în cazul esantioanelor independente. Prin acest procedeu se testeaza daca mediile a doua grupe sunt egale.
Exemplu: (Folosim din nou, baza de date IEA.sav aflata pe CD) Dorim sa aflam daca între doua categorii de vârsta ale consumatorilor exista diferente
semnificative cu privire la frecventa consumului de alimente ecologice.
Demersul testarii folosind SPSS este: meniul Analyze
comanda Compare Means optiunea Independent-Samples T Test
Figura 31: Demersul alegerii testului student pentru
compararea egalitatii mediilor
a doua esantioane independente (Independent-Samples T Test)
In fereastra Test Variable(s) (figura 31 )mutam variabila consumat iar în fereastra Grouping Variable mutam variabila vârsta. Actionam apoi butonul Define Groups. si definim cele doua grupuri ce apartin variabilei vârsta:
"2" - care descrie categoria de respondentii între 18-35 ani si "3" care descrie categoria de respondenti între 35 si 50 ani ( vezi categoriile variabilei vârsta asa cum au fost definite). Se obtin tabelele de mai jos (tabelul 10 si tabelul 11):
Tabelul 10: Raport generat de aplicarea testului " Independent Samples Test"
2 3
Calculul statisticii test pentru compararea mediilor a doua populatii cere sa se verifice daca deviatiile standard la nivelul celor doua grupe sunt semnificativ diferite, deoarece prin ipoteza de nul se presupune ca cele doua populatii au variante egale. Se foloseste în acest scop testul Levene de egalitate a variantelor ( Levene's test for equality of Variances)
Daca nivelul de semnificatie observat pentru acest test este mic ( de exemplu mai mic de 0,05) atunci se folosesc variante distincte (Equal variance not assumed) pentru testarea mediilor. Daca acest nivel este mare, ca în cazul considerat ( Sig. al testului Levene este egal cu 0,331 -sageata 1 figura ) atunci se folosesc variante comune ( Equal variances assumed). In aceasta ipoteza se observa ca coeficientul Sig. al testului t
( sageata 2 tabelul 11) este de 0.694 (mai mare decât 0,05) si ne arata ca pentru mediile celor doua grupe nu se poate trage concluzia ca difera semnificativ. Aceeasi concluzie o putem trage din studierea intervalului de încredere a diferentelor (sageata 3, tabelul 11),
interval care contine valoarea 0. In concluzie nu se poate trage concluzia ca diferenta dintre valorile medii ale celor doua grupe este semnificativa.
Prin ANOVA se compara medii pentru trei si mai multe subpopulatii definite de variabila de grupare (variabila independenta). Aceasta metoda permite extensia analizei realizate prin testul t aplicabil asupra a doua medii, la situatii în care variabila independenta (variabila de grupare ) prezinta trei si mai multe categorii (niveluri).
De asemenea , ANOVA poate fi folosita în analiza unor situatii în care asupra variabilei numerice ( variabila dependenta) actioneaza simultan mai multe variabile independente. In astfel de cazuri , prin ANOVA se poate prezenta modul în care aceste variabile independente interactioneaza una cu alta si ce efecte au aceste interactiuni asupra variabilei dependente.
One way ANOVA (ANOVA unifactoriala) este unul din procedeele de analiza a variantei pentru o variabila cantitativa dependenta de o singura variabila factor ( de grupare). Variabila factor, numita si variabila independenta , explicativa trebuie sa fie calitativa si trebuie sa aiba un numar redus de categorii (modalitati).
Ipoteza nula , ipoteza de testat , formulata prin acest procedeu , presupune egalitatea a trei si mai multe medii:
H0: m1=m2=.=mk
Unde mk este media grupei mk
Interpretarea rezultatelor ANOVA vizeaza doua teste si anume:
Testul de omogenitate a variantelor. Aceasta problema implica testul de omogenitate a variantelor subpopulatiilor , definite de modalitatile variabilei factor (de grupare). Ipoteza de nul este respinsa daca valoarea Sig. (probabilitatea ) este inferioara valorii 0,05 (5%) semnificând ca nu sunt egale toate variantele.
Testul ANOVA. Ipoteza nula este respinsa daca valoarea Sig. este inferioara valorii 0,05 (5%), semnificând ca cel putin doua medii calculate la nivelul subpopulatiilor , difera între ele.
In SPSS , pentru compararea a trei si mai multe medii este folosit urmatorul demers: meniul Analyze comanda Compare Means optiunea One-Way ANOVA.
De exemplu: Utilizam baza de date IEA.sav Dorim sa vedem daca pentru cele trei categorii de intervievati (cu frecventa definita ca: "deseori", "câteodata" si "niciodata" respectiv variabila "consumat") exita diferente în ceea ce priveste vârsta acestora. Adica daca cei care consuma "deseori" sunt mai tineri decât celelalte doua categorii.
Pentru aceasta , din fereastra Variable View vom exclude variabilele lipsa prin excluderea variabilelor ce contin "99" adica non-raspuns. Pentru variabila "Vârsta" se da Click pe celula corespunzatoare coloanei Missing ( Figura 32 sageata 1 ) iar în fereastra Missing Values se introduce valoarea "99" (sageata 2).
Figura 32: Excluderea valorilor indezirabile prin comanda "Missing Values"
1
Dupa selectarea optiunii One-Way ANOVA , se parcurg urmatorii pasi:
- In fereastra de dialog One-Way ANOVA alegem variabila "consumat" pe care o mutam în zona Dependent List si variabila Vârsta pe care o mutam în zona Factor;
Prin butonul de comanda Options (vezi figura si sageata) se deschide fereastra One-Way ANOVA :Options în care se bifeaza casetele de validare Descriptive, Homogenity of variance si Means plot pentru a se verifica îndeplinirea restrictiilor de normalitate, homoscedaticitate si independenta impuse unei analize ANOVA (figura 33).
Figura 33: Alegerea parametrilor analizei ANOVA
Restrictia de homoscedaticitate. Una din restrictiile aplicarii ANOVA o constituie homoscedasticitatea, adica se presupune ca variantele grupelor sunt egale. Se poate verifica aceasta ipoteza cu ajutorul testului Levene-Test of Homogenity of Variances.
( vezi Tabelul 11 de mai jos)
Tabelul 11: Raport generat de testul Levene
Tabelul 12: Analiza variantelor generata de conditia de homoscedasticitate
In noile conditii , valoarea Sig. (0.391) pentru testul de omogenitate a variantelor este mai mare ca 0,05 sugerând ca variantele pentru cele trei categorii de consumatori sunt egale, deci restrictia de homoscedasticitate este îndeplinita si astfel se poate aplica ANOVA.
Tabelul ANOVA corespunzator pentru cele trei categorii de vârsta selectate sunt prezentate în tabelul 13 .
Tabelul 13: Raportul generat de testul ANOVA pentru trei categorii de vârsta
In tabelul ANOVA sunt prezentate statistica test F (vezi testul Fisher din manualul de Statistica) , valoarea Sig. precum si elementele de calcul pentru statistica test F.
Reamintim , statistica test F se calculeaza dupa relatia:
reprezinta estimatorul variantei intergrupe (Between-Groups) . Se calculeaza ca medie a patratelor abaterilor mediei fiecarei grupe fata de media pe ansamblul grupelor si arata varianta datorata influentei factorului de grupare;
reprezinta estimatorul mediei variantelor de grupa si arata varianta din interiorul fiecarei grupe (Within Groups) , varianta datorata influentelor aleatorii.
Cu cât mediile grupelor au valori mai diferite între ele , cu atât variatia dintre grupe este mai mare; cu cât o variatie , în interiorul grupelor, este relativ mai mica, cu atât statistica test F este mai mare, aratând ca ipoteza nula poate fi respinsa.
In exemplul considerat statistica test F este mica (1.087) cu o probabilitate asociata Sig. ( 0.339) mai mare decât 0,05 -evidentiaza ca ipoteza de egalitate a mediilor pe grupe nu se respinge, deci înclinatiile spre consum a clientilor nu difera semnificativ în raport cu vârsta.
21. Testarea egalitatii unei proportii cu o valoare specificata (Binomial Test)
Binomial Test este un procedeu prin care se testeaza ipoteze cu privire la o variabila cu distributie binomiala, variabila care poate lua doar doua valori, de exemplu, sexul persoanelor.
Pentru astfel de variabile , se calculeaza frecventele de aparitie a fiecareia dintre cele doua valori, iar pe baza lor, media, deviatia standard, etc.
Binomial test este similar cu One Sample t-test si este folosit pentru a compara o proportie cu o valoare specificata.
Exemplu: Dorim sa verificam daca proportia persoanelor multumite de calitatea produselor agroalimentare este mai mare decât 75 %
Dupa filtrarea datelor pentru eliminarea non-raspunsurilor efectuam urmatorul demers: meniul Analyze comanda Nonparametric Tests optiunea Binomial (Tabel 35)
Pentru aceasta , dupa selectarea optiunii Binomial si deschiderea ferestrei Binomial Test
Selectam variabila "multumit" si o mutam în zona Test variable List
- In zona Define Dichotomy alegem Get from date daca avem o variabila dihotomica sau Cut point în cazul în care dorim sa dihotomizam o anumita variabila. In cazul nostru variabila "multumit" este codificata astfel: 1- pentru raspunsul "DA sunt multumit"
2- pentru raspunsul "partial multumit" si 3 - pentru "nemultumit"
In zona Cut point introducem valoarea "1" pentru a selecta valorile <=1 respectiv valorile >1. Valorile <=1 vor desemna grupa consumatorilor multumiti de calitatea produselor ecologice.
In zona de editare Test Proportion se precizeaza valoarea dorita (0.75).
Tabel 35: Demersul testarii egalitatii
unei proportii cu o valoare specificata
Se apasa butonul de comanda OK si se declanseaza obtinerea raportului (vezi Tabelul 14)
Tabelul 14: Raportul generat de "Binomial Test"
Astfel se observa ca proportia observata în esantion pentru grupa consumatorilor multumiti e de 60% . Datorita faptului ca valoarea Sig. asociata testului este mai mica decât 0.01, se poate concluziona cu o încredere de 99% ca proportia celor multumiti de produsele agroalimentare ecologice difera semnificativ de proportia de 75%. Adica , mai putin de trei sferturi dintre consumatori sunt multumiti de calitatea acestor produse.
In cazul unei distributii nominale, testul Hi-patrat este folosit pentru a verifica daca distributia teoretica a frecventelor relative (ipoteza de nul presupune ca toate categoriile au proportii egale), fie cu o distributie de frecventa propusa.
Aplicarea acestui procedeu de testare presupune urmatorul demers: meniul Analyze comanda Nonparametric Tests optiunea Chi-Square Test.
Exemplu: Consideram variabila "consumat" din fisierul "iea.sav" Dorim sa verificam daca proportia respondentilor pe cele trei categorii este egala. Adica daca consumatorii se împart în mod egal în -consumatori frecventi, consumatori ocazionali respectiv nonconsumatori.
In fereastra de dialog Chi-Square Test (vezi figura 34) selectam variabila pentru care dorim sa testam proportiile, în cazul nostru variabila "consumat" si o mutam în zona Test Variable List. Se pot selecta mai multe variabile , pentru fiecare variabila obtinându-se câte un tabel de frecventa separat.
In zona Expected Range definim categoriile pentru care dorim sa testam proportiile . Alegem Get from data, considerând categoriile definite pentru variabila " consumat"
In zona Expected Values alegem ipoteza toate proportiile egale sau proportii specificate (Values). In cazul nostru alegem sa verificam daca exista urmatoarea corespondenta: consumatori frecventi 30%, consumatori ocazionali -40%, respectiv non- consumatori consumatori -30 % , deci specificam proportiile 30,40,30 la rubrica "Values" .
Figura 34: Demersul alegerii
proportiilor de testat prin testul Hi-patrat
Prin clic pe butonul de comanda Continue , se revine în fereastra Chi-Square Test , din care se selecteaza OK, care comanda lansarea procedurii de obtinere a rapoartelor de mai jos (figura )
Interpretare In tabelul frecventelor , sunt comparate frecventele observate cu frecventele teoretice ( asteptate conform ipotezei de nul), pentru fiecare categorie i. Diferentele sunt prezentate pe categorii în coloana Residual. Exemplele teoretice asteptate de noi în cazul de fata sunt: (din totalul de 216 respondenti)
216 x 30 % = 64.8 pentru raspuns "deseori"
216 x 40% = 86.4 pentru raspuns "cateodata"
216 x 30 % = 64.8 pentru raspuns "nu consum"
Rezultatele sunt prezentate în tabelul de mai jos (Tabelul 15):
Tabelul 15: Frecventele observate si teoretice privitoare la aplicarea testului Hi-patrat
In tabelul Chi Square Test se prezinta valoarea statisticii Hi-patrat (Chi-Square) gradele de libertate (df) si valoarea semnificatiei (Asymp. Sig).
Tabelul 16: Rezultatul testului Hi-patrat
In exemplul dat, valoarea estimata a statisticii Hi-patrat este semnificativa la un nivel de încredere de 95% deoarece valoarea Asimp. Sig< 0,01. Ca urmare ipoteza nula este respinsa. Se poate trage concluzia ca cele trei categorii de consumatori nu au proportia specificata: 30:40:30.
Exemplul 2:
Dorim sa calculam deviatia de la frecventele teoretice pentru o distributie de 2 variabile: presupunem "varsta" si "consumat" . Selectam doar categoriile de vârsta între 18-65 de ani , cele mai numeroase în sondajul nostru. Pentru aceasta filtram doar categoriile de vârsta 2, 3,4 ( Vezi Data Select Cases) conditia (varsta >1 & varsta < 5)
Tabel 35: Demersul aplicarii testului Hi-patrat pentru doua variabile
Demersul este urmatorul (Figura 35): Meniul Analyze Descriptive statistics Crosstabs
In fereastra Crosstabs la rubrica Row(s) trecem variabila "consumat" iar la rubrica column(s) trecem variabila "varsta" Actionând butonul Cells (sageata) se deschide fereastra Cells Display unde se selecteaza la rubrica "Counts" afisarea valorilor observate " Observed" si a valorilor teoretice asteptate " Expected".
Analog actionând butonul "Statistics" se obtine o noua fereastra din care bifam optiunea Chi-Square ( vezi sageata din figura 36)
Figura 36: Alegerea optiunii Hi-patrat din fereastra "Statistics"
Dupa actionarea butoanelor "Continue" si OK" se obtin rapoartele de mai jos:
Tabel 17: Raport privitor la frecventele observate si teoretice pentru variabilele "consumat" si "vârsta"
In tabelul sunt afisate atât frecventele observate "count" cât si cele teoretice "expected count".
Astfel au fost primite 29 de raspunsuri pentru consumul frecvent de produse ecologice "deseori" de catre consumatorii cu vârste între 18-35 ani.
Frecventa teoretica " expected count" a fost calculata tinând cont de urmâtoarele aspecte:
Numarul total al tinerilor de 18-35 ani din esantion este (vezi tabel Total-Count) de 120 în timp ce numarul respondentilor este de 200. Aceasta înseamna ca proportia tinerilor din esantion este: p= 120/200* 100% = 60%
Numarul total al celor care au raspuns cu "deseori" privind frecventa consumului este
(vezi Tabel 17) de 47. Teoretic ne astepam deci ( în cazul ipotezei de nul) ca 60 % din acestia sa fie tineri între 18-35 ani. Frecventa teoretica este deci : ft= 47x 60% adica 28,2
In figura de mai jos avem rezultatele testului Hi-patrat. Se observa coeficientul Sig. >0.05 ceea ce înseamna ca ipoteza de nul nu se respinge. Adica frecventele observate , nu difera de cele teoretice pentru nici una din cele trei categorii de consumatori. Cu alte cuvinte, comportamentul consumatorilor în ceea ce priveste consumul de produse ecologice nu este influentat de vârsta.
Analiza de
corelatie este folosita pentru a studia intensitatea legaturii
dintre variabile. In sens strict, corelatia este o masura a
intensitatii legaturii dintre variabile. Pentru stabilirea
corelatiei dintre doua marimi în SPSS se pot calcula trei
coeficienti de corelatie: Pearson,
Exemplu: In baza de date Anuarul_statistic.sav gasi date preluate din anuarul statistic privind productivitatea medie la nivel national pentru diferite culturi între anii 1990 si 2003 .
Astfel am dori sa punem în vedere existenta unei corelatii între randamentele înregistrate la grâu si cele înregistrate la orz.
Consideram urmatorul demers: meniul Analyze Correlate Bivariate prin care se deschide fereastra Bivariate Correlations .
Dupa deschiderea ferestrei Bivariate Correlations se parcurg urmatorii pasi:
-Selectam variabilele dorite si le mutam în zona Variables;
In zona Correlation Coefficients, alegem prin bifare în casetele de validare corespunzatoare , coeficientii de corelatie pe care dorim sa-i calculam.
Casera de validare Flag significant correlations este activata la deschiderea ferestrei dialog si are ca efect semnalizarea corelatiilor semnificative. Astfel coeficientii de corelatie semnificativi la pragul de 0,05 sunt marcati cu un asterisc, iar cei semnificativi la pragul de 0,01 sunt marcati cu doua asteriscuri.
Figura 37: Demersul analizei de corelatie
Activând OK cerem obtinerea raportului ( vezi Tabel 19)
Tabel 19: Raportul de corelatie randamente grâu-orz
In raport sunt prezentate statisticile pentru fiecare variabila , precum si valoarea coeficientului de corelatie Pearson, cu nivelul de semnificatie (Sig.) corespunzator.
Tabelul Correlations este un tabel cu matricea coeficientilor de corelatie. Valorile sunt distribuite simetric, de o parte si de alta a diagonalei coeficientilor de corelatie egali cu 1, corespunzatori corelatiei fiecarei variabile cu ea însasi. De o parte si de alta a diagonalei tabelului sunt prezentate valorile coeficientilor de corelatie dintre variabile, luate doua câte doua si valorile pragului de semnificatie (Sig.) corespunzator , precum si numarul observatiilor considerate, N.
Reamintim ca valoarea coeficientului de corelatie Pearson este cuprinsa între - 1 si 1
Daca coeficientul ia valoarea 0, atunci între variabile nu exista legatura. Valoarea coeficientului indica intensitatea legaturii si anume: cu cât se apropie mai mult de 1, cu atât legâtura e mai puternica, respectiv cu cât se apropie mai mult de zero, cu atât legâtura este mai slaba. Un coeficient de corelatie egal cu +1 indica o legatura directa perfecta între variabile. Un coeficient de corelatie egal cu -1 arata o legatura inversa perfecta.
Pentru exemplul considerat s-a obtinut un coeficient de corelatie Pearson egal cu 0,893
ceea ce sugereaza ca între variabile exista o corelatie directa puternica , valoarea coeficientului fiind foarte apropiata de 1.
Valoarea Sig. corespunzatoare egala cu 0.000 evidentiaza ca s-a obtinut un coeficient de corelatie semnificativ la 0.01 adica sunt sanse mai mici de 1% de a gresi daca afirmam ca între cele doua variabile exista o corelatie semnificativa. Putem spune deci ca culturile de grâu si orz sunt corelate din punct de vedere al randamentelor obtinute annual.
In tabelul urmator se observa ca o astfel de corelatie nu exista între randamentele obtinute la grâu si cartof.
Tabelul 20: Raportul de corelatie randamente grâu - cartofi
ANEXA
CHESTIONAR
Universitatea de stiinte Agricole si Medicina Veterinara a initiat acest studiu care urmareste sa evalueze gradul de cunoastere, în rândul consumatorilor a produselor alimentare ecologice , precum si parerile lor în legatura cu acest subiect.
Datele personale, furnizate de dvs., vor fi considerate strict confidentiale
I ) Consumati produse alimentare certificate ca fiind ecologice?
1) Deseori 2) Câteodata 3) Nu
I b) Va rugam explicati de ce ati ales una din aceste optiuni:
Daca raspunsul a fost " Nu cunosc aceste produse" se pun întrebarile III si IV, se iau date le personale, -(intrebarile X, XI, varsta) apoi se încheie interviul.
II) Cum identificati produsele alimentare ecologice într-un magazin?
1) Dupa ambalaj /sigla 2) Dupa spatiile special amenajate 3) Altele...
Daca în urma întrebarilor I si II observam ca intervievatul nu cunoaste notiunea de produs ecologic se pun întrebarile III si IV, se iau datele personale -(intrebarile X si XI, varsta) apoi se încheie interviul. Daca se cunoaste notiunea de produs alimentar ecologic, se trece direct la întrebarea cu numarul V fara a se mai pune intrebarile III si IV.
III ) Daca ati sti ca produsele ecologice sunt mai sanatoase pentru ca nu contin substante chimice si în plus sunt obtinute prin protejarea mediului, ati fi dispus sa achizitionati aceste produse?
1) Sigur da 2) Cred ca da 3) Nu stiu 4) Mai degraba nu 5) Sigur nu
IV) Dar daca ati sti ca pretul produselor ecologice ar fi cu 40% mai mare decât cele clasice ati mai cumpara?
1) Sigur da 2) Cred ca da 3) Nu stiu 4) Mai degraba nu 5) Sigur nu
V) Care sunt motivele pentru care achizitionati produsele alimentare ecologice?
1) pentru sanatate 2 ) sunt mai gustoase 3) pentru copii / pentru batrani
4)Altele:......................
VI) Cum credeti ca ar trebui încurajat consumul de produse ecologice?
1) Prin scaderea preturilor 2) Prin publicitate mai intensa
3) Prin informarea consumatorilor asupra avantajelor acestui tip de produs
Altele...........................
VII) Sunteti multumit(a) de numarul de produse ecologice ce se afla pe piata?
1) DA 2) Partial 3 ) NU
VIII) Sunteti multumit (a) de calitatea produselor ecologice ce se afla pe piata ?
1) DA 2) Partial 3) NU
Va rugam sa ne spuneti de ce ati ales una din optiunile "Partial" sau "NU" ?
..............................
IX) De unde ati aflat despre existenta produselor alimentare ecologice?
1 ) De la TV 2 ) Din reviste 3) Din magazine 4) De la un prieten
5) De pe Internet 6) De la mine 7) Altele...........
X) Va rugam sa ne spuneti ce ocupatie aveti
( sau ati avut înainte de pensionare, somaj etc)
....................
XI) Va rugam sa ne spuneti numele si nr. dvs de telefon:
Nume:......................
Nr. telefon...................
Va multumim foarte mult pentru atentia acordata !
1) < 18 ani 2) 18-35 ani 3) 35-50 ani 4) 50- 65 ani 5 ) 65 ani
Chestionarul a fost administrat de:................
|