Pentru un magazin de mobila s-au cules date privind numarul de spoturi publicitare difuzate si numarul vizitatorilor (mii pers.) timp de 14 zile:
Ziua |
Nr. spoturi publicitare |
Nr. vizitatori (mii pers.) |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Se cere:
a) Analizati grafic existenta, sensul si forma legaturii dintre cele doua variabile.
b) pe baza datelor de la nivelul esantionului, determinati ecuatia de regresie care modeleaza legatura dintre cele doua variabile si calculati numarul zilnic previzionat de vizitatori;
c) verificati daca modelul de regresie identificat este valid statistic;
d) testati semnificatia statistica a parametrilor modelului, determinând si intervalele de încredere pentru acestia;
e) masurati intensitatea legaturii dintre cele doua variabile cu ajutorul coeficientului si a raportului de corelatie; testati semnificatia indicatorilor utilizati;
f) în ce masura variatia numarului de vizitatori este determinata de numarul spoturilor publicitare, pe baza modelului de regresie determinat?
g) previzionati numarul vizitatorilor asteptati într-o zi, în ipoteza ca se vor difuza 15 spoturi în acea zi.
Rezolvare:
Notam cu X variabila factoriala, independenta "nr.spoturi publicitare" si cu Y variabila dependenta "nr.vizitatori".
a) Pentru a identifica existenta, forma si sensul legaturii dintre variabilele analizate construim corelograma
Corelograma (diagrama de împrastiere)
Se observa ca legatura dintre variabile este directa si liniara (întrucât dreapta de regresie are panta pozitiva), iar ecuatia de regresie va avea forma:
b) Pentru a determina estimatorii a si b, rezolvam sistemul de ecuatii normale, folosind datele din tabelul de lucru de mai jos:
n=14 (numarul observatiilor)
xi |
yi |
xi2 |
xiyi |
yi2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Ecuatia de regresie este:
c) Testarea validitatii modelului de regresie determinat
Pentru testarea validitatii modelului se formuleaza cele doua ipoteze:
H0: model nevalid statistic cu alternativa
H1: model valid statistic
Se completeaza tabelul:
Sursa variatiei |
Suma patratelor |
Grade de libertate |
Media patratelor |
Testul Fisher (testul F) |
Datorata regresiei |
=3740,465 |
k= |
=3740,465 |
= |
Reziduala |
=305,535 |
n-k- |
=25,461 |
|
Totala |
=4046,000 |
n - |
|
Valoarea teoretica pentru un prag de semnificatie = 0,05 si 1, respectiv 12 grade de libertate, preluata din tabelul repartitiei Fisher este =4,75.
Întrucât Fcalc> se respinge H0, adica se concluzioneaza ca modelul este valid.
d) Ecuatia de regresie liniara la nivelul colectivitatii generale se scrie:
yi = a bxi + ei
iar la nivelul esantionului:
yi = a + bxi + ei
Pentru testarea semnificatiei parametrilor modelului de regresie liniara si estimarea lor pe intervalele de încredere se procedeaza astfel:
pentru parametrul b
Ipotezele testate sunt:
H0 : b mb b
H1 : b
Deoarece volumul esantionului este mic (n<30), vom utiliza testul t:
, statistica ce urmeaza o distributie t cu (n - 2) grade de libertate.
Unde
Iar
Se obtine 12,1206
Pentru un prag de semnificatie de 5%, valoarea teoretica a testului este ta = 2,179 . Deoarece >ta vom concluziona ca este foarte improbabil ca estimatorul b sa provina dintr-o populatie cu b ( adica b este semnificativ diferit de zero), deci parametrul b este semnificativ statistic.
Intervalul de încredere pentru parametrul , coeficientul de regresie din colectivitatea generala, este:
, adica
) pentru parametrul a
Ipotezele testate sunt:
H0 : a
H1 : a
Statistica t este:
.
Unde
Se obtine = 0,7394
Pentru un prag de semnificatie de 5%, valoarea teoretica a testului este ta = 2,179 . Deoarece <ta vom concluziona ca este foarte probabil ca estimatorul a sa provina dintr-o populatie cu a ( adica a nu este semnificativ diferit de zero).
Intervalul de încredere pentru parametrul este dat de:
, adica -4,4495 9,0210.
Un argument suplimentar pentru concluzia ca parametrul a este nesemnificativ statistic este acela ca intervalul de încredere include si valoarea zero.
e) Pentru a masura intensitatea legaturii dintre cele doua variabile se va calcula mai întâi coeficientul de corelatie liniara:
Acest indicator ne arata o legatura directa si foarte puternica (r este pozitiv si apropiat de valoarea unitara).
Pentru testarea semnificatiei coeficientului de corelatie liniara simpla, se procedeaza astfel:
Ipotezele testate sunt:
H0 : nu este semnificativ statistic)
H1: este semnificativ statistic).
Testul t este:
Cum valoarea tabelara a testului t, pentru un prag de semnificatie de 5% si 12 grade de libertate este 2,179 rezulta ca tcalc > , deci coeficientul de corelatie este semnificativ statistic
Un alt indicator utilizat atât în cazul legaturilor liniare, cât si al celor neliniare este raportul de corelatie R:
Calculele necesare determinarii raportului de corelatie sunt redate în tabelul anterior.
mii pers.
Ry/x = ry/x = 0,9615, deci exista o legatura liniara, puternica si directa între cele doua variabile.
Testarea semnificatiei raportului de corelatie se face cu testul F:
Valoarea teoretica pentru un prag de semnificatie = 0,05 si 1, respectiv 12 grade de libertate, preluata din tabelul repartitiei Fisher este =4,75.
Întrucât Fcalc> se respinge H0, adica se concluzioneaza ca R este semnificativ statistic.
f) Pentru a determina în ce masura variatia numarului de vizitatori este explicata de influenta numarului de spoturi publicitare difuzate zilnic, se calculeaza coeficientul de determinatie
sau 92,45% arata ca aproximativ 92% din variatia variabilei Y este explicata de variabila X.
g) Daca numarul spoturilor publicitare difuzate va fi de 15, atunci numarul previzionat al vizitatorilor pe baza acestei ecuatii de regresie este:
mii pers.
Se poate utiliza, însa, pentru rezolvarea problemei si un pachet informatic specializat, în cazul nostru - EXCEL. În urma selectarii, din meniul principal, a optiunilor <Tools>+<Data Analysis>+<Regression>, s-au obtinut urmatoarele rezultate:
SUMMARY OUTPUT |
|
Regression Statistics |
|
Multiple R |
|
|
|
Adjusted |
|
Standard Error |
|
Observations |
|
ANOVA |
|||||
|
df |
SS |
MS |
F |
Significance F |
Regression |
|
|
|
|
|
Residual |
|
|
|
|
|
Total |
|
|
|
|
|
|
Coefficients |
Standard Error |
t Stat |
P-value |
Lower 95% |
Upper 95% |
Intercept |
|
|
|
|
|
|
Nr. spoturi |
|
|
|
|
|
|
|