Modelul clasic de regresie (cu folosirea testelor t si F)
Sa presupunem ca dispunem de informatii privind investitia si rata dobanzii.
Investitia mil |
Rata dobanzii % |
Tabelul 1. Date privind investitia si rata dobanzii
Dorim sa exprimam printr-un model econometric, folosind datele din tabelul 1, legatura dintre investitie si rata dobanzii; apoi, odata modelul validat, sa putem sa-l folosim pe 757f56h ntru a face predictii la nivel macroeconomic.
Avem doar o singura variabila independenta. Este util sa facem mai intai o reprezentare grafica de tip XY. Rezultatul cu aplicatia Excel, este prezentat in figura 1.
Toate indiciile sunt in directia folosirii unui model clasic de regresie (dependenta pare liniara, erorile par a avea dispersia constanta, termenul liber pare a fi diferit de zero).
Folosind un soft clasic, de exemplu modulul Regression din Excel obtinem urmatoarele rezultate
SUMMARY OUTPUT |
||
Regression Statistics |
||
Multiple R |
| |
R Square |
| |
Adjusted R Square |
| |
Standard Error |
|
|
Observations |
|
ANOVA |
||||||||
df |
SS |
MS |
Fcalc |
Significance F |
||||
Regression |
|
|
|
| ||||
Residual |
|
|
| |||||
Total |
|
|
Coefficients |
Standard Error |
t Stat |
P-value |
Lower 95% |
Upper 95% | ||||||
Intercept |
|
|
|
|
|
||||||
Rata dobanzii % |
|
|
|
|
|
Sa analizam pe rand rezultatele din casetele evidentiate in tabelul 2.
Caseta A ofera informatii despre indicatori ce ne releva bonitatea modelului sau cat de bun este modelul pe care il analizam.
Acesti indicatori sunt:raportul de corelatie(Multiple R), coeficientul de corelatie dintre valorile observate si valorile ajustate prin ecuatia de regresie (R Square), si coeficientul de determinatie ajustat (Adjusted R Square). Cu cat si au valori mai apropiate de 1 cu atat regresia este mai buna.
Interpretarea rezultatelor din tabelul SUMMARY OUTPUT
Pentru aplicatia noastra, cum toti indicatorii de bonitate enumerati sunt apropiati de 1, putem concluziona ca modelul de regresie liniara simpla este bun.
Caseta B, se refera la descompunerea variantei totale (SST) a variabilei dependente in doua componente: varianta explicata prin regresie (SSR) si varianta neexplicata (SSU) sau varianta reziduala.. Aici identificam si gradele de libertate asociate descompunerii, mai precis, daca avem k regresori in model si n observatii, avem egalitatea . In aceasta caseta exista doua celule importante la care trebuie sa fim atenti, si anume: F si Significance F. Valorile din aceste celule ne dau elemente importante ce stau la baza validarii modelului de regresie (in totalitatea sa). Ele ne furnizeaza informatii privind valoarea calculata a statisticii test F si erorii pe care putem s-o facem cand respingem modelului de regresie ca fiind neadecvat. Regula de decizie privind acceptarea modelului este: valori mari pentru statistica test
F si valori mici pentru Significance F. Significance F reprezinta valoarea erorii pe care o facem prin respingerea ipotezei nule cand de fapt ea este adevarata.
Pe datele noastre, cum F = este o valoare mare si Significance F = , deci o valoare foarte mica, acceptam ca modelul ales ajusteaza bine datele din esantion.Significance F trebuie sa fie in general mai mica de 5%(0.05).
Caseta C ne ofera informatii despre valorile estimate ale coeficientilor modelului de regresie in coloana Coefficients, erorile standard ale coeficientilor in coloana Standard Error, elemente pentru aplicarea testului de semnificatie t-Student pentru fiecare coeficient (coloanele t Stat si P-value.). Deci, valoarea din coloana t-Stat se obtine impartind pentru fiecare estimator al modelului, valoarea estimatiei la eroarea standard a estimatorului si astfel obtinem valoarea calculata a testului t pentru fiecare estimator al modelului.Aceasta valoarea calculata se compara cu valoarea tabelara preluata din tabelul repartitiei Student.
Despre p-value
Inaintea inceperii unui test statistic clasic, se pune problema alegerii unui nivel de semnificatie. Acesta exprima riscul maximal de a gresi pe care suntem dispusi sa-l acceptam (de regula 5%, 1% sau chiar mai mic) atunci cand luam decizia de respingere a ipotezei nule.
Softul modern ofera posibilitatea "inversa". Anume, este evaluat riscul de a lua decizia gresita, pe baza datelor de care dispunem, ramanand la latitudinea fiecaruia daca isi asuma sau nu acest risc. Acest risc evaluat pe baza datelor apare in tabele, la fiecare test de semnificatie, si se numeste valoarea p (p-value).
Tot aici avem informatii despre intervalele de incredere calculate pentru fiecare parametru din modelul de regresie.
Cum analizam informatiile din aceasta caseta?
1) Pentru ca un coeficient sa fie semnificativ diferit de zero, deci variabila regresor(var.independenta) asociata lui sa influenteze variabila dependenta, trebuie ca in coloana P-value sa avem valori mici, de exemplu 5% sau sub 5% (evident in coloana t Stat avem atunci valori mari, in modul). Concret, pentru termenul liber al modelului (Intercept avem P-value = 0.043, adica putem afirma ca daca respingem ipoteza ca interceptul este egal cu zero, facem o eroare doar de 4%. Respingem deci aceasta afirmatie si acceptam ca adevarata ipoteza ca interceptul este diferit de zero. (Analog, ajungem la concluzia ca si panta dreptei de regresie este diferita statistic de zero).
2) Ultimele doua coloane ne dau informatii privind intervalele de incredere 95% pentru fiecare coeficient al modelului. Astfel, pentru termenul liber (teoretic) al modelului obtinem intervalul ( Analog, pentru panta ecuatiei de regresie avem intervalul de incredere ( Este foarte important faptul ca nici unul dintre aceste intervale de incredere nu contine pe 0, suntem incurajati astfel in a afirma ca modelul este bun.
|