MODELUL DE REGRESIE
1 Introducere
2 Modelul de regresie unifactorial
3 Estimarea parametrilor
Consideram ca dispunem de seria de date (yi, xi), iar intre variabilele (Y, X) exista dependenta liniara:
unde ei reprezinta termenul rezidual.
Pentru estimarea parametrilor vom utiliza metoda celor mai mici patrate.
Dreapta de regresie |
Pentru a determina o estimatie pentru cei celor doi parametri vom considera suma patratelor erorilor:
Din conditiile de optim rezulta urmatoarele doua ecuatii:
Se obtine astfel sistemul normal de ecuatii:
Solutia: .
Observatii:
- daca > 0,atunci legatura dintre variabile este directa;
- daca = 0, atunci cele doua variabile in dependenta liniara;
- daca < 0, atunci intre cele doua variabile exista o dependenta liniara inversa.
Proprietatile estimatorilor modelului de regresie
Notatii:
Valoarea estimata:
Valoarea reziduala(reziduul):
Daca notam suma patratelor erorilor de regresie atunci un estimator al variantei variabilei reziduale este
.
Proprietatile estimatorilor
Erorile standard vor fi folosite la testarea semnificatiei parametrilor modelului de regresie.
Testul t pentru panta dreptei de regresie(slope)
Intervale de incredere pentru parametrii modelului
Pentru termenul liber(intercept)
Pentru panta dreptei de regresie(slope)
Pentru exemplul de la inceput avem:
Panta dreptei de regresie este pozitiva, deci exista o legatura directa intre chirie si suprafata apartamentelor.
In plus, daca chiria creste cu o unitate(1 m2) ,chiria va creste cu 10.640 lei.
Doar panta dreptei de regresie este semnifcativ diferita de zero.
P-value – probabilitatea ipotezei ca parametrul estimat sa fie egal cu zero; daca P-value este mai mic decit pragul de semnificatie atunci respingem aceasta ipoteza.
Analiza variantei pentru modelul de regresie
Daca intre X si Y nu exista nici o legatura, atunci putem face predictii privind valoarea medie a lui Y pentru orice valoare a lui X
Daca exista o legatura intre X si Y, in ce masura cunoasterea valorilor lui X poate explica abaterea variabilei dependente de la media sa?
Abaterea totala = abaterea explicata + Abaterea reziduala
SST SSR + SSE
SST = Total Sum of Squares
Masoara variatia valorilor observate Yi in jurul mediei Y
SSR Regression Sum of Squares
Masoara variatia explicata de modelul de regresie
SSE Error Sum of Squares
Masoara variatia ce poate fi atribuita altor factori, diferiti de variabila explicativa X
Coeficientul de determinatie R2
Este o masura a proportiei variantei explicate de model
R2 este afectat de cresterea numarului de parametri; de aceea pentru modele cu multi parametri se calculeaza R2 ajustat, care are aceeasi interpretare.
Predictia folosind modelul de regresie
1.Tipuri de predictii
Estimari punctuale
Estimari pe intervale de incredere
2.Care e obiectul predictiei?
Media populatiei E(Y) pentru o valoare particulara a lui X
Valoarea individuala (Yi) pentru o valoare particulara a lui X
Interval de incredere pentru media lui Y
Interval de predictie pentru valori particulare
|