Teste de omogenitate
Testul c de omogenitate
Este un test folosit pentru a verifica ipoteza nula conform careia doi factori de clasificare sunt independenti sau necorelati. Cel mai simplu caz este acela în care avem doi factori de clasificare a N indivizi, iar rezultatul clasificarii este un tabel cu dubla intrare. Pentru a exemplifica principiul testului sa consideram cazul simplu în care cei doi factori de clasificare au doua clase si deci tabelul cu dubla intrare este un tabel 2x2. Un exemplu este dat în tabelul 8.2, pe care îl vom folosi în cele urmeaza pentru a explica principiul testului.
Tabelul 8.2 Exemplu de dubla clasificare a 360 de indivizi dupa doua criterii numite conventional "Factor activ" si "Factor efect"
Factor activ |
|||
Factor efect |
+ 13213q1618n |
Total |
|
+ 13213q1618n | |||
Total |
Cei doi factori îi numim conventional Factor activ si Factor efect, dar ei pot fi în principiu orice factor de clasificare. Principiul testului este acela de a compara frecventele asteptate cu frecventele observate.
Frecventele observate sunt cele efectiv înscrise în cele patru celule ale tabelului, adica în exemplul de mai sus
Frecventele asteptate, sau frecvente teoretice, sunt frecventele care ar fi trebuit sa fie înscrise în celulele tabelului în cazul în care între cei doi factori de clasificare nu ar fi o corelatie, sau ar fi independenti. Sa amintim ca ipoteza de nul este ca cei doi factori de clasificare sunt independenti. Deci frecventele asteptate sunt cele corespunzatoare ipotezei de nul. În tabelul 8.3, se arata ca primul pas în calculul frecventelor asteptate este stergerea din tabel a frecventelor observate.
Tabelul 8.3 Frecventele asteptate sunt obtinute cu ajutorul datelor de pe linia si coloana totalurilor.
Factor activ |
|||
Factor efect |
+ 13213q1618n |
Total |
|
+ 13213q1618n |
Ce frecvente asteptam | ||
Total |
În mod normal, deoarece factorul activ împarte cei 360 de indivizi în doua parti egale, ne asteptam ca în cele doua celule din prima coloana sa fie 180 de indivizi iar în cealalta coloana, tot 180.
Tabelul 8.4 Deoarece factorul activ împarte cei 360 de indivizi în doua parti egale, ne asteptam ca în cele doua celule din prima coloana sa fie 180 de indivizi iar în cealalta coloana, tot 180
Factor activ |
|||
Factor efect |
+ 13213q1618n |
Total |
|
+ 13213q1618n |
Jumatate |
Jumatate | |
Total |
Pe de alta parte, deoarece efectul este balansat în favoarea evolutiilor pozitive, si pe coloana totalurilor se observa ca avem 240 indivizi cu evolutie pozitiva, adica 2/3 din total, ne asteptam ca pe celulele primei linii sa fie 2/3 din 180, în ambele celule, iar în celulele liniei a doua, 1/3 din 180.
Tabelul 8.5 Deoarece factorul efect împarte cei 360 de indivizi în raportul 2/3 si 1/3, ne asteptam ca în cele doua celule din prima coloana sa fie 240 de indivizi iar în cealalta coloana, tot 120
Factor activ |
|||
Factor efect |
+ 13213q1618n |
Total |
|
+ 13213q1618n |
Doua treimi | ||
O treime | |||
Total |
Date fiind aceste oservatii, frecventele asteptate sunt cele înscrise în tabelul de mai jos. Valorile din cele 4 celule respecta atât conditia ca sunt egale pe cele doua coloane si ca pe o aceeasi coloana una reprezinta 2/3 si cealalt 1/3.
Tabelul 8.6 Frecventele asteptate
Factor activ |
|||
Factor efect |
+ 13213q1618n |
Total |
|
+ 13213q1618n | |||
Total |
Se observa ca frecventele observate, cele din tabelul initial, sunt altele decât cele asteptate. Aceasta arata ca cei doi factori sunt corelati, sau ca sunt într-o relatie de dependenta. Cu cât diferentele frecventelor observate sunt mai mari fata de cele asteptate, cu atât tendinta de dependenta este mai puternica.
Se mai observa în tabelul 8.7, o simetrie a diferentelor, datorata faptului ca suma lor pe linii sau pe coloane trebuie sa fie 0, ceea ce este natural daca ne gândim ca ceea ce este în plus la pozitivi, lipseste de la negativi, unde apare cu minus si invers.
Tabelul 8.7 Diferentele între frecventele observate si frecventele asteptate
Factor activ |
|||
Factor efect |
+ 13213q1618n |
Total |
|
+ 13213q1618n |
| ||
Total |
La cazul de mai sus frecventele observate au fost alese anume pentru a da totaluri simetrice si calculul frecventelor asteptate a fost si facil si destul de evident. În practica, frecventele observate nu tin cont de vointa experimentatorului ci tin de cu totul alti factori (vezi un exemplu în tabelul 8.8). Cum refacem calculul frecventelor asteptate în practica?
Tabelul 8.8 Exemplu de date reale. Rationamentul de mai sus trebuie generalizat pentru a putea calcula frecventele asteptate si în acest caz
Factor activ |
|||
Factor efect |
+ 13213q1618n |
Total |
|
+ 13213q1618n | |||
Total |
Regula de calcul este simpla. O frecventa asteptata este produsul dintre totalul liniei si coloanei pe care se afla, împartit la totalul general.
Tabelul 8.9 Calculul frecventelor asteptate
Factor activ |
|||
Factor efect |
+ 13213q1618n |
Total |
|
+ 13213q1618n |
|
| |
|
| ||
Total |
Aceasta se va vedea usor daca încercam sa urmarim cum determinam frecventa asteptata pe prima celula. Totalul liniei este 164 iar cel al coloanei 185. Din totalul coloanei de 185 trebuie retinuta fractiunea data de raportul între totalul liniei si totalul general. Adica, 185 trebuie înmultit cu raportul 164 . De aici formula pentru prima celula: fa= La fel pentru celelalte celule. Valorile obtinute sunt reprezentate în tabelul 8.10.
Tabelul 8.10 Frecventele asteptate
Factor activ |
|||
Factor efect |
+ 13213q1618n |
Total |
|
+ 13213q1618n | |||
Total |
si ]n acest caz se observa diferente între frecventele asteptate si cele observate si aceiasi simetrie. De fapt de vede ca daca dorim sa apreciem tendinta de dependenta, trebuie sa o apreciem nu privind la toate diferentele ci numai la una. La tabelul anterior, unde totalul general era de 360, diferentele au fost de 55 în plus sau în minus. La acest tabel, diferentele sunt de 27,82, deci tendinta de dependenta între factorul activ si cel pasiv este mai slaba la acesta din urma. Are o importanta si totalul general care la al doilea tabel este mai mic dar la primul diferentele fiind aproape duble decât la al doilea, concluzia ca la al doilea dependenta este mai slaba, pare îndreptatita.
Tabelul 8.11Diferentele între frecventele observate si frecventele asteptate pentru tabelul 8.8
Factor activ |
|||
Factor efect |
+ 13213q1618n |
Total |
|
+ 13213q1618n | |||
Total |
La tabelele mai mari, regula de calcul se mentine, adica o frecventa asteptata este produsul dintre totalul liniei si coloanei pe care se afla, împartit la totalul general. De exemplu, în tabelul 8.12, frecventa asteptata pe prima celula (lina 1 coloana 1) este 22x212/583=8, aproximativ. Afctorul activ este reprezentat de aplicarea unuia din tratamentele T1, T2, T3, iar cel efect de cinci trepte de evolutie.
Tabelul 8.12 Tabel de incidenta 3x5
Factor activ |
||||
Factor efect |
T1 |
T2 |
T3 |
Total |
Negativ | ||||
Usor negativ |
| |||
Stagneaza | ||||
Usor pozitiv | ||||
Pozitiv | ||||
Total |
În acelasi mod, calculând celelalte frecvente asteptate obtinem tabelul 8.13:
Tabelul 8.13 Frecventele asteptate pentru tabelul 8.12
Factor activ |
||||
Factor efect |
T1 |
T2 |
T3 |
Total |
Negativ | ||||
Usor negativ | ||||
Stagneaza | ||||
Usor pozitiv | ||||
Pozitiv | ||||
Total |
Acest tabel are frecvente asteptate care difera fata de cele observate cu diferentele date de tabelul 8.14:
Tabelul 8.14 Diferenta între frecventele observate si
frecventele asteptate pentru tabelul 8.12
Factor activ |
||||
Factor efect |
T1 |
T2 |
T3 |
Total |
Negativ | ||||
Usor negativ | ||||
Stagneaza | ||||
Usor pozitiv | ||||
Pozitiv | ||||
Total |
Se observa ca si de data aceasta suma algebrica a celulelor pe orice linie sau coloana este 0 din acelasi motiv, ca ceea ce este în plus la una sau mai multe celule dintr-o linie, lipseste de la celelalte celule ale liniei. La fel la coloane.
Statistica testului este:
care trebuie referita la tabele ale distributiei cu grade de libertate, unde l este numarul de linii ale tabelului (sau numarul de clase ale factorului efect), iar c este numarul de coloane ale tabelului (sau numarul de clase al factorului activ).
Se observa din formula ca o diferenta mai mare între frecventele asteptate si observate duce la o valoare mai mare a statisticii testului.
Pentru tabelele exemplificate mai sus, aplicarea testului conduce la urmatoarele rezultate:
Pentru tabelul 8.2: 151.25
Pentru tabelul 8.8:
41,84
Pentru tabelul 8.12cu trei coloane si cinci linii:
|