Importanta repartitiei normale

Matematica

ALTE DOCUMENTE

Proiect de lectie - Matematica si stiinte ale naturii

Modelul matematic general al problemelor de tip transport

Sisteme de ecuatii liniare - Sisteme de doua ecuatii cu doua necunoscute

Eroarea teoretica a mediei aritmetice

Masina de calcul a lui Raymundus - Lullus ca sistem de memorie magica

Punct.Dreapta.Plan

Piramida

Functia

EVALUARE - Matematica / clasa I

FUNCTII

Importanta repartitiei normale

Dupa cum s-a vazut în subcapitolul 6.3, si dupa cum se va vedea si în acest subcapitol, cunoasterea unei repartitii în general este utila deoarece se pot verifica si elimina valorile aberante, se pot verifica limitele de normalitate, etc. Daca stim ca o variabila are o distributie Gauss cu media m si deviatia standard s, atunci aproximativ 99,5% din valorile acelei variabile sunt în intervalul [m-3s, m+3s]. Deci, putem considera ca într-un esantion de dimensiune destul de mare, de câteva sute de cazuri, aparitia de valori în afara acestui interval este aberanta, adica, în principiu ar trebuie eliminate. Pe de alta parte valorile pe care le consideram normale se încadreaza în asa-numitul interval de normalitate care este aproximativ [m-2s, m+2s]. Mai mult, având o valoare data, putem cere sa se verifice cât de verosimil este ca ea sa provina dintr-o populatie cu distributia Gauss, cu media m si abaterea standard s.

Pentru a întelege mai bine ideile de mai sus, sa luam un exemplu. Latenta semnalului nervos pe nervul optic la indivizii normali este în medie 105ms cu o deviatie standard de 7,5ms. Masurând latenta unui individ, se gaseste 142ms si dorim sa stabilim cât de probabil este ca o valoare peste 142ms sa provina dintr-o populatie repartizata Gauss, de indivizi normali cu media 105ms si deviatia standard 7,5ms.

În figura 6.17, sunt figurate media si valorile corespunzatoare la m-s, m+s, m-2s, m+2s, m-3s, m+3s, precum si valoarea 142ms. Desi pare ca aceasta valoare iese din grafic, în realitate curba tinde asimptotic la axa orizontala si trece pe deasupra acestei valori, chiar daca imperfectiunile desenului nu arata acest lucru. Pentru a afla cât de probabil este sa întâlnim valori de 142ms si peste, într-o repartitie Gauss cu media 105ms si abaterea standard 7,5ms, trebuie calculata aria cuprinsa între curba si orizontala, la stânga luând de la - infinit, iar la dreapta pâna la 142ms. Este clar ca aproape întreaga arie este luata, exceptând o portiune minuscula, la dreapta valorii 142ms. Aceasta portiune are o arie mai mica decât 0,000001, adica mai mica decât 0,0001%, sau 1 la 1000000. Este deci foarte improbabil ca valoarea de 142ms sa provina dintr-o populatie ca cea folosita de noi. În realitate, pacientul are scleroza multipla si provine de fapt dintr-o alta populatie, cea a pacientilor afectati de boala.

Figura 6.17 Repartitia Gauss cu media 105ms si deviatia standard 7,5ms. Valoarea 142ms este fosrte improbabil sa apartina acestei repartitii

Ne putem pune acum mai multe întrebari pentru conduita în alte situatii asemanatoare. De exemplu:

Care este probabilitatea ca sa întâlnim valoarea de 129,5ms, sau mai mare? Raspunsul se da similar: se calculeaza aria de la stânga lui 129,5, care este 0,0013, sau 0,13%. Aproximativ 0,13% dintre valori vor fi de 129,5ms si peste.

Dar probabilitatea ca o valoare sa fie sub 90? Este aria din stânga valorii 90, care este 0,0228 sau 2,28%. Cam 2,28% dintre valori vor fi de 90 si mai mici ca 90.

Din exemplele de mai sus se observa ca pentru a raspunde la întrebari similare, trebuie sa calculam aria de sub curba din dreapta sau stânga unui anumit numar, dupa caz. Pare simplu. Dar cine face aceste calcule? Aceste arii depind si de numarul în sine, dar si de media si deviatia standard a curbei pe care trebuie facut calculul. Ariile de mai sus ar fi fost cu totul altele daca media nu ar fi fost 105ms ci alta, sau daca deviatia standard nu ar fi fost 7,5ms ci alta.

Aici intervine distributia Gauss standard. Anume, daca transformam valorile 105, 112,5 si celelalte în deviatii fata de medie, adica în valori ale variabilei z, calculul probabilitatilor de mai sus revine la a face calculul pe curba de repartitie standard, fara sa mai avem dificultatile legate de medie si deviatia standard (vezi figura 6.18). În figura 6.19 este reprezentat modul de transformare în general a unei curbe Gauss întro curba standard.

Figura 6.18 Modul de transformare al curbei Gauss cu media 105ms si deviatia standard 7,5ms în curba standard cu media 0 si deviatia standard 1

Figura 6.19 Modul de transformare al curbei Gauss cu media m si deviatia standard s în curba standard cu media 0 si deviatia standard 1

Bineînteles ca si calculele pe curba Gauss standard nu se fac efectiv în momentul când avem nevoie de ele. Aceste arii sunt precalculate în tabele statistice. Mai precis, se calculeaza de obicei ariile la dreapta numerelor luate din 0,01 în 0,01, uneori si cu un pas mai fin. În anexele acestei carti sunt explicate modul cum se cauta aceste valori în tabele statisitce.

Regula celor 3 sigma. Deoarece în intervalul care se obtine prin scaderea si adunarea a trei sigma la medie este cuprinsa o arie de aproximativ 99,74% din toata aria de sub curba normala, în esantioane ce nu depasesc anumite limite de volum, în mod normal nu exista nici o valoare care sa fie în afara intervalului celor trei sigma. De aceea în general, aceste valori, atunci când totusi apar, sunt considerate aberante si sunt eliminate. Eliminarea valorilor aberante nu se face automat si fara o judectaa pentru fiecare astfel de valoare în parte. Totusi, uneori se elimina ca aberante valori care nu numai ca se afla în afara intervalului celor trei sigma, dar sunt foarte departe de marginile acestui interval. O teorema celebra, datorata lui Cebâsev spune ca, indiferent de distributie, valorile sunt practic situate între media plus-minus sase abateri standard. Deci ceea ce iese din acest interval trebuie eliminat automat ca aberant.

Regula celor 2 sigma. În mod asemanator cu regula celor trei sigma, valorile situate în intervalul obtinut prin adunarea si scaderea a doua valori ale lui sigma la m, sunt considerate ca valori normale. În acest intreval se gasesc aproximativ 95,44% din indivizii unei populatii, daca populatia are o distributie Gauss. Aceasta este considerata o majoritate suficienta pentru a lua acest interval ca interval de normalitate.

Ar rezulta ca se pot în acest fel construi intrevale de normalitate practic pentru orice tip de variabila distribuita Gauss. Din pacate, în practica lucrurile nu stau deloc asa. Intervalul de normalitate se construieste folosind media si deviatia standard ale repartitiei Gauss considerate. Dar acesti parametri sunt de obicei necunoscuti. De aceea, intervalele de normalitate puse la dispozitie de manuale si tratatele stiintifice sunt calculate pe esantioane foarte mari, astfel ca media si abaterea standard de esantionare sa aiba valori foarte apropiate de cele reale si sunt folosite în locul mediei si deviatiei standard ale întregii populatii.

Intervalele de normalitate obtinute astfel nu au valoarea stiintifica pe care le-ar avea cele care folosesc valorile exacte si nu pe cele aproximative. Totusi ele sunt singurele pe care le avem la dispozitie si nimic mai bun nu putem pretinde decât îmbunatatirea acestor intervale imprecise. De aceea se verifica în permanenta modul în care un esantion se înscrie sau nu în intervalele de normalitate citate în literatura de specialitate. De aceea sunt uneori situatii în care surse diferite dau ca intervale de normalitate valori usor schimbate, dupa autorul sau studiul care le-a obtinut. Micile diferente apar tocmai din faptul ca se folosesc valori aproximative în locul celor exacte.

Observatie: Cuvântul "normal" are în statistica alt înteles decât în limbajul curent:

În limbajul curent "normal" este un individ care se înscrie în limitele normalitatii, nu are nimic neobisnuit, în limbaj medical este înteles uneori ca "sanatos".

În statistica, "normala" este o repartitie si anume repartitia Gauss. O variabila aleatoare este repartizata (sau nu), normal, adica Gauss. Folosirea termenului din limbajul curent dateaza din copilaria statisticii, când descoperirea repartitiei Gauss si a multor fenomene care se repartizeaza Gauss, multi au crezut ca aproape totul poate fi modelat cu ajutorul acestei repartitii. A fi repartizat Gauss era sinonim cu a fi "normal". S-a vazut mai apoi ca nu este asa si ca multe fenomene trebuie modelate folosind alte legi de repartitie.

Daca avem un spatiu de baza pentru un experiment, notat cu Ω, si o variabila aleatoare , si daca valorile variabilei f sunt repartizate Gauss, cu media m si abaterea standard s, atunci scriem acest fapt astfel: .

O teorema referitoare la variabile aleatoare, care se demonstreaza în statistica teoretica si pe care o dam în continuare fara demonstratie, este urmatoarea:

Teorema 1. Fie W un spatiu de baza si n variabile aleatoare independente , fiecare dintre ele repartizate normal , atunci pentru orice numere reale α₁, α₂ ...α_n , avem:

Aceasta teorema afirma ca putem aduna sau scadea doua sau mai multe variabile aleatoare independente definite pe acelasi spatiu de probabilitate, eventual, dupa ce au fost înmultite cu numere reale, si rezultatul este tot o variabila aleatoare distribuita normal. În plus, media si dispersia noii variabile aleatoare pot fi calculate din mediile si dispersiile variabilelor aleatoare initiale si numerele reale folosite la înmultire.

De exemplu, daca f, este distribuita Gauss cu media m si abaterea standard s, iar α este un numar real atunci αf este distribuit tot Gauss cu media αm si abaterea standard αs. Aceasta proprietate permite ca atunci când valorile numerice ale unei variabile sunt prea mari sau prea mici si din diverse motive este necesar ca valorile sa fie schimbate, acest lucru se poate face prin înmultirea (împartirea) tuturor valorilor cu un factor constant. Media si abaterea standard se vor înmulti automat cu acel factor. Pentru a reveni la media sau deviatia standard reale dupa prelucrare, se împart (înmultesc) cu factorul respectiv

Tot ca urmare a afirmatiei din teorema 1, este adevarat ca daca f₁ si f₂ sunt doua variabile aleatoare repartizate Gauss cu mediile m₁ si m₂ si abaterile standard s₁ si s₂, atunci f₁+f₂ este distribuita tot Gauss cu media m₁+m₂ si abaterea standard .

De asemenea, daca f₁,f₂,..f_n sunt variabile aleatoare distribuite Gauss având toate aceeasi medie m si aceeasi abatere standard s, atunci variabila aleatoare medie:

este distribuita tot Gauss, cu media m si abaterea standard . Acest fapt este important asa cum se va vedea în capitolul urmator, care trateaza problema esantionarii.

Document Info

Accesari: 5680
Apreciat:

Comenteaza documentul:

Nu esti inregistrat
Trebuie sa fii utilizator inregistrat pentru a putea comenta

Creaza cont nou

A fost util?

Daca documentul a fost util si crezi ca merita
sa adaugi un link catre el la tine in site

Copiaza codul:
in pagina web a site-ului tau.

eCoduri.com - coduri postale, contabile, CAEN sau bancare

Politica de confidentialitate | Termenii si conditii de utilizare