Documente online.
Zona de administrare documente. Fisierele tale
Am uitat parola x Creaza cont nou
 HomeExploreaza
upload
Upload




Data Mining

Informatica


Data Mining

Data Mining e un proces complex de actualizare a relatiilor, dependentelor, asocierilor, modelelor, structurilor, tendintelor si claselor prin exploatarea informatiilor conservate in baza de date folosind metode matematice, statistice sau algoritmice.



Un Data Mining e considerat un proces de prelucrare a datelor elementare disponibile in Data Warehouse cu scopul furnizarii de informatii necesare procesului decisional. In sfera metodelor Data Mining putem identifica atat retele neuronale sau arbori de decizie cat si tehnici de vizualizare multidimensionale.

Aplictiile pot fi grupate in doua categorii :

1. Sisteme operationale care cuprind ansamblul de activitati traditionale de gestiune ca: gestiunea stocurilor, gestiunea distributiei, activitatea de manipulare a dosarelor in administratie, gestiunea activitati 525b17f lor bancare. In majoritatea cazurilor procesul se reduce la automatizarea operatiilor administrative care sunt repetitive.

2. Sisteme decizionale care inglobeaza aplicatiile ce asiguri posibilitati de diferentiere la nivel de intreprindere.

Sistemele pot fi grupate in:

- motoare de gestionare a bazelor de date pentru stocarea si structurarea acestora ;

- instrumente de interogare ;

- tehnologii OLAP pentru analiza multidimensionala ;

- metode Data Mining pentru descoperirea cunostintelor ascunse in spatele datelor clasice.

Ultimele 3 prezinta diferentieri atat din punct de vedere al scopului urmarit (analiza elementelor trecute sau previzionarea celor viitoare) cat si in functie de gradul de agregare.

Accesarea datelor in sistemele decizionale se desfasoara mai mult aleator; interogarile folosesc un volum mare de inregistrari. In prezent este destul de greu sa se asigure exploatarea aceleiasi baze de date in scopuri operationale si decizionale.

8.1 Etapele procesului Data Mining

1. Identificarea problemei care presupune formularea problemei de rezolvat in conditiile cunoasterii datelor detaliate. Pentru o formulare cat mai exacta se procedeaza la descompunerea in subprobleme cu grad de complexitate redus.

Lansarea unui proces Data Mining presupune in paralel un demers de analiza critica a rezultatelor scontate si a implicatiilor acestora in diferite domenii de activitate. De asemenea trebuie identificati utilizatorii pentru ca nu toate instrumentele ofera aceleasi facilitati in interpretare.

2.Cautarea datelor se face in 2 faze:

a) Investigarea - care presupune selectarea datelor cu sprijinul expertilor in domeniu astfel incat sa se determine atributele corespunzatoare pentru descrierea problemei. In aceasta faza se vor clasifica asocierile, se va studia continutul si semantica acestora, se vor identifica valori extreme etc.

b) Reducerea dimensiunilor problemei - care presupune observarea corelatiilor dintre anumite date, corelatii ce pot genera reducerea numarului de intrari intr-un sistem fara insa ca aceasta reducere sa fie arbitrara.

3.Selectarea datelor pertinente. O buna modalitate de creare a unui model este identificarea unor evenimente similare. Colectarea si selectarea datelor pertinente reprezinta pana la 80% din ansamblul de activitati aferente Data Mining -ului. Analistul trebuie sa aleaga intre un studiu bazat pe exhaustivitate efectuat pe un esantion; fiecare sistem are avantaje si dezavantaje.

4.Eliminarea datelor necorespunzatoare se face diferit in functie de dimensiunea bazei de date si de modul de constituire al acesteia, astfel :

- daca baza de exemple e restransa (mai putin de 300 inregistrari si mai putin de 30 variante), iar alimentarea cu date se face automat e mai usor sa verificam manual si vizual fiecare inregistrare pentru a descoperi anomaliile. Reprezentarile grafice precum histograma sau norul de puncte fac posibila izolarea elementelor necorespunzatoare .

- daca baza de exemple e restransa si alimentarea cu date se face manual se va verifica si coerenta datelor in momentul incarcarii lor.

- daca baza de exemple e larga si alimentarea cu date se face manual e posibila introducerea de date identice, costul va creste si beneficiile nu vor fi cele scontate.

- daca baza de date e voluminoasa si alimentarea cu date se face automat se va trece la identificarea valorilor aberante prin: izolarea valorilor considerate gresite in distributiile statistice, construirea unui scor si identificarea ulterioara prin intermediul indicatorilor statistici etc.

Pentru administrarea datelor care lipsesc putem recurge la :

- excluderea inregistrarilor incomplete;

- inlocuirea valorilor aberante;

- inlaturarea valorilor absente.

Ultima faza a analizei se refera la studiul valorilor nule care pot afecta inregistrarile bazei de date.

5.Stabilirea modului de actiune asupra variabilelor. Datele fiabile si variabilele pertinente vor fi transformate in doua moduri:

a)Transformarea monovariabila care se poate realiza prin:

- modificarea unitatii de masura pentru a evita disproportiile;

- transformarea logaritmica a variabilei pentru a limita impactul valorilor exceptionale;

- transformarea datelor in durate;

- modificarea coordonatelor asociate datelor geografice prin instrumente speciale care transforma adresele si elementele aferente acestora in coordonate geografice.

b)Transformarea multivariabila care consta in combinarea mai multor variabile elementare si obtinerea uneia agregate prin metoda:

- ratelor care presupune corelatia a doi indicatori sub forma de rate;

- frecventelor in cadrul careia masurarea datelor pentru un interval de timp permite identificarea gradului de repetabilitate a schimburilor;

- tendintelor inregistrate care presupune studiul evolutiei in timp a schimburilor urmarind astfel progresul sau regresul inregistrat de anumiti indicatori;

- combinari liniare si neliniare.

6.Cercetarea modelului consta in extragerea cunostintelor utile pornind de la un volum mare de date brute care vor fi prezentate intr-o forma sintetica. Modelele actuale construite intr-o maniera automata au un inalt nivel de interactivitate si permit interogari din ce in ce mai sugestive:

Plasarea diferitelor tehnici de modelare are in vedere :

- cautarea modelelor bazate pe ecuatii;

- analiza logica sau descompunerea problemei in subansamble successive pentru a beneficia de un rationament structural;

- alegerea tehnicilor de proiectare.

7.Evaluarea rezultatului care se poate face din punct de vedere calitativ sau cantitativ. Evaluarea calitativa se face prin reprezentarea grafica a datelor sau conceptual facilitand partajarea cunostintelor. Evaluarea cantitativa se face prin indicatori de sinteza care reflecta gradul de incredere si precizia sondajului.

Dupa construirea modelului se recomanda validarea acestuia prin efectuarea unui test asupra bazei de date, test care sa verifice corectitudinea clasarilor.

8.Integrarea cunostintelor consta in implantarea modelului si a rezultatelor sale in sistemul informatic al intreprinderii sau in procesul decizional al acesteia.

Fiecare din etapele prezentate constituie un punct de control in asigurarea calitatii totale a procesului Data Minig.

Tendinsele inregistrate in practica decizionala actuala impun integrarea facilitatilor de asistare tip Data Mining la nivelul tuturor stadiilor proiectului.


Document Info


Accesari: 1930
Apreciat: hand-up

Comenteaza documentul:

Nu esti inregistrat
Trebuie sa fii utilizator inregistrat pentru a putea comenta


Creaza cont nou

A fost util?

Daca documentul a fost util si crezi ca merita
sa adaugi un link catre el la tine in site


in pagina web a site-ului tau.




eCoduri.com - coduri postale, contabile, CAEN sau bancare

Politica de confidentialitate | Termenii si conditii de utilizare




Copyright © Contact (SCRIGROUP Int. 2024 )