Documente online.
Zona de administrare documente. Fisierele tale
Am uitat parola x Creaza cont nou
 HomeExploreaza
upload
Upload




Tehnologia Data Mining

Informatica


Tehnologia Data Mining

Ce este Data Mining?

Cu toate ca am prezentat deja doua definitii ale data mining-ului, putem spune si ca Data Mining reprezinta "torturarea datelor pâna când acestea se confeseaza"[1].



Descoperirea cunostintelor si data mining-ul (Knowledge Discovery and Data mining - KDD) au emers ca un domeniu interdisciplinar aflat într-o dezvoltare rapida ce fuzioneaza baze de date, statistici, domenii de activitate aflate în strânsa legatura în dorinta de a extrage informatii valoroase si cunostiinte într-un volum cât mai mare.

Exista o diferenta în întelegerea termenilor "descoperirea de cunostinte" si "data mining". Descoperirea informatiei (Knowledge Discovery) în baza de date este un proces de identificare a unor modele/sabloane de date valide, novatoare, folositoare si, în ultima masura, de înteles.

Data mining este un pas în procesul de descoperire a informatiei constând într-un set de algoritmi data mining care, în limite acceptate, descopera "sabloane" (patterns) semnificative în structura datelor, care să indice în general tendinte ale pietei. 717j911h

Data mining descopera modele în interiorul datelor utilizând tehnici predictive. Aceste modele joaca un rol foarte important în luarea deciziilor deoarece ele evidentiaza arii unde procesele de business necesita îmbunatatire. Utilizând solutiile de data mining, organizatiile îsi pot marii profitabilitatea interactionarii cu clientii lor, pot detecta fraude, pot îmbunatatii managementul activitatilor cu risc mare, etc. Modelele descoperite utilizând solutiile de data mining ajuta organizatiile sa ia decizii mai bune si într-un timp mai scurt.

Marea majoritate a analistilor separa softurile data mining în doua grupe:

instrumente de data mining - pun la dispozitia utilizatorului un numar de tehnici care pot fi aplicate oricarei probleme de business;

aplicatii de data mining - încorporeaza tehnici în interiorul unei aplicatii special construita pentru a se adresa unei probleme specifice.de business. Indiferent daca realizam sau nu, viata noastra zilnica este influentata de o aplicatie de data mining. De exemplu, aproape orice tranzactie financiara este procesata de catre o aplicatie de data mining pentru a detecta daca exista vro frauda. Din ce în ce mai mult organizatiile utilizeaza instrumente si aplicatii de data mining împreuna pentru a dezvolta analize predictive.

Instrumentele de data mining sunt utilizate pentru a asigura flexibilitate si exactitate în analize. Acestea cresc eficacitatea aplicatiilor de data mining.

Componentele Data Mining si KDD (Knowledge Discovery and Data mining)

Functia principala a DM este, deci, de a extrage modele de cunostinte din date. Pentru aceasta, DM utilizeaza o varietate de algoritmi din statistica, recunoasterea formelor, clasificare, logica fuzzy, machine learning, algoritmi genetici, retele neuronale, vizualizarea datelor, etc. Varietatea de algoritmi poate fi grupata în principalele componente ale DM. Numarul acestor componente difera de la un autor la altul. Astfel, unii considera ca DM are 3 componente, altii, 4, etc.

Principalele componente ale DM sunt:

modelul - care, ca orice model informatic, se reprezinta printr-o functie într-un spatiu unidimensional sau multidimensional (un ansamblu de functii), depinzând de parametri. El poate fi reprezentat fie ca o functie liniara de parametri, fie ca o functie de probabilitate (de exemplu normala), fie ca o functie fuzzy, etc. Obtinerea modelului se realizeaza prin diferiti algoritmi, cum ar fi cei de clasificare si clusterizare;

criteriile de preferinta - care pot fi de natura diferită, unele dintre acestea bazându-se pe ordonare, altele pe interpolare sau cea mai buna aproximare;

algoritmi de selectie - care conduc la selectarea a trei elemente importante care apar în DM, si anume: modelul, care se selecteaza din baza de modele, datele, care se selecteaza din baza de date si constituie parametrii, si criteriul sau criteriile de preferinte, care se selecteaza din baza de criterii;

stabilirea abaterilor - care consta în general în algoritmi de determinare a deviatiei si stabilitatii; o categorie specifica de astfel de algoritmi sunt cei statistici, prin care se stabilesc abaterile modelului fata de ideal.

Procesul Knowledge Discovery

Bineînteles ca fiecare produs comercial utilizeaza mai multi algoritmi si în fiecare dintre ei se regasesc o parte sau toate componentele de mai sus în diferite proportii.

Autorii care fac deosebire între DM si KDD considera KDD ca fiind un proces iterativ si interactiv complex, care include DM. Astfel, în cadrul KDD se considera ca extragerea cunostintelor se realizeaza în următorii pasi:

- Primul pas este cel întelegere al domeniului de aplicabilitate si al formularii problemei. Acest pas este o conditie esentiala pentru extragerea cunostintelor utile si pentru alegerea celor mai potrivite metode de data mining pentru etapa a treia, conforme cu destinatia aplicatiei si cu natura datelor.

- Al doilea pas este cel de colectare si reprocesare a datelor, inclusiv selectia surselor de date, eliminarea straturilor exterioare, tratamentul datelor lipsa, transformarea si reducerea datelor. Acest pas consuma cel mai mult timp din întreg procesul KDD.

- Pasul trei îl reprezinta data mining, procesul de extragere a modelelor sau pattern-urilor ascunse în date. Un model reprezinta: o reprezentare globala a unei structuri ce rezuma componenta sistematica ce sta la baza datelor sau care descrie cum pot rezulta datele. În contrast, un pattern este o structura locala, asociata probabil cu câteva variabile si câteva conditii (cazuri). Cele mai importante metode data mining sunt modelarea predictiva cu clasificarea si regresia, clustering-ul, modelarea dependentei cu modele grafice si estimarea densitatii, etc.

- Al patrulea pas, este cel de interpretare (post-procesare) a cunostintelor descoperite, în mod special interpretarea în termeni de descriere si prezicere - cele doua scopuri principale ale sistemului de descoperire în practica. Experienta arata ca modele sau sabloanele din date nu sunt direct folosite si ca procesul KDD este inevitabil reiterat prin prisma cunostintelor descoperite. Un mod standard de evaluare este de a diviza datele în doua seturi, lucrând pe un set de date si testând pe cel de-al doilea. Putem repeta procesul de un numar de ori, împartind datele de fiecare data altfel. Media rezultatelor o vom folosi pentru a estima regulile de performanta.

- Pasul final este de a pune în practica cunostintele descoperite. În unele cazuri, se poate folosi aceasta descoperire fara a o îngloba într-un sistem integrat, în alte cazuri, utilizatorul foloseste aceasta descoperire pentru a o exploata prin intermediul unor soft-uri specializate. Punerea în practica a rezultatelor este scopul final al KDD-ului.

Extragerea cunostintelor pentru procesul KDD

Relatia Data Warehouse, OLTP, OLAP si Data Mining

O baza de date relationala este proiectata cu un anumit scop. Deoarece scopul unui depozit de date (data warehouse) difera de cel al unui OLTP, caracteristicile de proiectare ale unei baze de relationale ce suporta un data warehouse difera de cele ale unei baze OLTP.

Baze de date Data warehouse

Baze de date OLTP

Proiectata pentru analiza dimensiunilor unei afaceri pe categorii si pe atribute.

Proiectata pentru operatiuni de afaceri în timp real.

Optimizata pentru încarcari mari si interogari mari, complexe, neasteptate ce acceseaza mai multe înregistrari dintr-o tabela.

Optimizata pentru un set normal de tranzactii, de obicei, adaugând sau stergând o singura înregistrare la un moment dat pe tabela.

Încarcata cu date consistente, valide; nu solicita validare în timp real.

Optimizata pentru validarea datelor de intrare în timpul tranzactiilor; utilizeaza validarea datelor în tabele.

Suporta câtiva utilizatori curenti în comparatie cu OLTP.

Suporta mii de utilizatori curenti.

Relatia Data Warehouse, OLTP, OLAP si Data Mining

Data Mining un instrument Data Warehouse

Data mining este o tehnologie ce foloseste algoritmi complexi si sofisticati pentru a analiza date si a releva informatii interesante si necesare analizei realizate de catre decidenti. În vreme ce OLAP organizeaza datele într-un model potrivit pentru exploatare de catre analisti, data mining realizeaza analize pe date si furnizeaza rezultate celor care iau decizii. Astfel, OLAP permite analiza orientata pe un model, iar data mining faciliteaza analiza orientata pe date.

Data mining a operat în mod traditional numai pe înregistrari din bazele de date de tip data warehouse sau pe fisiere text extrase din baza de date data warehouse. În SQL Server 2000, Analysis Services furnizeaza tehnologie data mining ce permite analiza datelor în cuburi OLAP, la fel ca si datele din bazele de date relationale data warehouse.

În plus, rezultatele data mining pot fi încorporate în cuburi OLAP pentru a da capabilitati noi analizei orientate pe model oferind un punct de vedere dimensional în modelul OLAP. De exemplu, data mining poate fi folosita pentru a analiza vânzarile în contrapartida cu atributele cumparatorilor si a crea o noua dimensiune a cubului, pentru a asista analistul în descoperirea informatiilor înglobate în cubul de date.

Capitolul II

Business Intelligence

Decizii mai bune prin analiza inteligenta a datelor

Toate companiile au nevoie de informatii pentru a lua decizii. De obicei sunt foarte multe date raspândite în sistemele IT ale companiei, dar transformarea acestor date în informatii ce pot fi analizate pentru a lua decizii este un proces greoi. Sistemele data warehouse (DW) si business intelligence (BI), precum si aplicatiile pentru suport de decizie au menirea de a ajuta companiile sa raspunda în timp real la întrebari complexe. Exista multe tehnici diferite de data mining, iar alegerea uneltei corespunzatoare duce la gasirea raspunsurilor relevante pentru o anumita firma. Procesul este dinamic, iar aceste raspunsuri se schimba pe masura ce se modifica si strategia de afaceri a respectivei firme.

Nu cu mult timp în urma, initiativele legate de sistemele data warehousing si business intelligence se cantonau într-o strategie de corporatie de genul "nice to have". Treptat, companiile mici si mari s-au trezit implicate în cursa pentru cât mai multa informatie. Sistemele business intelligence, ca platforma de baza pentru asigurarea suportului decizional, au devenit treptat necesitati competitive în arsenalul solutiilor de succes în e-business. Primul mediu integrat capabil sa suporte toate elementele implicate în procesarea si analiza unor volume mari de date este Oracle9i. Acesta introduce prima platforma business intelligence din industria enterprise software, facând ca procesele de decizie sa devina mai eficiente, mai simple si mai rapide.

Acum, sa ne imaginam diferenta dintre o solicitare de tipul: "Spune-mi ce a comandat luna trecuta cel mai bun client al nostru" si o cerere formulata în acest fel: "Spune-mi care sunt corelatiile dintre discount-urile pe care le-am oferit celor mai buni clienti si structura comenzilor lor. Estimeaza cât vor cumpara ei daca le vom dubla discount-urile". Prima întrebare se refera la informatii extrase deja dintr-un sistem OLTP. A doua solicitare implica o analiza complexa, necesita o baza de date sofisticata si un sistem data mining. În mod evident, cea de-a doua formulare a întrebarii se apropie cel mai mult de întelesul real - acel "De ce?" care reprezinta cunoasterea critica din mediul actual de business, extrem de competitiv.

Initiativele data warehouse si business intelligence servesc la satisfacerea a doua cerinte critice pentru afaceri: cunoasterea mai buna a clientului si cunoasterea a ceea ce trebuie sa faca organizatia mai bine. Potrivit unui studiu efectuat de Data Warehousing Institute în anul 2000, intitulat "Harnessing Customer Information for Strategic Advantage: Technical Challenges and Business Solutions" tehnologiile DW si BUSINESS INTELLIGENCE permit companiilor sa colecteze, sa integreze si sa analizeze informatiile legate de clienti, astfel încât sa aiba posibilitatea de a întelege intentiile si comportamentul acestora.

Înarmate cu acest aflux de cunostinte, companiile îsi pot optimiza interactiunile cu clientii la nivelul tuturor canalelor de interactiune, ceea ce va conduce direct la cresterea veniturilor si a profitului. Oracle9i introduce o adevarata platforma business intelligence - un sistem în care functiile traditionale de warehousing, mining si analiza sunt integrate direct într-o baza de date relationala.

Beneficiile oferite de un astfel de sistem integrat sunt clare:

sisteme mai simple

acces mai rapid la datele curente

economii de administrare a infra­structurii

management mai eficient

cresterea profitului

Data warehouse traditionale si arhitectura analitica a afacerii

Ce este BI (Business Intelligence)?

Traducerea literara a expresiei Business Intelligence reprezinta: inteligenta sau întelegerea unei afaceri. Aceasta întegere a afacerii este obtinuta tocmai din analiza si rafinarea datelor operatiunilor unei firme. Este un proces ce rezulta din datele colectate la nivel de firma din diverse activitati interne (marketing, vânzari, productie) si/sau externe (comportamentul clientilor sau al competitiei ca raspuns al activitatilor interne). Aceasta colectare este iterativa si ciclica, de aceea datele strânse trebuie organizate pentru a facilita transformarea lor în informatie (raportari, interogari, analize sau prezentari). Finalitatea acestor procese reprezinta un set de decizii ce afecteaza mersul si productivitatea oricarei afaceri.

Aplicatiile BI furnizeaza companiilor capabilitati de folosire mult mai buna a datelor prin obtinere de informatii critice cu rezultat direct. Implementarea unei solutii BI poate afecta direct profitul unei firme - prin crestere de vânzari, prin reducere de costuri, sau prin îmbunatatirea relatiilor cu clientii sau furnizorii. Practic, procesul împlica o rafinare a datelor - ele sunt extrase din baze de date foarte mari si transformate în informatie folositoare pentru obtinerea de raspunsuri variate la nivel executiv.

Ce este o solutie de Business Intelligence?

Conceptul de Business Intelligence este procesul aplicarii strategiilor de achizitionare si analiza a informatiilor din surse deschise, în mod etic si legal, pentru fundamentarea deciziilor în cadrul unui grup social (companie, corporatie, organizatie non-profit, etc.), entitate manageriala formata din procese, tehnologii si oameni. Software-ul este numai o parte a componentei tehnologiei, la fel de importanta ca si celelalte pentru obtinerea unei solutii de Business Intelligence de succes. Un software poate deveni un instrument de valoare pentru activitatea de business intelligence a companiei, dar numai pâna la etapa de analiza putând selecta, colecta, clasifica si comparea datele si informatiile.

Cele patru componente ale Business Intelligence

Un studiu de caz, releva faptul ca 39,9 % din firmele americane chestionate au deja instalate solutii de Business Intelligence, în timp ce 10,9 % intentioneaza sa lanseze adoptarea de tehnologii de Business Intelligence în urmatoarele 12 luni. Aproximativ 2/3 din cele mai mari companii intervievate au o solutie în lucru sau intentioneaza sa instaleze una. O solutie de Business Intelligence aduce informatiile la îndemâna utilizatorilor care au nevoie de ele: analisti si experti (analize multidimensionale, statistici), consumatori (interogari dinamice si analize simple) si utilizatori de informatie (rapoarte).

Ce se poate face cu o solutie de Business Intelligence?

În momentul de fata, mediul de afaceri a devenit favorabil raspandirii aplicatiilor BI. Exista industrii care bugeteaza cheltuieli mari pentru achizitii de tehnologie, iar BI reprezinta initiative mai mult sau mai putin evidente ce evidentiaza îmbunatatirea ratelor de profitabilitate. Practic, aceste aplicatii ajuta la luarea de decizii întelepte.

Aplicatiile BI permit abilitatea de agregare si sumarizare pe categorii specifice si detaliate în acelasi timp, specifice unui anumit proces sau analize, prezentând informatiile exacte si excluzând elementele în plus. Astfel, un factor de decizie poate monitoriza variabilele de performanta ale unei afaceri. Exemplu: vânzari pe o regiune, pe produs, pe trimestru, sau rata de retur a produselor din diverse motive, analiza comportamentului clientilor pe baza unor analize de preferinte specifice unui anumit context predefinit.

Tip de aplicatie BI

Activitatea desfasurata/Întrebari la care raspunde

Analiza de produs

. Care este produsul cel mai profitabil?

. Care sunt cele mai putin profitabile produse?

. Care este preferinta de produs a segmentului de piata cu un venit lunar mai mic de 500 EUR?

Analiza de marketing

Analize demografice folosind informatiile despre clienti si datele de vânzari, sensibilitatea la pret, preferintele privind produsele. Folosind aceste informatii se pot planifica mai bine campaniile de marketing si se poate masura efectul acestora.

. Ce rate de raspuns au fost la ultima campanie de marketing?

Analiza de vânzari

Identificarea tendintelor, analiza sezonalitate, asocieri între produse. Cu ajutorul acestor informatii se pot seta obiective de vânzari si se poate masura progresul vizavi de aceste obiective.

. Care este tendinta de vânzari în magazinele din zona X care au fost deschise în ultimii 2 ani?

. Care sunt produsele au vânzari în crestere si ce categorie de clienti le cumpara?

Tipuri de aplicatii BI

Componentele Business Intelligence

Se poate spune ca BI este o platforma relativ tânara. Pâna de curând cele mai multe aplicatii erau folosite doar în câteva departamente ale unei societati si nu la nivelul global al unei societatii. Acest lucru s-a schimbat rapid, corporatiile dezvoltând sau achizitionând aplicatii de BI care acopera toate functionalitatile unei firme - analiza financiara, analiza de vânzari, analiza de active, evolutia clientilor cheie, resurse umane, statutul achizitiilor de la furnizori, etc. Astfel, o companie extinde beneficiile BI la nivelul tuturor participantilor la afacere: clienti, furnizori, angajati, actionari sau alti parteneri. BI nu numai ca face tranzitia de la simpla adunare de date la analiza lor, dar instituie si o democratie a informatiilor la nivelul întregii companii prelucrând datele care erau doar la nivelul departamantului de IT si facându-le disponibile la toate nivelele si pentru toti angajatii.

Pentru a putea fi folosite de cât mai multe societati si într-un mod cât mai eficient, tehnologiile ce compun o platforma BI trebuie organizate. Aceasta organizare înseamna o infrastructura cu capabilitati de implementare a proceselor descrise mai devreme si ce sprijina suita de aplicatii specifica fiecarei solutii BI.

O platforma Business Intelligence contine în mod obisnuit urmatoarele tehnologii:

Tehnologiile componente ale unei platforme BI

Explicatii

Baze de date

O platforma BI trebuie sa contina atat baze de date relationale cat si multidimensionale. Mai mult, modelele de stocare trebuie sa sprijine distributia datelor între cele doua si sa furnizeze un suport cât mai transparent posibil pentru acces la date oriunde ar fi stocate.

OLAP

(On-Line Analytical Processing)

OLAP este o componenta esentiala a unei platforme BI, fiind cea mai folosita metoda de analiza. Aceasta permite analiza extensiva a datelor istorice pentru a putea determina tendinte semnificative. Întelegând aceste tendinte este usor de extrapolate si luat decizii în consecinta.

Platformele BI trebuie sa furnizeze bazelor de date suport pentru OLAP, sa aiba interfete pentru OLAP, precum si aplicatii OLAP usor de manevrat.

Data Mining

Data Mining reprezinta o activitate de extragere si analiza a datelor pentru a descoperi elemente ascunse sau mai greu de detectat din bazele de date. Cu ajutorul DM se pot determina relatii sau corelatii între diverse date sau grupuri de date. În acest moment, Data Mining este un element critic al unei platforme de BI, functionalitatile ei continând serii de algoritmi aplicabili în bazele de date.

Interfete

Trebuie sa fie prietenoase si sa lege bazele de date cu OLAP si Data Mining. În multe cazuri, interefetele trebuie sa respecte niste standarde pentru a putea usura construirea sau achizitia de noi aplicatii ce folosesc platforma BI

Tehnologii componente ale BI



Pilot Software, White Paper


Document Info


Accesari: 11277
Apreciat: hand-up

Comenteaza documentul:

Nu esti inregistrat
Trebuie sa fii utilizator inregistrat pentru a putea comenta


Creaza cont nou

A fost util?

Daca documentul a fost util si crezi ca merita
sa adaugi un link catre el la tine in site


in pagina web a site-ului tau.




eCoduri.com - coduri postale, contabile, CAEN sau bancare

Politica de confidentialitate | Termenii si conditii de utilizare




Copyright © Contact (SCRIGROUP Int. 2024 )