Documente online.
Zona de administrare documente. Fisierele tale
Am uitat parola x Creaza cont nou
 HomeExploreaza
upload
Upload




TRANSFORMARI ALE FISIERELOR DE DATE

Informatica


TRANSFORMĂRI ALE FIsIERELOR DE DATE



8.1. SORTAREA CAZURILOR UNUI FIsIER

Cazurile dintr-un fisier pot fi sortate în ordine crescatoare sau descrescatoare a valorilor unei variabile sau a valorilor unui grup de variabile.

Atunci când sortarea se face dupa mai multe variabile este importanta ordinea în care sunt indicate aceste variabile, întrucât se efectueaza mai întâi ordonarea cazurilor dupa prima variabila a grupului. Apoi pentru fiecare valoare a acesteia se face sortarea dupa valorile celei de-a doua variabile. Toate cazurile care au aceeasi valoare a primei variabile si aceeasi valoare a celei de-a doua variabile sunt sortate dupa valorile celei de-a treia variabile. Procedeul continua în acest mod pâna când se face sortarea dupa ultima variabila din grup.

Când se sorteaza variabile de tip sir, conteaza daca o litera a fost introdusa ca majuscula sau ca litera mica: în urma sortarii valorilor în ordine crescatoare, literele majuscule sunt plasate înaintea literelor mici.

Pentru realizarea sortarii se alege din meniul Data optiunea Sort Cases. În cutia de dialog care apare, se selecteaza variabilele dupa care se face sortarea, pe rând, în ordinea în care se doreste sa fie luate în considerare la sortare, si se muta cu ajutorul tastei cu sageti în lista Sort by.

Dintre butoanele de optiuni mutual exclusive Ascending si Descending se alege cel care corespunde ordinii în care se va face sortarea valorilor fiecarei variabile (crescator, respectiv descrescator 838j94i ).

8.2. SELECTAREA CAZURILOR DINTR-UN FIsIER

SPSS permite sa se selecteze dintr-un fisier o submultime de cazuri, prin unul din urmatoarele procedee:

. se aleg cazurile care îndeplinesc o anumita conditie;

. se selecteaza aleator, prin generarea de numere pseudo-aleatoare;

. se aleg cazurile care au numarul de ordine din fisier cuprins într-un interval dat;

. se aleg cazurile care pentru o variabila data au valoare diferita de zero.

Când se foloseste una dintre primele doua metode, se creeaza o variabila, numita filter_$, care are valorile 1 (caz selectat, eticheta Selected) si 0 (caz neselectat, eticheta Not selected). Ea este inclusa în tabelul editorului de date.

Cazurile selectate se identifica în tabelul editorului de date prin faptul ca au semnul / în coloana care contine numarul liniei din tabel.

Pentru a efectua o selectie de cazuri se alege din meniul Data optiunea Select Cases.

În cutia de dialog care apare se marcheaza unul dintre butoanele de optiuni mutual exclusive care se refera la criteriul de selectie. Se poate alege:

. selectarea tuturor cazurilor (optiunea All cases);

. selectarea cazurilor pentru care o expresie data are valoarea "adevarat" (optiunea If condition is satisfied);

. selectarea cazurilor prin generare de numere pseudo-aleatoare (optiunea Random sample of cases);

. selectarea cazurilor pentru care o variabila numerica fixata are valoare diferita de zero (optiunea Use filter variable).

Optiunea All cases se utilizeaza pentru a anula o selectie anterioara.

Daca se alege optiunea If condition is satisfied trebuie sa se efectueze un clic pe butonul If pentru a defini expresia pe baza careia se face selectia. O expresie conditionala poate contine: nume de variabile (copiate din lista de variabile cu ajutorul butonului cu sageata), constante (a caror valoare se tasteaza sau se construieste efectuând câte un clic pe butoanele cu cifre), operatori aritmetici si relationali (care se introduc în expresie prin efectuarea unui clic pe butonul ce are înscris pe el semnul operatorului) si functii (copiate din lista de functii si completate cu parametrii necesari). Pentru fiecare caz, expresia definita de utilizator poate avea valoarea "adevarat", "fals" sau valoare absenta. Sunt selectate doar cazurile pentru care valoarea expresiei este "adevarat".

Daca se doreste ca selectarea cazurilor sa fie facuta de SPSS prin generare de numere pseudo-aleatoare utilizatorul trebuie sa indice câte cazuri sa fie selectate. Pentru aceasta se efectueaza un clic pe butonul Sample. Se poate cere sa fie selectate:

. aproximativ un anumit procent din totalul cazurilor din fisier (optiunea Approximately, urmata de indicarea procentului)

sau

. un numar fixat de cazuri, n, dintre primele N cazuri din fisier (optiunea Exactly, urmata de indicarea numerelor n _i N, n N). Daca numarul N depaseste numarul de cazuri din fisier, numarul cazurilor selectate va fi mai mic decât n.

Alegerea optiunii Based on time or case range trebuie urmata de efectuarea unui clic pe butonul Range. Apare o cutie de dialog în care se introduce numarul de ordine al primului caz selectat si al ultimului caz selectat. Vor fi selectate toate cazurile care au numarul de ordine (numarul liniei din tabelul de date, afisat în partea stânga a tabelului) cuprins între aceste doua numere.

Daca se alege optiunea Use filter variable, atunci în cutia de editare text cuprinsa sub aceasta optiune trebuie sa se mute din lista de variabile numele variabilei care va actiona ca filtru. Vor fi selectate toate cazurile pentru care aceasta variabila are valoare diferita de zero.

Cazurile neselectate pot fi pastrate în fisierul de date, dar fara a fi luate în considerare la efectuarea prelucrarilor (optiunea Filtered) sau pot fi sterse din fisier (optiunea Deleted din zona Unselected Cases Are).

8.3. PONDERAREA CAZURILOR DINTR-UN FIsIER

"Ponderea" unui caz indica numarul de observatii efectuate pentru a obtine valorile variabilelor la cazul respectiv. Ea arata de câte ori este luat în considerare un caz în prelucrarile statistice efectuate.

Ponderea este un numar zecimal. Cazurile pentru care ponderea este un numar negativ, nul sau o valoare absenta sunt excluse din prelucrari.

La introducerea lor în fisier, toate cazurile au aceeasi pondere, egala cu 1. Se poate cere, însa, ca fiecare caz sa primeasca o pondere. Pentru aceasta, în fisierul de date trebuie sa existe o variabila ale carei valori sa reprezinte ponderile cazurilor.

În scopul ponderarii cazurilor se alege din meniul Data op_iunea Weight Cases. Din cutia de dialog care apare se selecteaza Weight cases by si în cutia Frequency Variable se muta din lista de variabile numele variabilei ale carei valori vor constitui ponderile.

Orice schimbare a valorilor variabilei care serveste la ponderare va avea ca efect modificarea corespunzatoare a ponderilor cazurilor.

Pentru a renunta la ponderarea cazurilor, în cutia de dialog care apare dupa alegerea optiunii Weight Cases se face un clic pe optiunea Do not weight cases.

8.4. CONCATENAREA A DOUĂ FIsIERE CARE CONŢIN ACELEAsI VARIABILE

Prin aceasta operatie se obtine un singur fisier pornind de la doua fisiere care contin aceleasi variabile, nu neaparat în aceeasi ordine, pentru cazuri diferite. Noul fisier va contine, pentru toate cazurile din cele doua fisiere, valorile variabilelor indicate de utilizator.

Se procedeaza astfel:

. Se deschide unul dintre fisiere. Cazurile acestuia vor fi primele cazuri din fisierul care va rezulta.

. Din meniul Data se alege optiunea Merge Files si apoi Add Cases.

. Se deschide o cutie de dialog identica celei de la deschiderea unui fisier. Se alege numele celui de-al doilea fisier.

. Va aparea o cutie de dialog care contine doua liste, una cu numele Unpaired Variables, iar cealalta, Variables in New Working Data File.

În lista Unpaired Variables sunt cuprinse variabilele care nu sunt identice în cele doua fisiere, adica:

. variabilele care sunt prezente numai în unul din fisiere;

. variabilele care au acelasi nume în cele doua fisiere, dar în unul din fisiere au tipul numeric, iar în celalalt, tipul sir;

. variabilele care în ambele fisiere au acelasi nume, sunt de tipul sir, dar au lungimi diferite.

Variabilele provenite din primul fisier sunt marcate cu *, iar cele din al doilea fisier, cu +.

Lista Variables in New Working Data File contine variabilele care vor fi incluse în fisierul ce se creeaza. Initial, ea este compusa din variabilele care au acelasi nume si acelasi tip în ambele fisiere, iar daca sunt de tip sir, au si aceeasi lungime.

Utilizatorul poate modifica lista Variables in New Working Data File în doua feluri:

. sterge din ea variabilele care nu trebuie sa apara în fisierul de iesire, selectându-le si mutându-le în lista Unpaired Variables;

. include în ea variabile din lista Unpaired Variables.

Daca în fisierul de iesire se introduce o variabila care apare doar în unul din fisierele de intrare, atunci toate cazurile care provin din celalalt fisier vor avea pentru aceasta variabila valoarea absenta.

Atunci când o variabila este prezenta în ambele fisiere de intrare, dar are nume diferite, pentru ca SPSS sa o interpreteze ca fiind aceeasi variabila se procedeaza astfel:

. În lista Unpaired Variables se indica numele variabilei în unul din fisiere.

. Se pozitioneaza cursorul mouse-ului pe numele variabilei din celalalt fisier si în acelasi timp se apasa tasta Ctrl si se efectueaza un clic.

. Se face un clic pe butonul Pair. Imediat, în lista Variables in New Working Data File va aparea numele variabilei din primul fisier.

Pentru fiecare variabila inclusa în fisierul de iesire se preiau automat din primul fisier informatiile legate de etichetele variabilei si ale valorilor, valorile absente si formatul de afisare a valorilor. Daca aceste informatii lipsesc în primul fisier, se preiau din cel de-al doilea. Atunci când ele sunt prezente în ambele fisiere, se preiau din primul fisier.

Utilizatorul poate schimba numele unor variabile din lista Unpaired Variables. Pentru aceasta se selecteaza variabila si se face un clic pe butonul Rename. Apoi introduce numele nou.

Daca se doreste ca în fisierul creat sa existe o variabila ale carei valori sa indice provenienta cazurilor se selecteaza optiunea Indicate case source as variable si se introduce numele acestei variabile. Variabila definita astfel va avea valoarea 0 pentru cazurile preluate din primul fisier (primele cazuri din fisierul de iesire) si valoarea 1 pentru celelalte cazuri.

8.5. CONCATENAREA A DOUĂ FIsIERE CARE CONŢIN ACELEAsI CAZURI

Prin aceasta operatie se creeaza un fisier din doua fisiere de date care contin variabile diferite pentru aceleasi cazuri.

Fiecare caz se identifica prin una sau mai multe variabile, numite variabile cheie. Ele trebuie sa aiba acelasi nume si acelasi tip în ambele fisiere. Se va considera ca doua cazuri, unul dintr-un fisier si celalalt din al doilea, sunt identice daca au aceleasi valori pentru variabilele cheie. De exemplu, daca cele doua fisiere contin rezultatele obtinute de aceleasi persoane la teste psihologice diferite, variabilele cheie prin care se recunoaste fiecare caz pot fi codul persoanei si vârsta.

Este obligatoriu ca fisierele care se concateneaza sa fie sortate crescator dupa toate variabilele cheie folosite pentru identificarea cazurilor, astfel încât cazurile sa apara în cele doua fisiere în aceeasi ordine.

Pentru a realiza concatenarea a doua fisiere se procedeaza astfel:

. Se deschide unul dintre fisiere.

. Se alege din meniul Data optiunea Merge File si apoi Add Variables.

. Apare o cutie de dialog identica celei de la deschiderea unui fisier. Se alege numele celui de-al doilea fisier.

. Va aparea o cutie de dialog care contine doua liste, intitulate Excluded Variables si New Working Data File.

În aceste liste variabilele din primul fisier sunt marcate cu *, iar cele din al doilea, cu +.

Lista Excluded Variables contine variabilele care sunt prezente cu acelasi nume în ambele fisiere. În fisierul de iesire valorile unor asemenea variabile vor fi preluate din primul fisier. Daca, însa, cu acelasi nume apar în cele doua fisiere variabile diferite, pentru a putea fi incluse ambele în fisierul de iesire este necesar sa se schimbe numele variabilei din fisierul al doilea. Pentru aceasta se selecteaza variabila în lista Excluded Variables, se efectueaza un clic pe butonul Rename si se introduce noul nume.

Lista New Working Data File contine variabilele care vor fi incluse în fisierul de iesire. Initial, ea cuprinde toate variabilele din cele doua fisiere. Utilizatorul poate sa stearga din ea variabilele care nu trebuie sa apara în fisierul de iesire, selectându-le si mutându-le în lista Excluded Variables.

Variabilele cheie nu pot fi decât variabile prezente cu acelasi nume în ambele fisiere, deci incluse în lista Excluded Variables. Pentru a le indica, se selecteaza variabilele respective din aceasta lista, în ordinea folosita la sortarea celor doua fisiere de intrare, si se muta folosind butonul cu sageata, în lista Key Variables.

Utilizatorul mai trebuie sa indice din care fisier se preiau cazurile, atunci când exista cazuri prezente doar în unul din cele doua fi_iere de intrare. Pentru aceasta, se efectueaza un clic pe optiunea Match cases on key variables in sorted files si apoi se selecteaza unul dintre cele trei butoane de optiuni mutual exclusive:

. Both files provide cases - pentru a prelua toate cazurile din cele doua fisiere;

. External file is keyed table - pentru a prelua cazurile din primul fisier;

. Working Data File is keyed table - pentru a prelua cazurile din al doilea fisier.

Daca s-a ales optiunea Both files provide cases si se doreste ca în fisierul de iesire sa existe o variabila care sa indice provenienta cazurilor, se face un clic pe optiunea Indicate case source as variable si se introduce numele acestei variabile. Variabila definita astfel va avea valoarea 0 pentru cazurile preluate din primul fisier si valoarea 1 pentru celelalte.

Atunci când un caz apare numai în unul dintre fisiere si este inclus în fisierul de iesire, pentru variabilele prezente în celalalt fisier va avea valoarea absenta.


Document Info


Accesari: 1065
Apreciat: hand-up

Comenteaza documentul:

Nu esti inregistrat
Trebuie sa fii utilizator inregistrat pentru a putea comenta


Creaza cont nou

A fost util?

Daca documentul a fost util si crezi ca merita
sa adaugi un link catre el la tine in site


in pagina web a site-ului tau.




eCoduri.com - coduri postale, contabile, CAEN sau bancare

Politica de confidentialitate | Termenii si conditii de utilizare




Copyright © Contact (SCRIGROUP Int. 2024 )