Documente online.
Zona de administrare documente. Fisierele tale
Am uitat parola x Creaza cont nou
 HomeExploreaza
upload
Upload




Motoare de cautare

Informatica


Motoare de cautare

Vestea buna despre Internet si despre componenta sa vizibila, World Wide Web-ul, este ca exista miliarde de pagini disponibile, pagini care asteapta sa fie vizitate pentru a oferi informatii despre o miriada de subiecte. Ceea ce este mai putin bun este ca exista milioane de pagini disponibile, cele mai multe dintre ele denumite īn functie de dorinta autorului, toate pe servere cu nume criptice sau protejate. Totusi, īn momentul īn care un utilizator doreste sa acceseze un anumit subiect, acesta utilizează 626e45g ; un motor de cautare pe Internet.



Motoarele de cautare pe Internet sunt site-uri web specializate, create pentru a ajuta oamenii sa gaseasca informatii stocate īn alte site-uri. Exista multe diferente īn modul īn care lucreaza diferitele motoare de cautare, dar acestea executa īn general aceleasi trei sarcini de baza:

cauta pe Internet sau "selecteaza" parti din Internet, pe baza cuvintelor importante;

retin un index al cuvintelor pe care le gasesc si a locului acestora;

permit utilizatorilor sa caute cuvinte sau combinatii de cuvinte gasite īn acest index.

Motoarele de cautare initiale detineau un index cu cāteva sute de mii de pagini si documente, si receptionau si serveau cam doua mii de cereri pe zi. Astazi, un motor de cautare de vārf indexeaza sute de milioane sau chiar miliarde de pagini si raspunde la zeci de milioane de interogari pe zi. Īn continuare vom vedea modalitatea īn care sunt executate aceste sarcini si cum motoarele de cautare de pe Internet alatura date separate pentru ca utilizatorul sa gaseasca ceea ce are nevoie.

Cānd se vorbeste despre motoare de cautare pe Internet, se vorbeste īn general despre motoare de cautare pe World Wide Web. Totusi, īnainte ca web-ul sa devina partea proeminenta a Internetului, existau si alt fel de motoare de cautare, care permiteau utilizatorilor sa gaseasca informatii īn Internet. Astfel, exista si astazi, dar se utilizeaza foarte putin, programe precum "gopher" sau "Archie", care tineau indexuri de fisiere stocate pe serverele conectate le Internet, reducānd īn mod semnificativ timpul necesar gasirii programelor sau documentelor. La sfārsitul anilor 1980, utilizarea la maximum a Internetului īnsemna utilizarea programelor "gopher", "Archie", "Veronica" etc. Astazi cei mai multi utilizatori īsi limiteaza cautarile la serverele web, ftp sau de grupuri de dialog.

Īnainte ca un motor de cautare sa poate spuna utilizatorilor unde se gasesc anumite documente, acestea trebuie sa fie mai īntāi gasite. Pentru a gasi informatii din miliardele de pagini web, un motor de cautare foloseste o aplicatie speciala, numita "robot de cautare" sau "spider", pentru a construi o lista de cuvinte gasite īn paginile web. Procesul prin care un spider īsi construieste lista se numeste "web crawling", iar pentru ca un motor de cautare/spider sa construiasca o lista eficienta de cuvinte, acesta trebuie sa caute printr-o multime de pagini.

Figura : Un "Spider" obtine continutul unei pagini web si creeaza o lista de cuvinte cheie care permit utilizatorilor sa gaseasca informatiile pe care le doresc.

Un spider īsi īncepe cautarea prin web pornind de obicei de la o lista cu servere intens utilizate si cu pagini web foarte populare. Spider-ul va īncepe cu un site popular, indexānd cuvintele din pagini si urmānd toate legaturile gasite īn site-ul respectiv, ajungānd īn acest fel sa traverseze si sa indexeze partea cea mai utilizata a web-ului.

Google.com a īnceput ca un motor de cautare academic. Īn lucrarea care descrie modalitatea de construire a acestuia, Sergey Brin si Lawrence Page au exemplificat cāt de repede poate sa lucreze un spider. Astfel, sistemul a fost construit pentru a utiliza mai multi spider-i, trei de obicei, fiecare spider putānd sa tina deschise 300 de conexiuni catre pagini web la un moment dat. La cea mai ridicata performanta, folosind patru spider-i, sistemul putea cauta īn peste 100 pagini pe secunda, generānd 600 kilobytes de date īn fiecare secunda.

Mentinerea unui sistem rapid īnsemna de asemenea construirea unui sistem care sa alimenteze spider-ii cu informatii. Astfel, Google.com initial avea un server dedicat pentru a oferi URL-uri spider-ilor. Google avea de asemenea si propriul server DNS, translatarea numelor īn adrese fiind semnificativ mai rapida, micsorānd īn acelasi timp si īntārzierile datorate retelelor.

Īn momentul īn care un spider Google vizita o pagina HTML, acesta tinea cont de doua lucruri:

cuvintele gasite īn pagina;

pozitia acestor cuvinte īn pagina.

Cuvintele gasite īn titlu, subtitlu, metatag-uri si alte pozitii de importanta relativa erau notate cu o semnificatie speciala īn timpul cautarilor initiate de utilizatori. De asemenea, spider-ul a fost construit pentru a indexa toate cuvintele semnificative din pagina, lasānd la o parte cuvintele de legatura.

Alti spider-i folosesc alte procedee pentru indexare, permitānd, spre exemplu, spider-ilor sa opereze mai rapid sau sa permita utilizatorilor sa caute mai eficient sau ambele. De exemplu, unii spider-i mentin o lista de cuvinte din titlu, subtitlu si legaturi, īmpreuna cu cele mai utilizate 100 de cuvinte din pagina si fiecare cuvānt din primele 20 de linii de text. Se pare ca Lycos utilizeaza aceasta modalitate de indexare a continutului paginilor web.

Alte sisteme, precum AltaVista.com, merg īn alta directie, indexānd toate cuvintele din pagina, inclusiv toate cuvintele de legatura sau "nesemnificative". Aceasta īmpingere catre completitudine are si alte modalitati de functionare, mai ales prin utilizarea meta-tag-urilor.

Meta-tag-urile permit proprietarului unei pagini sa specifice cuvintele cheie si conceptele sub care va fi indexata pagina respectiva. Acest lucru poate fi folositor īn cazul īn care cuvintele din pagina pot avea doua sau mai multe semnificatii, meta-tag-urile ghidānd motorul de cautare īn alegerea celei mai corecte semnificatii pentru cuvintele respective. Exista de asemenea si anumite pericole īn utilizarea acestor tag-uri, deoarece un proprietar neatent sau fara scrupule ar putea adauga meta-tag-uri care sa se potriveasca celor mai populare subiecte, fara ca acestea sa aiba nimic cu continutul īn sine al paginii. Pentru o protectie īmpotriva acestei practici, spider-ii coreleaza de obicei continutul paginii cu meta-tag-urile, respingānd tag-urile care nu se potrivesc cu cuvintele din pagina.

Toate cele de mai sus presupun faptul ca proprietarul paginii sau site-ului doreste ca pagina/site-ul sa fie inclus īn rezultatele activitatii motoarelor de cautare. De multe ori proprietarii nu doresc includerea īntr-un motor de cautare major sau nu doresc indexarea anumitor pagini dintr-un site. Pentru acest lucru a fost dezvoltat protocolul de excludere al robotilor (robot exclusion protocol). Acest protocol, implementat īn sectiunea de meta-tag-uri de la īnceputul unei pagini web, comunica robotului de cautare sa nu indexeze pagina si/sau sa nu urmareasca nici unul din link-urile din pagina respectiva.

Dupa ce spider-ii au terminat sarcina de gasire a informatiilor īn paginile web (trebuie sa notam faptul ca aceasta sarcina nu se termina niciodata - din cauza naturii mereu schimbatoare a web-ului, spider-ii indexeaza pagini īn permanenta), motorul de cautare trebuie sa stocheze informatiile adunate īntr-o modalitate utilizabila. Exista astfel doua componente care fac datele adunate accesibile utilizatorilor:

informatia stocata cu datele;

metoda īn care este indexata informatia.

Īn cel mai simplu caz, un motor de cautare doar va stoca cuvintele si URL-ul unde au fost gasite. Īn realitate, acest lucru ar face dintr-un motor de cautare unul cu utilizari limitate, deoarece nu ar exista nici o modalitate de a spune daca acel cuvānt a fost utilizat īntr-un context important sau unul trivial īn pagina respectiva, nici daca acel cuvānt a fost utilizat o singura data sau de mai multe ori, sau daca pagina contine legaturi catre alte pagini cu acel cuvānt. Cu alte cuvinte, nu ar fi nici o posibilitate de a construi un clasament care ar īncerca sa prezinte cele mai utile pagini la īnceputul listei de rezultate.

Pentru a crea si afisa cele mai utile rezulte, cele mai multe motoare de cautare stocheaza mult mai multe date decāt cuvāntul si URL-ul īn care a fost gasit. Un motor ar putea stoca numarul de aparitii al cuvāntului īn pagina, putānd de asemenea sa asigneze cāte o "greutate" fiecarei intrari, cu valori mai mari atasate cuvintelor care apar catre īnceputul documentului, īn subtitluri, legaturi, meta-tag-uri sau titlul paginii. Fiecare motor de cautare comercial are diferite formule sau modalitati pentru asignarea greutatii pentru cuvintele din index. Acesta este unul din motivele pentru care o cautare dupa acelasi cuvānt īn motoare de cautare diferite va produce liste de rezultate diferite, cu paginile prezentate īn ordini diferite, chiar daca sunt indexate aceleasi pagini.

Fara a tine cont de combinatia precisa de informatii aditionale stocate de un motor de cautare, datele vor fi stocate īn mod codat, pentru a economisi spatiul de stocare. De exemplu, documentul original de prezentare al Google.com utiliza 2 bytes, fiecare din 8 biti, pentru a stoca informatii referitoare la greutate: cuvāntul era scris cu litere mari, marimea fontului, pozitia sau alte informatii necesare clasificarii. Fiecare factor putea lua 2 sau 3 biti īn cei 2 bytes, avānd ca rezultat stocarea unui volum mare de informatii īntr-un spatiu foarte compact.

Dupa ce informatia este compactata/condata, aceasta este gata de indexare. Un index are un singur scop: permite gasirea foarte rapida a informatiei. Exista mai multe modalitati de a construi un index, dar una din cele mai eficiente modalitati este utilizarea unui tabel hash (hash table). Prin hashing, se aplica o formula matematica pentru atasarea unei valori numerice fiecarui cuvānt, formula fiind construita pentru a distribui īn mod egal intrarile de-a lungul unui numar predeteminat de diviziuni. Distributia numerica este diferita de distributia cuvintelor din alfabet, aceasta fiind cheia eficientei unui tabel hash.

Īn limba engleza, de exemplu, exista unele litere cu care īncep cele mai multe cuvinte, īn timp ce alte litere sunt la īnceputul a mai putine cuvinte (comparati litera "M" din dictionar cu litera "X"). Aceasta inegalitate īnseamna ca gasirea unui cuvānt care īncepe cu o litera mai "populara" ar putea lua mai mult timp decāt gasirea unui cuvānt care īncepe cu o litera mai putin utilizata la īnceputul cuvintelor. Prin hashing se elimina aceasta diferenta si se reduce timpul mediu pentru a gasi o intrare. Tot prin hashing se separa cuvintele de indecsii īn sine. Tabela hash contine numarul hash īmpreuna cu un pointer catre datele efective, date care pot fi sortate īn orice directie. Combinatia de indexare si stocare eficienta face posibila obtinerea rapida a rezultatelor, chiar daca utilizatorul creeaza o interogare complexa.

Cautarea printr-un index presupune construirea unei interogari de catre utilizator si transmiterea ei catre motorul de cautare. Interogarea poate fi simpla, alcatuita din minim un cuvānt sau mai complexa, necesitānd operator booleeni, care permit rafinarea si extinderea cautarii.

Operatorii booleeni cei mai des utilizati sunt urmatorii:

AND - toti termenii separati prin "AND" trebuie sa apara īn pagina sau īn document. Unele motoare de cautare pot folosi "+" īn loc de "AND";

OR - cel putin unul din termenii separati prin "OR" trebuie sa apara īn pagina sau document;

NOT - termenul sau termenii care urmeaza dupa "NOT" nu trebuie sa apara īn document. Unele motoare de cautare pot folosi "-" īn locul cuvīntului "NOT";

FOLLOWED BY - unul din termeni trebuie sa fie urmat īn mod direct de catre altul;

NEAR - unul din termeni trebuie sa fie la o distanta specificata īn cuvinte de celalalt termen;

Ghilimele - cuvintele dintre ghilimele sunt tratate sub forma de fraza, iar acea fraza trebuie sa fie gasita īn interiorul documentului sau paginii;

Cautarile definite prin operatorii booleeni sunt cautari "literale", īn care motorul cauta cuvintele sau frazele exact cum sunt introduse. Acest lucru poate fi o problema īn cazul cuvintelor cu mai multe īntelesuri. Īn cazul īn care utilizatorul este interesat doar īn gasirea paginilor care contin doar unul din sensuri, se pot astfel de interogari, dar ar fi mai util ca motorul de cautare sa realizeze acest lucru īn mod automat.

Astfel, una din ariile de cercetare īn domeniul motoarelor de cautare este cel al "cautarii bazate pe concepte". Unele din aceste cercetari presupun utilizarea analizei statistice īn pagini care contin cuvintele sau frazele care sunt cautate, pentru a gasi alte pagini īn care utilizatorul ar putea fi interesat.

Alte domenii de cercetare privesc interogarile bazate pe limbaj natural, putānd astfel fi introduse interogari la fel ca īntrebarile puse oamenilor, fara a mai fi nevoie de operatori booleeni sau structuri de interogari complexe. Cel mai important motor de cautare care foloseste limbajul natural este AskJeeves.com, care parseaza interogarile pentru a gasi cuvintele cheie, pe care le aplica mai apoi indexului de site-uri construit. AskJeeves.com lucreaza cel mai bine cu interogari simple, dar exista o competitie deosebita īn acest sens.

Īn tabelul urmator se poate observa o comparatie īntre trei motoare de cautare foarte populare.

Motor de cautare

Google
https://google.com/

Yahoo! Search
search.yahoo.com

 

Link-uri pentru ajutor

https://www.google.com/help/index.html

 

 

Marime (marimea variaza de la o zi la alta)

Peste 8 miliarde pagini. Aproximativ 25% nu sunt indexate pe deplin (nu pot fi cautate cuvinte īn interior). Paginile neindexate sunt afisate īn cazul īn care interogarea se potriveste cu titlul sau cu alte pagini care conduc la ele.

Peste 3 miliarde de pagini, indexate si interogabile īn īntregime.

Pretinde ca are 1 miliard de pagini indexabile si interogabile īn īntregime si īnca 1 miliard indexate partial.

Facilitati si limitari

Clasificarea rangurilor este facuta cu PageRankT. Limitare la 10 cuvinte pe cautare, excluzīnd OR. Indexeaza primii 101 KB din pagini web si 120 KB din documente PDF.

Prescurtarile permit acces rapid la dictionar, sinonime, patente, trafic, actiuni, enciclopedie etc.

Rang īn functie de Subject-Specific PopularityT. Sugereaza termini īn rezultat pentru a-l rafina. Sugereaza pagini cu multe link-uri īn rezultate.

Cautare dupa fraza

Da. Utilizeaza " ". Utilizeaza si cuvinte de oprire īn fraza.

Da. Utilizeaza " ".

Da. Utilizeaza " ". Utilizeaza si cuvinte de oprire īn fraza.

Logica booleana

Partiala. AND este implicit īntre cuvine. OR trebuie scris cu litere mari. "-" pentru excludere. Nu permite paranteze sau imbricare.

Accepta AND, OR, NOT, AND NOT, (), toate scrise cu litere mari.

Partiala. AND este implicit īntre cuvine. OR trebuie scris cu litere mari. "-" pentru excludere. Nu permite paranteze sau imbricare.

+Necesita / -Excludere

- excludere

+ permite gasirea cuvintelor de oprire (ex: +in)

- excludere

+ permite gasirea cuvintelor comune "+in truth"

- excludere

+ permite gasirea cuvintelor de oprire (ex: +in)

Sub-cautare

La sfīrsitul paginii de rezultat exista "Search within results" pentru a introduce mai multi termini

Adaugare de termeni

Adaugare de termeni.
REFINE sugreaza sub-subiecte īn rezultate

Clasificarea rezultatelor

Bazata pe popularitatea paginii masurata īn legaturi catre ea de la alte pagini: rang īnalt daca multe alte pagini se leaga la ea. Este implicat si FuzzyAND[1]. Rang si pe baza paginilor din cache, care pot sa nu fie cele mai recente.

FuzzyAND automat.

Bazat pe

Subject-Specific PopularityT, legaturi catre o pagina de la pagini īnrudite.

Limitarea cīmpurilor

link:
site:
allintitle:
intitle:
allinurl:
inurl:
Se gasesc si īn optiunea "Advanced Search".

link:
site:
intitle:
inurl:
url:
hostname:

intitle:
inurl:
site:
geoloc:

Trunchiere

Nu. Cautare cu variante de terminatii si sinonime separate prin OR:
airline OR airlines

Nu. Cautare cu variante de terminatii si sinonime separate prin OR:
airline OR airlines

Nu. Cautare cu variante de terminatii si sinonime separate prin OR:
airline OR airlines

Diferenta litera mare/litera mica

Nu.

Nu.

Nu.

Limba

Da, īn "Advanced Search".

Da.

Da. Utilizare cu lang:

Limitare dupa data documentului

In "Advanced Search" si cu daterange:

In "Advanced Search"

In "Advanced Search"

Traducere

Da. Din/īn Engleza din/īn limbi majore internationale si  chineza,coreana,japoneza

Da.

Tabelul : Comparatie īntre trei motoare de cautare populare.

Meta-motoarele de cautare transmit interogarea tastata de utilizator catre mai multe motoare de cautare īn acelasi timp, afisīnd catre utilizatori rezultatele tuturor cautarilor, īn toate motoarele de cautare. Acest tip de motoare de cautare nu detine propria baza de date cu pagini indexate, transmitīnd interogarile catre bazele de date detinute de companiile care detin motoare de cautare.

Totusi, din ce īn ce mai putine meta-motoare de cautare permit gasirea de date īn cele mai utile baze de date, ele gasindu-si rezultatele din motoare de cautare gratuite sau de dimensiuni mici ca si din directoare (de subiecte) mici si cu un intens caracter comercial.

Meta-motoare de cautare

In ce cauta

Interogari complexe

Afisare rezultate

Vivisimo
https://www.vivissimo.com/

Cauta īntr-un numar de motoare de cautare redus si de o calitate īndoielnica.

Accepta si translateaza cautarile complexe cu operatori booleeni si limitari de cīmp.

Rezultatele sunt īnsotite de subdiviziuni ale subiectului bazat pe cuvintele din rezultate, dīnd de obicei temele majore rezultate.

Metacrawler
&
Dogpile metacrawler.com
dogpile.com

Cauta īn Google, Yahoo, LookSmart, Teoma, Overture, FindWhat. Include, fara sa mentioneze exemplicit, ranguri cumparate.

Accepta logica booleana, mai ales īn modurile de cautare avansata.

Permit si vizualizarea separata a rezultatelor fiecarui motor de cautare.

Tabelul : Meta-motoare de cautare.

Ce este web-ul invizibil?

Partea vizibila a web-ului este ceea ce se poate obtine īn rezultatele motoarelor de cautare sau īn directoarele de subiecte. Web-ul invizibil este acea parte din web care nu se poate obtine īn rezultatele cautarii precum si alte link-uri continute īn aceste tipuri de pagini.

Baze de date : cea mai mare parte a web-ului invizibil este alcatuita din continutul al mii de baze de date specializate care pot fi cautate prin web. Rezultatele cautarii īn multe din aceste baze de date sunt transmise catre utilizatorul final sub forma de pagini web care sunt generate doar ca raspuns la interogarea utilizatorului. Asemenea pagini nu sunt stocate nicaieri, fiind mai ieftin si mai rapid de generat īn mod dinamic raspunsul fiecarei interogari decāt de stocat toate paginile posibile continānd toate raspunsurile posibile la īntrebarile sau interogarile diversilor utilizatori.

Paginile excluse: exista anumite tipuri de pagini care sunt excluse din rezultatele motoarelor de cautare din cauza politicilor. Nu exista nici un motiv tehnic ca aceste pagini sa nu fie incluse īn rezultat, fiind mai mult o chestiune de selectare includerii sau neincluderii īn baze de date deja uriase si a caror interogare produce un venit nesemnificativ.

De ce sunt unele pagini invizibile ? Exista doua motive pentru care un motor de cautare nu contine o pagina: 1. motive tehnice care interzic accesul si 2. decizia de a exclude.

Barierele tehnice pot fi īmpartite īn doua categorii:

Este necesara scrierea sau inteligenta. Daca singura modalitate de a accesa o pagina web este de a scrie ceva sau de a selecta o combinatie de optiuni, motoarele de cautare nu pot face acest lucru. Explicatia este ca robotii de cautare traverseaza web-ul pe baza legaturilor dintre pagini; īn cazul īn care nu exista nici o legatura catre o pagina, robotii nu o pot "vedea". De asemenea, robotii nu pot alege una sau mai multe optiuni īnainte de a parcurge o pagina. Paginile generate dinamic pot sa nu fie de asemenea incluse īn rezultate, deoarece aceste pagini nu sunt stocate, avānd continut unic, generat la fiecare cerere.

Necesitatea autentificarii. Toate site-urile care necesita autentificare sunt īnchise motoarelor de cautare, deoarece robotii ar avea nevoie de ceva necunoscut (username/parola, de exemplu). Exista milioane de astfel de site-uri care necesita autentificare, deoarece continutul acestora nu este gratuit sau au impus altfel de restrictii, de exemplu.

Excluderea intentionata a paginilor. Motoarele de cautare pot sa nu includa īn index pagini deoarece formatul acestora sau al documentelor este accesat rar sau nu poate fi indexat īn mod corespunzator. Nu exista nici un motiv tehnic pentru a le exclude ci doar o politica a companiei detinatoare a motorului de cautare. Motivul este urmatorul: bazele de date ale motoarelor de cautare si robotii de cautare sunt optimizate pentru a citi HTML. Alte tipuri de limbaje pot contine coduri sau necesitati de formatare incompatibile cu HTML. De asemenea, paginile care contin numai imagini sunt deseori omise, deoarece nu exista text care sa fie inclus īn index.

Exista si exceptii de la regula de mai sus. Google.com, de exemplu, poate sa indexeze documentele PDF, DOC, PPT. De asemenea, Google, Altavista si alte motoare de cautare au directoare sau motoare de cautare specializate īn indexarea /cautarea imaginilor.

Din cele de mai sus se poate deduce ca este dificil de prezis ce site-uri sau tipuri de site-uri sau parti din site-uri nu fac parte din web-ul invizibil, existānd la mijloc cātiva factori:

Ce site-uri īsi replica o parte din continut īn pagini statice (hibrid de web vizibil si invizibil);

Ce site-uri īsi replica tot continutul īn pagini statice;

Ce site-uri nu īsi replica deloc continutul si trebuie interogate īn mod direct (total invizibile);

Politicile motoarelor de cautare se pot schimba īn ceea ce priveste includerea/excluderea din index.




Document Info


Accesari: 5382
Apreciat: hand-up

Comenteaza documentul:

Nu esti inregistrat
Trebuie sa fii utilizator inregistrat pentru a putea comenta


Creaza cont nou

A fost util?

Daca documentul a fost util si crezi ca merita
sa adaugi un link catre el la tine in site


in pagina web a site-ului tau.




eCoduri.com - coduri postale, contabile, CAEN sau bancare

Politica de confidentialitate | Termenii si conditii de utilizare




Copyright © Contact (SCRIGROUP Int. 2024 )