Calculatoarele lucreaza cu informatii memorate in forma numerica (digitala), prin urmare si caracterele sunt identificate printr-un cod numeric. Cel mai utilizat cod este codul ASCII (American Standard Code for Information Interchange), care codifica 256 de caractere, asociindu-le coduri cuprinse între 0 si 255. De exemplu, litera 'A' are asocial codul 65, 'Br are codul 66 etc.
Setul de caractere ASCII este însa insuficient pentru un sistem informational international cum este Web-ul. Deci au fost standardizate si alte seturi de caractere, care contin mii de caractere utilizate in întreaga lume.
Specificarea setului de caractere utilizat de un document HTML se poate face cu ajutorul etichetei <META>. De exemplu, pentru a specifica faptul ca documentul utilizeaza codificarea japoneza EUC-JP, plasam în antetul documentului HTML urmatoarea declaratie:
<META HTTP-EQUIV="Content-Type" CONTENT="text/html"; CHARSET="EUC-JP">
Prin atributul HTTP-EQUIV se pot specifica informatii asociate câmpurilor din antetul protocolului HTTP, în cazul nostru, câmpul se numeste Content-Type, valoarea asociata acestui câmp fiind "text/html";CHARSET="EUC-JP".
Daca autorul documentului nu precizeaza setul de caractere folosit, browser-ul va utiliza setul de caractere transmis de catre server, Serverul transmite modul de codificare a caracterelor prin intermediul parametrului charset al câmpului Content-Type al protocolului HTTP.
Cele mai utilizate seturi de caractere sunt ISO-8859-1 (pentru documente din Europa Occidentala), ISO-8859-2 (pentru documente din Europa Centrala si de Est), SHIFTJIS sau EUC-JP (pentru documente in limba japoneza), ISO-8859-5 (pentru documente cu litere chirilice) etc.
Specificarea caracterelor dintr-un set de caractere care nu au un corespondent pe tastatura se poate face în doua moduri:
a) Prin intermediul codului numeric asociat caracterului astfel: &#D ;
unde D este un numar zecimal care reprezinta codul Unicode al caracterului.
De exemplu:
â reprezinta litera a.Â
reprezinta litera A. î
reprezinta litera î.
Î reprezinta litera î.
b) Prin intermediul unor referinte speciale, asociate unor caractere mai frecvent folosite.
Prin urmare, daca doriti sa utilizati într-un document HTML caracterul < trebuie sa utilizati < sau < deoarece caracterul < are semnificatia speciala de început de eticheta. In mod analog, în loc de > (marcaj de sfârsit de eticheta) veti folosi > sax >, iar în loc de & (marcaj de început de referinta de caracter) puteti folosi & sau  8 ; .
Atentie! Caracterul ; (punct si virgula) este obligatoriu la sfârsit!
|