O explicație a codificării caracterelor Unicode

Pentru ca un computer să poată stoca text și numere pe care oamenii le pot înțelege, trebuie să existe un cod care să transforme caracterele în numere. Standardul Unicode definește un astfel de cod utilizând codarea caracterelor.

Motivul pentru care codarea caracterelor este atât de importantă, încât fiecare dispozitiv poate afișa aceleași informații. O schemă de codare a caracterelor personalizate poate funcționa excelent pe un computer, dar apar probleme atunci când trimiteți același text altuia. Nu va ști despre ce vorbești dacă nu înțelege și schema de codare.

Codificarea caracterelor

Toate codurile de caractere nu sunt atribuirea unui număr fiecărui caracter care poate fi utilizat. Ați putea crea un cod de caractere chiar acum.

De exemplu, aș putea spune că scrisoarea A devine numărul 13, a = 14, 1 = 33, # = 123 și așa mai departe.

Aici intră standarde din întreaga industrie. Dacă întreaga industrie de calculatoare utilizează aceeași schemă de codare a caracterelor, fiecare computer poate afișa aceleași caractere.

Ce este Unicode?

ASCII (codul standard american pentru schimbul de informații) a devenit prima schemă de codificare răspândită. Cu toate acestea, este limitat la numai 128 de definiții de caractere. Acest lucru este în regulă pentru cele mai obișnuite caractere, numere și punctuații engleze, dar este un pic limitativ pentru restul lumii.

În mod firesc, restul lumii dorește aceeași schemă de codificare și pentru personajele lor. Cu toate acestea, de puțin timp, în timp ce depindeți de locul în care vă aflați, este posibil să fi fost afișat un caracter diferit pentru același cod ASCII.

Până la urmă, celelalte părți ale lumii au început să-și creeze propriile scheme de codificare, iar lucrurile au început să devină puțin confuze. Nu numai că schemele de codare aveau diferite lungimi, programele trebuiau să-și dea seama ce schemă de codificare trebuiau să folosească.

A devenit evident că a fost nevoie de o nouă schemă de codare a caracterelor, care este momentul în care a fost creat standardul Unicode. Obiectivul Unicode este unificarea tuturor diferitelor scheme de codificare, astfel încât confuzia dintre computere să poată fi limitată pe cât posibil.

În aceste zile, standardul Unicode definește valorile pentru peste 128.000 de caractere și poate fi văzut la Consorțiul Unicode. Are mai multe forme de codare a caracterelor:

  • UTF-8: Utilizează doar un octet (8 biți) pentru a codifica caractere engleze. Poate folosi o secvență de octeți pentru a codifica alte caractere. UTF-8 este utilizat pe scară largă în sistemele de e-mail și pe internet.
  • UTF-16: Utilizează doi octeți (16 biți) pentru a codifica caracterele cel mai des utilizate. Dacă este nevoie, caracterele suplimentare pot fi reprezentate de o pereche de numere de 16 biți.
  • UTF-32: Utilizează patru octeți (32 biți) pentru a codifica caracterele. A devenit evident că pe măsură ce standardul Unicode a crescut, un număr de 16 biți este prea mic pentru a reprezenta toate caracterele. UTF-32 este capabil să reprezinte fiecare caracter Unicode ca un număr.

Notă: UTF înseamnă Unicode Transformation Unit.

Puncte de cod

Un punct de cod este valoarea pe care un caracter este dat în standardul Unicode. Valorile conform Unicode sunt scrise ca numere hexadecimale și au un prefix de U+.

De exemplu, pentru a codifica caracterele la care ne-am uitat mai devreme:

  • A este U + 0041
  • A este U + 0061
  • 1 este U + 0031
  • # este U + 0023