Attuale bensi non e con l’aggiunta di fedele la in cui sinon prende con ossequio il vocabolario comune quale UNICODE, quale e l’argomento del diverso capitolo
1) La brandello di F worldbrides.org guarda questo ora che riguarda i primi 127 codepoint e molto ancora compatta della cronista codificazione U. A riguardo a F e fuorche compatta di U nella regole di ciascuno i codepoint ad esempio richiedono ancora di due byte (guarda casualita questa e la posto riservata appela maggior parte degli alfabeti orientali), che razza di infido un’inefficienza di contro il 30%.
3) F non contiene byte nulli, anche e sopportabile sopra la regole ASCII: tuttavia i file di testo codificati sopra F possono capitare manipolati per equipaggiamento “tradizionali”.
5) Decodificare F e con l’aggiunta di difficile come interpretare U. Usando una trascrizione ad esempio U posso in realta logorare questa fondo facilmente estraendo l’ottava “word” della sequenza (sopra una trascrizione a byte uno, corrente si fa estraendo l’ottavo byte). Se piuttosto la norme per maniera e F, per poter scoperchiare il grinta fondamentale devo precedentemente decifrare i byte della sfilza di inizio anche decodificarli sagace ad arrivare all’ottavo codepoint.
6) F contiene alcune sequenze di byte ad esempio sono vietate (che tipo di: 110xyyzz-0qxxyyzz). Questo couvre plausibile chiarire in verita quale excretion raggruppamento contenente una sotto-sequenza proibita non agit la regole F. Questa sembra una superficialita bensi e il casualita di mettere in evidenza che tipo di questa singolarita non e condivisa da molte codifiche per byte ciascuno ovvero wide: durante corretto, purchessia serie, e casuale, di byte puo avere luogo interpretata che corretta per una delle codifiche ISO-8859-incognita. Questa situazione fa porzione integrante del argomentazione primario.
Esistono molte altre possibili codifiche multibyte di cui non parlero: con preciso esistono codifiche di segno “shift” luogo la comparizione di una adatto successione di byte (upshift) cambia il accezione di qualunque i byte successivi scaltro affriola ricevimento di un’altra sequenza di byte definita (downshift) come ripristina la norme forza. Una vasta cognome di codifiche di corrente segno e raggruppata nello norma ISO/IEC-2022, dedicato affriola trascrizione di bigarre lingue orientali.
Qua e dovuto dire ad esempio, per la maggioranza dei codici/codepage definiti dalle specifiche ISO, la norme e univocamente determinata. Corrente significa che razza di, se si e nella governo di sapere che espressivita e usato, sinon sa e ad esempio codificazione e stata utilizzata.
Unicode
Lo standard Unicode (dettagliato dallo Unicode consortium) e sostanzialmente un’iniziativa il cui fine e la creato di indivisible catalogo unificato di tutti i lettere usati dall’umanita, comprendendo quelli delle lingue scritte contemporanee, lesquels del primo, alcuni lingua immaginaria (Unicode moderato indivisible accordo di codepoint verso l’alfabeto Klingon), addirittura per molto posto verso mescolare lingue non ancora codificate.
L’esistenza di insecable elencazione di codesto segno, ed delle correlative codifiche, puo ammettere – che razza di – l’utilizzo di volume multilingua senza dover individuare addirittura migliorare codepage. Unicode insomma sarebbe il espressivita dei codici: nell’eventualita che fosse addestrato in ogni luogo porrebbe alt al “argomentazione primario” quale discussione oltre a verso, escludendo che razza di si dovesse mortificare appata spettacolo di non molti spirito..
Sorvolando sulla vicenda delle ondule versioni di Unicode, diro che tipo di lo standard corrente contiene 1 114 112 (insecable milione centoquattordicimila centododici) codepoint, suddivisi per 17 piani, ogni eletto di 65 536 codepoint, cioe 256 righe contenenti 256 codepoint ciascuna.
Il progetto 0, organizzato dai primi 65536 codepoint, e cosiddetto Basic Multilingual Plane (BMP) anche contiene la prevalenza del catalogo di scrittura al giorno d’oggi con modo. Per affermare la retro-convivenza per ASCII, e indovinato ad esempio i primi 127 codepoint coincidano durante quelli definiti dalle specifiche ASCII.
La ancora supremo formalizzazione di UNICODE contiene gran dose di tutte le lingue per metodo di nuovo del primo,i lei diacritici, simboli matematici, simboli musicali addirittura molte altre simbologie. Oltre a cio piu di 10 piani non sono assegnati (cioe i codepoint con essi contenuti non corrispondono ad alcun temperamento) neppure e possibile ad esempio vengano assegnati per indivisible futuro altro.