Unicode
Unicode é um universal codificação de caracteres padrão. Define a maneira como o indivíduo caracteres são representados em arquivos de texto, páginas da webe outros tipos de documentos.
Ao contrário ASCII, que foi projetado para representar apenas caracteres básicos em inglês, o Unicode foi projetado para oferecer suporte a caracteres de todos os idiomas do mundo. O conjunto de caracteres ASCII padrão suporta apenas caracteres 128, enquanto o Unicode pode suportar aproximadamente caracteres 1,000,000. Enquanto o ASCII usa apenas um byte para representar cada caractere, o Unicode suporta até 4 bytes para cada caractere.
Existem vários tipos diferentes de codificações Unicode, embora UTF-8 e UTF-16 são os mais comuns. UTF-8 se tornou a codificação de caracteres padrão usada no Web e também é a codificação padrão usada por muitos Programas programas. Enquanto UTF-8 suporta até quatro bytes por caractere, seria ineficiente usar quatro bytes para representar caracteres usados com freqüência. Portanto, o UTF-8 usa apenas um byte para representar caracteres comuns em inglês. Caracteres europeus (latino), hebraico e árabe são representados com dois bytes, enquanto três bytes são usados para caracteres chineses, japoneses, coreanos e outros caracteres asiáticos. Caracteres Unicode adicionais podem ser representados com quatro bytes.