Codificações de caracteres e padrões Unicode

ASCII O computador e o utilizador comunicam-se com uma linguagem diferente. Enquanto utilizamos símbolos, textos, gráficos, sons e imagens para nos comunicar, o computador utiliza exclusivamente estados lógicos na representação binária sendo então necessário um código para estabelecer um canal de comunicação entre os dois. Ao princípio não existia um consenso e cada fabricante de computador procurava definir seu próprio código de comunicação. O AmericanNational Standards Institute (ANSI) estabeleceu um código denominado ASCII “American Standard Code For InformationInterchange” que se tornou um padrão para os computadores pessoais. A um mesmo valor do código ASCII podem estar associados símbolos diferentes, dependendo da função a ser executada. Um mesmo código pode produzir resultados diferentes quando for enviado para uma impressora ou para o vídeo. O código ASCII original tem 128 caracteres. Os primeiros 32(20h) caracteres não têm uma representação gráfica e são usados para controlo dos protocolos de comunicação. No projecto do PC, a IBM estendeu o código original de modo a:Criar símbolos gráficos para 32 primeiros caracteresEstender para 256 o número de caracteres possíveisCriar um conjunto de caracteres especiais para aceitar as diversas associações do teclado. 2 TPM - Bruno Pinto

ISO 8859 A ISO 8859 é um conjunto de caracteres ISO (InternationalOrganization for Standardization), que é uma extensão ao código ASCII. Inclui caracteres acentuados. Foram normalizados os conjuntos de caracteres de 8 bits, agrupando as variantes de idiomas relacionados geograficamente. Não é de longe tão completo como o Unicode mas tem sido utilizável por algum tempo. A ISO 8859 foi criada na década de 80 pela European Computer Manufacturer's Association (ECMA) e apoiadopela ISO. A ediçãosaídaem 1998 vemcomotodososnúmeros do Unicode. 4 TPM - Bruno Pinto

ISO 8859-1 A ISO 8859-1 (conhecida como Latin1) abrange a maioria dos idiomas da Europa Central (tal como Portugal) . É o conjunto de caracteres padrão geralmente utilizados na maioria dos navegadores. Os primeiros 128 caracteres do ISO 8859-1 são os caracteres originais do conjunto ASCII. A maior parte da norma ISO 8859-1 (códigos 160-255) contém os caracteres usados em países da Europa Ocidental e alguns usados caracteres especiais. 5 TPM - Bruno Pinto

Unicode O Unicode é um padrão que permite aos computadores manipular e representar texto de qualquer sistema de escrita existente. O reportório tem cerca de 100.000 caracteres (tal como a ISO 10646), diagramas de códigos para referência visual, metodologia para codificação e um conjunto de codificações padrões caracteres, decomposição, etc. Actualmente é desenvolvido pela Unicode Consortiumque é uma organização sem fins lucrativos. O desenvolvimento é feito em conjunto com a ISO. O Unicode possui o objectivo de transcender as limitações de codificações de caracteres tradicionais, que possuem grande uso em vários países mas que permanecem em sua maioria incompatíveis umas com as outras. Existem dois métodos possíveis para mapear os códigos Unicode em códigos de implementação que são eles o UCS (Universal CharacterSet) e o UTF (Unicode TransformationFormat). 6 TPM - Bruno Pinto

ISO 10646 A ISO 10646 define o Conjunto Universal de Caracteres como uma codificação de caracteres. Ela tem cerca de 100.000 códigos identificados por um nome não ambíguo, que representam símbolos tal como letras e números. Desde 1991, a Unicode Consortium vêm trabalhando com a ISO para desenvolver o padrão Unicode e a ISO/IEC 10646 em conjunto. Após a publicação do Unicode 3.0 em Fevereiro de 2000, novos e actualizados caracteres correspondentes foram inseridos no UCS através da ISO/IEC 10646-1:2000. Unicode e ISO 10646 tem uma certa relação entre ambas. Esta relação ocorreu quando em 1991 o grupo de trabalho do ISO responsável pela ISO 10646 e Unicode Consortium decidiram criar um padrão universal de codificação de texto multi-linguagem. Desde então os dois trabalham juntos para alargar o padrão e para manter as suas respectivas versões sincronizadas. 7 TPM - Bruno Pinto

UCS-4 UCS-4 ou UTF-32 são nomes alternativos para o método de codificação de caracteres, usando a quantidade fixa de 32 bits para cada caracteres Unicode. Pode ser considerado como a forma de codificação mais simples tal como os outros UTF. UCS-4 e UTF-32 podem ser considerados idênticos, salvo que o padrão UTF-32 possui semântica Unicode adicional que precisa ser observada. 8 TPM - Bruno Pinto

UCS-2 e UTF-16 UTF-16 e UCS-2 são formatos de transformação Unicode (UnicodeTransformationFormat) com 16 bits. UTF-16 possui uma largura variável capaz de codificar todo o reportório Unicode. UCS-2 foi substituída pela UTF-16 no Unicode versão 2.0 mas ainda se encontra em uso. A forma de codificação do UCS-2 é idêntica à do UTF-16. Devido às semelhanças técnicas e de compatibilidade com UCS-2 e UTF-16, as duas codificações são muitas vezes confundidas e usadas como se trocáveis, de modo que as strings codificados em UTF-16 são, por vezes identificadas como sendo codificadas em UCS-2. 9 TPM - Bruno Pinto

UTF-8 UTF-8 é um tipo de codificação Unicode de 8 bits. Pode representar qualquer carácter universal padrão do Unicode, sendo também compatível com o ASCII. Por esta razão, está lentamente a ser adoptado como tipo de codificação padrão para email, páginas Web, e outros locais onde os caracteres são armazenados. 10 TPM - Bruno Pinto

Codificações de caracteres e padrões Unicode

Recomendados

Recomendados

Más contenido relacionado

Destacado

Destacado (15)

Similar a Codificações de caracteres e padrões Unicode

Similar a Codificações de caracteres e padrões Unicode (9)

Codificações de caracteres e padrões Unicode