SlideShare una empresa de Scribd logo
1 de 10
Unicode Bruno Pinto Nº43876
ASCII O computador e o utilizador comunicam-se com uma linguagem diferente. Enquanto utilizamos símbolos, textos, gráficos, sons e imagens para nos comunicar, o computador utiliza exclusivamente estados lógicos na representação binária sendo então necessário um código para estabelecer um canal de comunicação entre os dois.  Ao princípio não existia um consenso e cada fabricante de computador procurava definir seu próprio código de comunicação. O AmericanNational Standards Institute (ANSI) estabeleceu um código denominado ASCII “American Standard Code For InformationInterchange” que se tornou um padrão para os computadores pessoais. A um mesmo valor do código ASCII podem estar associados símbolos diferentes, dependendo da função a ser executada. Um mesmo código pode produzir resultados diferentes quando for enviado para uma impressora ou para o vídeo. O código ASCII original tem 128 caracteres. Os primeiros 32(20h) caracteres não têm uma representação gráfica e são usados para controlo dos protocolos de comunicação. No projecto do PC, a IBM estendeu o código original de modo a:Criar símbolos gráficos para 32 primeiros caracteresEstender para 256 o número de caracteres possíveisCriar um conjunto de caracteres especiais para aceitar as diversas associações do teclado. 2 TPM - Bruno Pinto
3 TPM - Bruno Pinto
ISO 8859 A ISO 8859 é um conjunto de caracteres ISO (InternationalOrganization for Standardization), que é uma extensão ao código ASCII. Inclui caracteres acentuados. Foram normalizados os conjuntos de caracteres de 8 bits, agrupando as variantes de idiomas relacionados geograficamente. Não é de longe tão completo como o Unicode mas tem sido utilizável por algum tempo.  A ISO 8859 foi criada na década de 80 pela European Computer Manufacturer's Association (ECMA) e apoiadopela ISO. A ediçãosaídaem 1998 vemcomotodososnúmeros do Unicode.  4 TPM - Bruno Pinto
ISO 8859-1 A ISO 8859-1 (conhecida como Latin1) abrange a maioria dos idiomas da Europa Central (tal como Portugal) . É o conjunto de caracteres padrão geralmente utilizados na maioria dos navegadores. Os primeiros 128 caracteres do ISO 8859-1 são os caracteres originais do conjunto ASCII. A maior parte da norma ISO 8859-1 (códigos 160-255) contém os caracteres usados em países da Europa Ocidental e alguns usados caracteres especiais.  5 TPM - Bruno Pinto
Unicode O Unicode é um padrão que permite aos computadores manipular e representar texto de qualquer sistema de escrita existente.   O reportório tem cerca de 100.000 caracteres (tal como a ISO 10646), diagramas de códigos para referência visual, metodologia para codificação e um conjunto de codificações padrões caracteres, decomposição, etc. Actualmente é desenvolvido pela Unicode Consortiumque é uma organização sem fins lucrativos. O desenvolvimento é feito em conjunto com a ISO.  O Unicode possui o objectivo de transcender as limitações de codificações de caracteres tradicionais, que possuem grande uso em vários países mas que permanecem em sua maioria incompatíveis umas com as outras.  Existem dois métodos possíveis para mapear os códigos Unicode em códigos de implementação que são eles o UCS (Universal CharacterSet) e o UTF (Unicode TransformationFormat).  6 TPM - Bruno Pinto
ISO 10646 A ISO 10646 define o Conjunto Universal de Caracteres como uma codificação de caracteres. Ela tem cerca de 100.000 códigos identificados por um nome não ambíguo, que representam símbolos  tal como letras e números. Desde 1991, a Unicode Consortium vêm trabalhando com a ISO para desenvolver o padrão Unicode e a ISO/IEC 10646 em conjunto. Após a publicação do Unicode 3.0 em Fevereiro de 2000, novos e actualizados caracteres correspondentes foram inseridos no UCS através da ISO/IEC 10646-1:2000. Unicode e ISO 10646 tem uma certa relação entre ambas. Esta relação ocorreu quando em 1991 o grupo de trabalho do ISO responsável pela ISO 10646 e Unicode Consortium  decidiram criar um padrão universal de codificação de texto multi-linguagem.  Desde então os dois trabalham juntos para alargar o padrão e para manter as suas respectivas versões sincronizadas. 7 TPM - Bruno Pinto
UCS-4 UCS-4 ou UTF-32 são nomes alternativos para o método de codificação de caracteres, usando a quantidade fixa de 32 bits para cada caracteres Unicode. Pode ser considerado como a forma de codificação mais simples tal como os outros UTF. UCS-4 e UTF-32 podem ser considerados idênticos, salvo que o padrão UTF-32 possui semântica Unicode adicional que precisa ser observada. 8 TPM - Bruno Pinto
UCS-2 e UTF-16 UTF-16 e UCS-2 são formatos de transformação Unicode (UnicodeTransformationFormat) com 16 bits. UTF-16 possui uma largura variável capaz de codificar todo o reportório Unicode.  UCS-2 foi substituída pela UTF-16 no Unicode versão 2.0 mas ainda se encontra em uso. A forma de codificação do UCS-2 é idêntica à do UTF-16. Devido às semelhanças técnicas e de compatibilidade com UCS-2 e UTF-16, as duas codificações são muitas vezes confundidas e usadas como se trocáveis, de modo que as strings codificados em UTF-16 são, por vezes identificadas como sendo codificadas em UCS-2. 9 TPM - Bruno Pinto
UTF-8 UTF-8 é um tipo de codificação Unicode de 8 bits. Pode representar qualquer carácter universal padrão do Unicode, sendo também  compatível com o ASCII. Por esta razão, está lentamente a ser adoptado como tipo de codificação padrão para email, páginas Web, e outros locais onde os caracteres são armazenados. 10 TPM - Bruno Pinto

Más contenido relacionado

Destacado (15)

Perigos Da Internet1
Perigos Da Internet1Perigos Da Internet1
Perigos Da Internet1
 
Escritura Academica
Escritura AcademicaEscritura Academica
Escritura Academica
 
16 Out Dia Alimentação
16 Out Dia Alimentação16 Out Dia Alimentação
16 Out Dia Alimentação
 
Deporte
DeporteDeporte
Deporte
 
Cuestionario 4
Cuestionario 4Cuestionario 4
Cuestionario 4
 
Tram 522
Tram 522Tram 522
Tram 522
 
Defesa mary
Defesa maryDefesa mary
Defesa mary
 
Artigo Sobre Processos
Artigo Sobre ProcessosArtigo Sobre Processos
Artigo Sobre Processos
 
Apne lakhte jigar k liye
Apne lakhte jigar k liyeApne lakhte jigar k liye
Apne lakhte jigar k liye
 
Sartori vs negroponte
Sartori vs negroponteSartori vs negroponte
Sartori vs negroponte
 
Investigacion tres temas
Investigacion tres temasInvestigacion tres temas
Investigacion tres temas
 
CONSTITUIÇÃO FEDERAL
CONSTITUIÇÃO FEDERALCONSTITUIÇÃO FEDERAL
CONSTITUIÇÃO FEDERAL
 
George Mitchell Esguerra
George Mitchell EsguerraGeorge Mitchell Esguerra
George Mitchell Esguerra
 
O que é trekking
O que é trekkingO que é trekking
O que é trekking
 
Translation article
Translation articleTranslation article
Translation article
 

Similar a Codificações de caracteres e padrões Unicode

Unicode
UnicodeUnicode
Unicodehpanao
 
Unicode: Os segredos da Codificação de Caracteres
Unicode: Os segredos da Codificação de CaracteresUnicode: Os segredos da Codificação de Caracteres
Unicode: Os segredos da Codificação de CaracteresDouglas V. Pasqua
 
Fique ninja na codificação de caracteres
Fique ninja na codificação de caracteresFique ninja na codificação de caracteres
Fique ninja na codificação de caracteresSebastian Webber
 
Unicode poetry
Unicode poetryUnicode poetry
Unicode poetrycodebits
 
Componentes de Sistemas de Comunicação
Componentes de Sistemas de ComunicaçãoComponentes de Sistemas de Comunicação
Componentes de Sistemas de ComunicaçãoMauro
 

Similar a Codificações de caracteres e padrões Unicode (9)

Unicode
UnicodeUnicode
Unicode
 
Unicode: Os segredos da Codificação de Caracteres
Unicode: Os segredos da Codificação de CaracteresUnicode: Os segredos da Codificação de Caracteres
Unicode: Os segredos da Codificação de Caracteres
 
Sm C1
Sm C1Sm C1
Sm C1
 
Fique ninja na codificação de caracteres
Fique ninja na codificação de caracteresFique ninja na codificação de caracteres
Fique ninja na codificação de caracteres
 
How to linux Portuguese
How to linux PortugueseHow to linux Portuguese
How to linux Portuguese
 
Ze E Jorge
Ze E JorgeZe E Jorge
Ze E Jorge
 
Unicode poetry
Unicode poetryUnicode poetry
Unicode poetry
 
Trabalho mac
Trabalho macTrabalho mac
Trabalho mac
 
Componentes de Sistemas de Comunicação
Componentes de Sistemas de ComunicaçãoComponentes de Sistemas de Comunicação
Componentes de Sistemas de Comunicação
 

Codificações de caracteres e padrões Unicode

  • 2. ASCII O computador e o utilizador comunicam-se com uma linguagem diferente. Enquanto utilizamos símbolos, textos, gráficos, sons e imagens para nos comunicar, o computador utiliza exclusivamente estados lógicos na representação binária sendo então necessário um código para estabelecer um canal de comunicação entre os dois. Ao princípio não existia um consenso e cada fabricante de computador procurava definir seu próprio código de comunicação. O AmericanNational Standards Institute (ANSI) estabeleceu um código denominado ASCII “American Standard Code For InformationInterchange” que se tornou um padrão para os computadores pessoais. A um mesmo valor do código ASCII podem estar associados símbolos diferentes, dependendo da função a ser executada. Um mesmo código pode produzir resultados diferentes quando for enviado para uma impressora ou para o vídeo. O código ASCII original tem 128 caracteres. Os primeiros 32(20h) caracteres não têm uma representação gráfica e são usados para controlo dos protocolos de comunicação. No projecto do PC, a IBM estendeu o código original de modo a:Criar símbolos gráficos para 32 primeiros caracteresEstender para 256 o número de caracteres possíveisCriar um conjunto de caracteres especiais para aceitar as diversas associações do teclado. 2 TPM - Bruno Pinto
  • 3. 3 TPM - Bruno Pinto
  • 4. ISO 8859 A ISO 8859 é um conjunto de caracteres ISO (InternationalOrganization for Standardization), que é uma extensão ao código ASCII. Inclui caracteres acentuados. Foram normalizados os conjuntos de caracteres de 8 bits, agrupando as variantes de idiomas relacionados geograficamente. Não é de longe tão completo como o Unicode mas tem sido utilizável por algum tempo. A ISO 8859 foi criada na década de 80 pela European Computer Manufacturer's Association (ECMA) e apoiadopela ISO. A ediçãosaídaem 1998 vemcomotodososnúmeros do Unicode. 4 TPM - Bruno Pinto
  • 5. ISO 8859-1 A ISO 8859-1 (conhecida como Latin1) abrange a maioria dos idiomas da Europa Central (tal como Portugal) . É o conjunto de caracteres padrão geralmente utilizados na maioria dos navegadores. Os primeiros 128 caracteres do ISO 8859-1 são os caracteres originais do conjunto ASCII. A maior parte da norma ISO 8859-1 (códigos 160-255) contém os caracteres usados em países da Europa Ocidental e alguns usados caracteres especiais. 5 TPM - Bruno Pinto
  • 6. Unicode O Unicode é um padrão que permite aos computadores manipular e representar texto de qualquer sistema de escrita existente. O reportório tem cerca de 100.000 caracteres (tal como a ISO 10646), diagramas de códigos para referência visual, metodologia para codificação e um conjunto de codificações padrões caracteres, decomposição, etc. Actualmente é desenvolvido pela Unicode Consortiumque é uma organização sem fins lucrativos. O desenvolvimento é feito em conjunto com a ISO. O Unicode possui o objectivo de transcender as limitações de codificações de caracteres tradicionais, que possuem grande uso em vários países mas que permanecem em sua maioria incompatíveis umas com as outras. Existem dois métodos possíveis para mapear os códigos Unicode em códigos de implementação que são eles o UCS (Universal CharacterSet) e o UTF (Unicode TransformationFormat). 6 TPM - Bruno Pinto
  • 7. ISO 10646 A ISO 10646 define o Conjunto Universal de Caracteres como uma codificação de caracteres. Ela tem cerca de 100.000 códigos identificados por um nome não ambíguo, que representam símbolos tal como letras e números. Desde 1991, a Unicode Consortium vêm trabalhando com a ISO para desenvolver o padrão Unicode e a ISO/IEC 10646 em conjunto. Após a publicação do Unicode 3.0 em Fevereiro de 2000, novos e actualizados caracteres correspondentes foram inseridos no UCS através da ISO/IEC 10646-1:2000. Unicode e ISO 10646 tem uma certa relação entre ambas. Esta relação ocorreu quando em 1991 o grupo de trabalho do ISO responsável pela ISO 10646 e Unicode Consortium decidiram criar um padrão universal de codificação de texto multi-linguagem. Desde então os dois trabalham juntos para alargar o padrão e para manter as suas respectivas versões sincronizadas. 7 TPM - Bruno Pinto
  • 8. UCS-4 UCS-4 ou UTF-32 são nomes alternativos para o método de codificação de caracteres, usando a quantidade fixa de 32 bits para cada caracteres Unicode. Pode ser considerado como a forma de codificação mais simples tal como os outros UTF. UCS-4 e UTF-32 podem ser considerados idênticos, salvo que o padrão UTF-32 possui semântica Unicode adicional que precisa ser observada. 8 TPM - Bruno Pinto
  • 9. UCS-2 e UTF-16 UTF-16 e UCS-2 são formatos de transformação Unicode (UnicodeTransformationFormat) com 16 bits. UTF-16 possui uma largura variável capaz de codificar todo o reportório Unicode. UCS-2 foi substituída pela UTF-16 no Unicode versão 2.0 mas ainda se encontra em uso. A forma de codificação do UCS-2 é idêntica à do UTF-16. Devido às semelhanças técnicas e de compatibilidade com UCS-2 e UTF-16, as duas codificações são muitas vezes confundidas e usadas como se trocáveis, de modo que as strings codificados em UTF-16 são, por vezes identificadas como sendo codificadas em UCS-2. 9 TPM - Bruno Pinto
  • 10. UTF-8 UTF-8 é um tipo de codificação Unicode de 8 bits. Pode representar qualquer carácter universal padrão do Unicode, sendo também compatível com o ASCII. Por esta razão, está lentamente a ser adoptado como tipo de codificação padrão para email, páginas Web, e outros locais onde os caracteres são armazenados. 10 TPM - Bruno Pinto