Unicode

Da Wikipedia, a enciclopedia libre.
Ir á navegación Ir á busca
Unicode
Codificacións
UCS
Cartografía
Texto bidireccional
BOM
Unificación Han
Unicode e HTML
Logotipo do Consorcio Unicode

Unicode é un sistema de codificación que asigna un número único a cada carácter usado para escribir textos, independentemente do idioma , da plataforma informática e do programa empregado.

Foi compilado, actualizado e anunciado polo Unicode Consortium [1] , un consorcio internacional de empresas interesadas na interoperabilidade no tratamento informático de textos en diferentes idiomas.

Historia

Orixe e desenvolvemento Unicode creouse para abordar as limitacións dos esquemas tradicionais de codificación de caracteres. Por exemplo, aínda que os caracteres definidos na ISO 8859-1 son moi utilizados en diferentes países, moitas veces as incompatibilidades ocorren entre diferentes países. Moitos métodos tradicionais de codificación teñen un problema común, que é que permiten aos ordenadores xestionar un ambiente bilingüe (normalmente usando letras latinas e as súas linguas nativas), pero non poden soportar un ambiente multilingüe ao mesmo tempo (referíndose a unha situación en que varios idiomas Pódese mesturar ao mesmo tempo).

A codificación Unicode contén caracteres con diferentes estilos de escritura, como "ɑ / a", "强 / 强", "home / familia / 戸". Non obstante, houbo controversia sobre a identificación do polimorfismo en caracteres chineses. Para máis detalles, consulte os ideogramas unidos de China, Xapón e Corea.

En termos de procesamento de textos, Unicode define un código único (é dicir, un número enteiro) para cada carácter en lugar dun glifo. Noutras palabras, Unicode procesa caracteres de forma abstracta (é dicir, números) e deixa o traballo de dedución visual (como o tamaño da letra, a forma de aspecto, a forma da letra, o estilo, etc.) a outros programas, como a navegación web OU o procesador de textos.

Na actualidade, case todos os sistemas informáticos admiten o alfabeto latino básico e cada un admite outros métodos de codificación. Para ser compatibles con eles, os primeiros 256 caracteres de Unicode están reservados para caracteres definidos pola ISO 8859-1, de xeito que a conversión das linguas existentes de Europa occidental non require unha consideración especial; e un gran número dos mesmos caracteres repítense en diferentes. En código de caracteres, o antigo método de codificación complicado pódese converter directamente entre codificación Unicode sen perder información. Por exemplo, a sección de formato completo contén o formato completo das principais letras latinas. Nos glifos chinés, xaponés e coreano, estes caracteres preséntanse en forma completa en lugar da media forma común. , Que ten un efecto importante no texto vertical e no texto monospazado.

Cando se representa un carácter Unicode, normalmente represéntase con "U +" seguido dun conxunto de números hexadecimais. No plan básico multilingüe: (plan multilingüe básico en inglés todos os caracteres. BMP abreviado tamén coñecido como "plan cero", plan 0) dentro, usa catro díxitos (é dicir, 2 bytes, para un total de 16 bits, como U + 4AE0, que soporta un total de máis de 60.000 caracteres); os caracteres fóra do plano cero deben usar cinco ou seis números. A versión anterior do estándar Unicode usa métodos de marcación similares, pero con algunhas pequenas diferenzas: en Unicode 3.0 úsase "U-" seguido de oito díxitos e "U +" debe ir seguido de catro díxitos.

Estrutura do código

Unicode pensábase orixinalmente como unha codificación de 16 bits (catro díxitos hexadecimais) que permitía codificar 65.535 caracteres (2 ^ 16 -1). Críase que isto era suficiente para representar os personaxes empregados en todas as linguas escritas do mundo. Agora ben, o estándar Unicode, que tende a estar perfectamente aliñado co estándar ISO / IEC 10646 , prevé unha codificación de ata 21 bits e admite un repertorio de códigos numéricos que poden representar aproximadamente un millón de caracteres. Isto parece suficiente para cubrir tamén as necesidades de codificación dos escritos do patrimonio histórico da humanidade, nas distintas linguas e nos distintos sistemas de signos empregados.

A partir de 2009, só se asigna unha pequena parte desta dispoñibilidade de códigos. De feito, están previstos 17 "planos" ("planos", en inglés) para o desenvolvemento dos códigos, de 00 a 10 hex , cada un con 65.536 posicións (catro díxitos hexadecimais), pero só os tres primeiros e os últimos tres pisos actualmente están asignados [2] , e deles o primeiro, tamén chamado BMP, é prácticamente suficiente para cubrir todas as linguas máis usadas.

En termos concretos, este repertorio de códigos numéricos está serializado utilizando diferentes esquemas de recodificación, que permiten o uso de códigos máis compactos para os caracteres máis empregados. Prevese o uso de codificacións de unidades de 8 bits ( bytes ), 16 bits ( palabra ) e 32 bits ( dobre palabra ), respectivamente descritas como UTF-8 , UTF-16 e UTF-32 .

Piso Intervalo Descrición Abreviatura
0 000000-00FFFF Avión básico plurilingüe BMP
1 010000-01FFFF Avión multilingüe complementario SMP
2 020000-02FFFF Avión ideográfico complementario SIP
3 030000-03FFFF Designado preliminarmente como avión ideográfico terciario (TIP), pero non se lle asignaron caracteres nese momento [3] . CONSELLO
4-13 040000-0DFFFF Actualmente non está asignado
14 0E0000-0EFFFF Avión de propósito especial complementario SSP
15 0F0000-0FFFFF Área de uso privado complementaria-A
16 100000-10FFFF Área de uso privado complementaria-B

Avión básico multilingüe (BMP)

O plan 0, o Plano Básico Multilingüe (lit. " Plano Básico Multilingüe ") ou BMP, é aquel no que se asignaron a maioría dos personaxes. O BMP contén caracteres para case todas as linguas modernas e un gran número de caracteres especiais. A maioría dos códigos de caracteres asignados no BMP empregáronse para codificar os códigos chinés, xaponés e coreano ( CJK ).

Sistemas de escritura representados

Unicode inclúe case todos os sistemas de escritura empregados actualmente, incluíndo:

Ademais dos mencionados, están dispoñibles glifos pertencentes a moitas linguas mortas:

Finalmente, Unicode tamén inclúe moitos símbolos, como matemáticos e musicais .

Historial de versións

Nos últimos anos, lanzouse unha nova versión practicamente todos os anos tras unha media de máis de 1.000 solicitudes de cambios ao ano.

  • DP 10646 1989 (Proxecto de proposta da norma ISO 10646, independente de Unicode)
  • DIS-1 10646 1990 (Primeiro borrador da ISO 10646, independente de Unicode)
  • Unicode 1.0.0 de outubro de 1991
  • Unicode 1.0. 1 de xuño de 1992 (Modificado para posible aliñamento coa ISO 10646)
  • Unicode 1.1.0 de xuño de 1993 (Unicode e ISO unificáronse por primeira vez: os dous códigos son idénticos á norma ISO 10646-1: 1993)
  • Unicode 1.1.5 de xuño de 1995
  • Unicode 2.0.0 de xullo de 1996 (aliñado ao estándar ISO 10646 ampliado)
  • Unicode 2.1.2 de maio de 1998 (Entre outros, introdución do carácter euro : €)
  • Unicode 2.1.5 de agosto de 1998
  • Unicode 2.1.8 de decembro de 1998
  • Unicode 2.1.9 de abril de 1999
  • Unicode 3.0.0 de setembro de 1999 (aliñado coa norma ISO 10646-1: 2000)
  • Unicode 3.0.1 de agosto de 2000
  • Unicode 3.1.0 de marzo de 2001 (aliñado coa norma ISO 10646-2: 2001)
  • Unicode 3.1.1 de agosto de 2001
  • Unicode 3.2.0 de marzo de 2002
  • Unicode 4.0.0 de abril de 2003 (aliñado coa norma ISO 10646: 2003)
  • Unicode 4.0.1 marzo de 2004
  • Unicode 4.1.0 31 de marzo de 2005
  • Unicode 5.0.0 14 de xullo de 2006 sobre 99.000 glifos [4]
  • Unicode 5.1.0 4 de abril de 2008
  • Unicode 5.2.0 1 de outubro de 2009
  • Unicode 6.0.0 10 de outubro de 2010
  • Unicode 6.1.0 26 de xaneiro de 2012
  • Unicode 6.2.0 26 de setembro de 2012
  • Unicode 6.3.0 30 de setembro de 2013
  • Unicode 7.0.0 16 de xuño de 2014
  • Unicode 8.0.0 17 de xuño de 2015
  • Unicode 9.0.0 21 de xuño de 2016
  • Unicode 10.0.0 20 de xuño de 2017
  • Unicode 11.0.0 5 de xuño de 2018
  • Unicode 12.0.0 5 de marzo de 2019

Nota

  1. ^ (EN) Páxina oficial do Consorcio Unicode
  2. Plans asignados (2009):
    1 00-BMP Plan básico plurilingüe
    2 Plan complementario plurilingüe 01-SMP
    3 Plan ideográfico suplementario 02-SIP
    15 Plan complementario 0E-SSP con fins especiais
    16 0F-PUA reservado para áreas de uso privado
    17 10-PUA reservado para áreas de uso privado
  3. ^ Folla de ruta cara ao TIP
  4. ^ Unicode Consortium Unicode Character Database 5.0 Publicado Arquivado o 5 de agosto de 2011 no Arquivo de Internet . , 18 de xullo de 2006

Elementos relacionados

Outros proxectos

Ligazóns externas

Control da autoridade LCCN (EN) sh98000843 · GND (DE) 4343497-6
Informática Portal das TIC : Acceso de entradas da Wikipedia xestionar TI