Correo electrónico y Unicode

Muchos clientes de correo electrónico hoy en día ofrecen soporte para Unicode en los cuerpos de mensaje. Aunque muchos no envían los mensajes en Unicode de forma implícita, e igualmente no todos los sistemas están configurados con tipografías capaces de mostrar el rango completo de caracteres Unicode.

El soporte de Unicode en las líneas de asunto (encabezados Subject: de los mensajes) y en las direcciones electrónicas es más problemático, puesto que es necesario coordinar varios estándares para manejar correctamente la presencia de datos no ASCII en un protocolo que originalmente fue diseñado solamente para este conjunto de caracteres:

  • RFC 2047 provee soporte para codificar valores no ASCII en los encabezados de un mensaje de correo electrónico (Véase encoded word)
  • RFC 3490 provee soporte para nombre de dominio no ASCII

Sin embargo, los nombre de los buzones (la parte de la dirección de correo electrónico que antecede al símbolo '@') aún está limitada al subconjunto de caracteres imprimibles de ASCII por la RFC 2822.

Soporte Unicode en el cuerpo del mensaje

Un mensaje con formato HTML puede usar entidades HTML para representar cualquier carácter en Unicode incluso si el contenido HTML del texto del mensaje utiliza una codificación antigua. El resto de este artículo asumirá que los mensajes de correo electrónico contienen texto (ya sean etiquetas HTML o texto plano) que usa un conjunto de caracteres que soporta completamente Unicode.

Como ocurre con todas las codificaciones aparte de ASCII, cuando se usa texto Unicode en un mensaje, debe hacerse uso de MIME para especificar que formato de transformación Unicode está siendo usado para el texto. Para utilizar Unicode en los encabezados de un mensaje, el texto Unicode tiene que ser codificado usando "Encoded-Word" de MIME, con un conjunto de caracteres Unicode.

UTF-7, aunque considerado en desuso, tiene una ventaja sobre otras codificaciones Unicode, y es que no requiere codificación adicional para soportar el límite de 7 bits de muchos servidores de correo legados en Internet. UTF-8 y UTF-16 por otra parte deben ser codificados usando base64 or quoted-printable para permitir una transmisión segura a través de servidores de correo que solo soportan 7 bit (por ejemplo, esos que no publican la extensión 8BITMIME).

Véase también

Enlaces externos