UTF

La norme Unicode définit plus de cent mille caractères. Chaque caractère abstrait est identifié par un nom unique (un en anglais et un en français) et associé à un nombre entier positif appelé son point de code (ou position de code).

UTF (pour Unicode Transformation Format en anglais) désigne les méthodes de conversion possibles pour le transport informatique de ces nombres :

  • UTF-1 (en), une méthode de conversion annulée et remplacée par UTF-8, son objectif était de maximiser la compatibilité avec ISO/CEI 2022 ;
  • UTF-7, une méthode de conversion considérée comme obsolète, n'a jamais fait partie de la norme Unicode, initialement décrite dans le RFC 1642 ;
  • UTF-8, conversion par une suite de codes de 8 bits ;
  • UTF-EBCDIC, conversion similaire à UTF-8 mais conçu pour être compatible avec l’EBCDIC ;
  • UTF-16, conversion par une suite de codes de 16 bits ;
  • UTF-32, conversion par une suite de codes de 32 bits.