Recherche de Points de Code Unicode|Caractères, U+ et leurs octets
Collez du texte pour voir le point de code Unicode (U+XXXX) de chaque caractère, ou saisissez la notation U+ pour retrouver le glyphe d'origine. À côté du point de code, chaque ligne affiche les séquences d'octets UTF-8 et UTF-16, le nom du caractère et le bloc Unicode auquel il appartient.
💡 Repérer les caractères invisibles et les problèmes d'encodage
« Deux chaînes semblent identiques mais échouent à une comparaison. » « Il y a un symbole étrange dans ce JSON que je n'arrive pas à supprimer. » La plupart de ces bogues proviennent de caractères qui se ressemblent mais portent des points de code différents, ou de caractères de contrôle et de largeur nulle qui restent invisibles. Collez ici la chaîne fautive : elle est décomposée caractère par caractère, et le point de code inattendu apparaît dans le tableau au lieu de se cacher à la vue de tous.
Le sens inverse se trouve dans la même vue. Lorsqu'une spécification ou un rapport de bogue mentionne un point de code comme U+200B ou U+FEFF, vous le saisissez et l'outil reconstruit le caractère réel pour confirmer ce dont il s'agit. Comme chaque ligne porte la séquence d'octets UTF-8, cela aide à lire un vidage binaire ou un journal réseau où vous avez repéré une suite telle que E2 80 8B. Les caractères au-delà du plan multilingue de base — émojis, idéogrammes CJK rares — sont affichés avec leur paire de substitution UTF-16, afin de suivre les unités haute et basse.
🧐 Questions fréquentes
Q. Puis-je rechercher plusieurs caractères à la fois ?
Oui. En collant une chaîne, chaque caractère est placé sur sa propre ligne. Du côté point de code, vous pouvez saisir plusieurs valeurs séparées par des espaces ou des virgules, comme U+3042 U+0041.
Q. Quels formats le côté point de code accepte-t-il ?
Il interprète U+3042, 0x3042 et l'hexadécimal simple comme 3042. Le préfixe U+ ou 0x est facultatif.
Q. Gère-t-il les émojis et les caractères au-delà de U+10000 ? Oui. Les caractères au-delà du plan multilingue de base (au-dessus de U+FFFF) occupent 4 octets en UTF-8 et apparaissent comme une paire de substitution (deux unités de code) en UTF-16. La colonne UTF-16 affiche la substitution haute et la basse.
Q. Les noms affichés sont-ils les noms officiels d'Unicode ? Pour les plages courantes — lettres latines, chiffres, Hiragana, Katakana, CJK, émojis — un nom représentatif est affiché. L'outil n'embarque pas la base complète des noms Unicode, donc certains caractères affichent « — » comme nom. Les points de code et les séquences d'octets sont exacts sur toute la plage.
📚 Un point de code n'est pas un encodage
Un point de code Unicode est le numéro attribué à un caractère ; UTF-8 et UTF-16 sont des façons de stocker ce numéro sous forme d'octets. Le même U+3042 (あ) occupe 3 octets en UTF-8 mais 2 octets en UTF-16 : la disposition change avec l'encodage. Confondre cette distinction conduit aux mauvaises surprises du type « le nombre de caractères ne correspond pas au nombre d'octets » ou « ma colonne de base de données est trop courte ».
UTF-8 est conçu pour que l'ASCII (U+0000–U+007F) reste sur un seul octet, c'est pourquoi un texte majoritairement anglais semble tenir un caractère par octet. Ajoutez du français accentué, du japonais ou des émojis, et un seul caractère grimpe à 2, 3 ou 4 octets. Un glyphe qui paraît de la même taille à l'écran peut occuper 4 octets UTF-8 ou 2 unités UTF-16 en mémoire, et voir cet écart détaillé caractère par caractère est précisément l'usage de cet outil.