Consulta de Codepoints Unicode|Caracteres, U+ e seus bytes
Cole qualquer texto para ver o codepoint Unicode (U+XXXX) de cada caractere, ou digite a notação U+ para recuperar o glifo original. Ao lado do codepoint, cada linha mostra as sequências de bytes UTF-8 e UTF-16, o nome do caractere e o bloco Unicode ao qual ele pertence.
💡 Encontre caracteres invisíveis e problemas de codificação
"Duas cadeias parecem idênticas, mas falham em uma comparação." "Há um símbolo estranho neste JSON que não consigo apagar." A maioria desses erros vem de caracteres que parecem iguais mas têm codepoints diferentes, ou de caracteres de controle e de largura zero que permanecem invisíveis. Cole aqui a cadeia problemática: ela é decomposta caractere por caractere, e o codepoint inesperado aparece na tabela em vez de ficar escondido à vista de todos.
O sentido inverso fica na mesma tela. Quando uma especificação ou um relatório de bug menciona um codepoint como U+200B ou U+FEFF, você o digita e a ferramenta reconstrói o caractere real para confirmar do que se trata. Como cada linha traz a sequência de bytes UTF-8, ela combina bem com a leitura de um despejo binário ou de um log de rede onde você notou uma sequência como E2 80 8B. Os caracteres além do Plano Multilíngue Básico — emojis, ideogramas CJK raros — são exibidos com seu par substituto UTF-16, para acompanhar as unidades alta e baixa.
🧐 Perguntas frequentes
P. Posso consultar vários caracteres de uma vez?
Sim. Ao colar uma cadeia, cada caractere é separado em sua própria linha. No lado do codepoint, você pode inserir vários valores separados por espaços ou vírgulas, como U+3042 U+0041.
P. Quais formatos o lado do codepoint aceita?
Ele interpreta U+3042, 0x3042 e hexadecimal simples como 3042. O prefixo U+ ou 0x é opcional.
P. Ele lida com emojis e caracteres acima de U+10000? Sim. Caracteres além do Plano Multilíngue Básico (acima de U+FFFF) ocupam 4 bytes em UTF-8 e aparecem como um par substituto (duas unidades de código) em UTF-16. A coluna UTF-16 mostra o substituto alto e o baixo.
P. Os nomes exibidos são os nomes oficiais do Unicode? Para os intervalos comuns — letras latinas, dígitos, Hiragana, Katakana, CJK, emojis — um nome representativo é exibido. A ferramenta não inclui a base completa de nomes do Unicode, então alguns caracteres exibem "—" como nome. Os codepoints e as sequências de bytes são exatos em todo o intervalo.
📚 Um codepoint não é uma codificação
Um codepoint Unicode é o número atribuído a um caractere; UTF-8 e UTF-16 são maneiras de armazenar esse número como bytes. O mesmo U+3042 (あ) ocupa 3 bytes em UTF-8 mas 2 bytes em UTF-16: o arranjo muda conforme a codificação. Confundir essa distinção é o que gera surpresas do tipo "o número de caracteres não bate com o de bytes" ou "minha coluna de banco de dados é curta demais".
O UTF-8 foi projetado para que o ASCII (U+0000–U+007F) continue sendo um único byte, por isso um texto majoritariamente em inglês parece ter um caractere por byte. Acrescente português com acentos, japonês ou emojis e um único caractere cresce para 2, 3 ou 4 bytes. Um glifo que parece do mesmo tamanho na tela pode ocupar 4 bytes UTF-8 ou 2 unidades UTF-16 na memória, e ver essa diferença detalhada caractere por caractere é exatamente para o que esta ferramenta serve.