Consulta de Codepoints Unicode｜Caracteres, U+ e seus bytes

Cole qualquer texto para ver o codepoint Unicode (U+XXXX) de cada caractere, ou digite a notação U+ para recuperar o glifo original. Ao lado do codepoint, cada linha mostra as sequências de bytes UTF-8 e UTF-16, o nome do caractere e o bloco Unicode ao qual ele pertence.

💡 Encontre caracteres invisíveis e problemas de codificação

"Duas cadeias parecem idênticas, mas falham em uma comparação." "Há um símbolo estranho neste JSON que não consigo apagar." A maioria desses erros vem de caracteres que parecem iguais mas têm codepoints diferentes, ou de caracteres de controle e de largura zero que permanecem invisíveis. Cole aqui a cadeia problemática: ela é decomposta caractere por caractere, e o codepoint inesperado aparece na tabela em vez de ficar escondido à vista de todos.

O sentido inverso fica na mesma tela. Quando uma especificação ou um relatório de bug menciona um codepoint como U+200B ou U+FEFF, você o digita e a ferramenta reconstrói o caractere real para confirmar do que se trata. Como cada linha traz a sequência de bytes UTF-8, ela combina bem com a leitura de um despejo binário ou de um log de rede onde você notou uma sequência como E2 80 8B. Os caracteres além do Plano Multilíngue Básico — emojis, ideogramas CJK raros — são exibidos com seu par substituto UTF-16, para acompanhar as unidades alta e baixa.

🧐 Perguntas frequentes

P. Posso consultar vários caracteres de uma vez? Sim. Ao colar uma cadeia, cada caractere é separado em sua própria linha. No lado do codepoint, você pode inserir vários valores separados por espaços ou vírgulas, como U+3042 U+0041.

P. Quais formatos o lado do codepoint aceita? Ele interpreta U+3042, 0x3042 e hexadecimal simples como 3042. O prefixo U+ ou 0x é opcional.

P. Ele lida com emojis e caracteres acima de U+10000? Sim. Caracteres além do Plano Multilíngue Básico (acima de U+FFFF) ocupam 4 bytes em UTF-8 e aparecem como um par substituto (duas unidades de código) em UTF-16. A coluna UTF-16 mostra o substituto alto e o baixo.

P. Os nomes exibidos são os nomes oficiais do Unicode? Para os intervalos comuns — letras latinas, dígitos, Hiragana, Katakana, CJK, emojis — um nome representativo é exibido. A ferramenta não inclui a base completa de nomes do Unicode, então alguns caracteres exibem "—" como nome. Os codepoints e as sequências de bytes são exatos em todo o intervalo.

📚 Um codepoint não é uma codificação

Um codepoint Unicode é o número atribuído a um caractere; UTF-8 e UTF-16 são maneiras de armazenar esse número como bytes. O mesmo U+3042 (あ) ocupa 3 bytes em UTF-8 mas 2 bytes em UTF-16: o arranjo muda conforme a codificação. Confundir essa distinção é o que gera surpresas do tipo "o número de caracteres não bate com o de bytes" ou "minha coluna de banco de dados é curta demais".

O UTF-8 foi projetado para que o ASCII (U+0000–U+007F) continue sendo um único byte, por isso um texto majoritariamente em inglês parece ter um caractere por byte. Acrescente português com acentos, japonês ou emojis e um único caractere cresce para 2, 3 ou 4 bytes. Um glifo que parece do mesmo tamanho na tela pode ocupar 4 bytes UTF-8 ou 2 unidades UTF-16 na memória, e ver essa diferença detalhada caractere por caractere é exatamente para o que esta ferramenta serve.

Found

info Visão geral

📘 Como usar

Consulta de Codepoints Unicode

grid_view Relacionados

Consulta de Codepoints Unicode｜Caracteres, U+ e seus bytes

💡 Encontre caracteres invisíveis e problemas de codificação

🧐 Perguntas frequentes

📚 Um codepoint não é uma codificação

info Visão geral

📘 Como usar

Consulta de Codepoints Unicode

fullscreen Consulta de Codepoints Unicode

grid_view Relacionados

Consulta de Codepoints Unicode｜Caracteres, U+ e seus bytes

💡 Encontre caracteres invisíveis e problemas de codificação

🧐 Perguntas frequentes

📚 Um codepoint não é uma codificação