Buscador de Codepoints Unicode|Convierte Caracteres y U+ con sus Bytes
Pega cualquier texto para ver el codepoint Unicode (U+XXXX) de cada carácter, o escribe la notación U+ para recuperar el glifo original. Junto al codepoint, cada fila muestra las secuencias de bytes UTF-8 y UTF-16, el nombre del carácter y el bloque Unicode al que pertenece.
💡 Identifica caracteres invisibles y problemas de codificación
"Dos cadenas se ven idénticas pero fallan al compararlas." "Hay un símbolo extraño en este JSON que no consigo borrar." Muchos de estos errores provienen de caracteres que parecen iguales pero tienen codepoints distintos, o de caracteres de control y de ancho cero que no se ven. Pega aquí la cadena problemática y se descompone carácter por carácter, de modo que el codepoint inesperado aparece en la tabla en lugar de esconderse a simple vista.
El sentido inverso vive en la misma vista. Cuando una especificación o un informe de error menciona un codepoint como U+200B o U+FEFF, lo escribes y la herramienta reconstruye el carácter real para confirmar de qué se trata. Como cada fila incluye la secuencia de bytes UTF-8, encaja bien al leer un volcado binario o un registro de red donde detectaste una serie como E2 80 8B. Los caracteres más allá del Plano Multilingüe Básico —emojis o ideogramas CJK poco frecuentes— se muestran con su par sustituto UTF-16 para seguir las unidades alta y baja.
🧐 Preguntas Frecuentes
P. ¿Puedo consultar varios caracteres a la vez?
Sí. Al pegar una cadena, cada carácter se separa en su propia fila. En el modo codepoint puedes introducir varios valores separados por espacios o comas, como U+3042 U+0041.
P. ¿Qué formatos acepta el lado del codepoint?
Interpreta U+3042, 0x3042 y hexadecimal simple como 3042. El prefijo U+ o 0x es opcional.
P. ¿Maneja emojis y caracteres por encima de U+10000? Sí. Los caracteres más allá del Plano Multilingüe Básico (por encima de U+FFFF) ocupan 4 bytes en UTF-8 y aparecen como un par sustituto (dos unidades de código) en UTF-16. La columna UTF-16 muestra el sustituto alto y el bajo.
P. ¿Los nombres mostrados son los nombres oficiales de Unicode? Para los rangos comunes —letras latinas, dígitos, Hiragana, Katakana, CJK, emojis— muestra un nombre representativo. No incluye la base de datos completa de nombres de Unicode, así que algunos caracteres muestran "—" como nombre. Los codepoints y las secuencias de bytes son exactos en todo el rango.
📚 Un codepoint no es una codificación
Un codepoint Unicode es el número asignado a un carácter; UTF-8 y UTF-16 son formas de guardar ese número como bytes. El mismo U+3042 (あ) ocupa 3 bytes en UTF-8 pero 2 bytes en UTF-16: la disposición cambia con la codificación. Confundir esa distinción es lo que provoca sorpresas del tipo "el número de caracteres no coincide con el de bytes" o "mi columna de base de datos es demasiado corta".
UTF-8 está diseñado para que ASCII (U+0000–U+007F) siga siendo un solo byte, por eso un texto mayormente en inglés parece un carácter por byte. Si añades español con acentos, japonés o emojis, un solo carácter crece a 2, 3 o 4 bytes. Un glifo que se ve del mismo tamaño en pantalla puede ocupar 4 bytes UTF-8 o 2 unidades UTF-16 en memoria, y ver esa diferencia desglosada por carácter es precisamente para lo que sirve esta herramienta.