Calculadora de Similitud Jaro-Winkler | Cotejo de Nombres con Desglose Completo
Mide cuánto se parecen dos cadenas en una escala de 0 a 1. La herramienta devuelve la similitud Jaro y la similitud Jaro-Winkler, que premia el prefijo común, y descompone el resultado en coincidencias, transposiciones, prefijo común y ventana de coincidencia.
💡 Sobre esta herramienta
Cuando depuras una base de clientes o cruzas dos listas, el cotejo exacto falla en cuanto alguien escribe "Smyth" en vez de "Smith". Necesitas un número que diga "son un 96% iguales" para fijar un umbral y decidir.
Jaro-Winkler es la métrica habitual para cadenas cortas y nombres propios: tolera caracteres transpuestos y premia las cadenas que coinciden al principio. Esta calculadora no se limita a darte la puntuación: muestra las piezas del cálculo (m caracteres coincidentes, t transposiciones, L prefijo común) para que entiendas por qué "MARTHA" frente a "MARHTA" da 0,961 y ajustes tu umbral con tus propios datos.
🧐 Preguntas Frecuentes
¿Qué diferencia hay entre Jaro y Jaro-Winkler? Jaro usa solo el número de caracteres coincidentes y las transposiciones. Jaro-Winkler suma una bonificación que crece cuando las cadenas comparten un prefijo común, lo que la hace más fuerte para nombres de personas, donde los errores rara vez afectan a las primeras letras.
¿Cuándo conviene usar Levenshtein? Levenshtein cuenta el mínimo de inserciones, borrados y sustituciones, así que encaja con cadenas largas como razones sociales y direcciones, donde cada carácter pesa igual. Para nombres cortos y cotejo con peso en el prefijo, usa Jaro-Winkler.
¿Por qué la puntuación puede superar 1,0? Ocurre cuando el factor de escala p es demasiado alto. Como p por la longitud del prefijo puede pasar de 1, la bonificación se dispara. El valor estándar de Winkler es 0,10 y 0,25 es el límite habitual.
¿La comparación distingue mayúsculas? Por defecto sí. Activa la opción de comparación y "A" y "a" se tratan como iguales. El cotejo se hace a nivel de codepoint Unicode, así que pares sustitutos y emojis cuentan como un carácter.
¿Qué es la ventana de coincidencia?
Es la distancia máxima a la que dos caracteres pueden estar y aún contar como coincidencia. Equivale a floor(max(|A|, |B|) / 2) - 1; los caracteres iguales más alejados no se emparejan.
📚 Cómo funciona por dentro
La fórmula tiene tres partes que se promedian: la proporción de caracteres que coinciden respecto a la longitud de cada cadena, y la proporción de coincidencias que no son transposiciones. Entender esto ayuda al aprendizaje: una transposición (dos letras correctas pero en orden cambiado) penaliza menos que un carácter ausente, lo cual refleja cómo escribimos de prisa. La capa Winkler añade después L·p·(1-Jaro), donde L es el prefijo común limitado por el tope que fijas. Probar valores distintos de p en esta calculadora es una forma directa de ver cómo el peso del prefijo desplaza la puntuación final.