Calculateur de Similarité Jaro-Winkler | Rapprochement de Noms Détaillé
Mesurez à quel point deux chaînes se ressemblent sur une échelle de 0 à 1. L'outil renvoie la similarité Jaro et la similarité Jaro-Winkler, qui valorise le préfixe commun, et décompose le résultat en correspondances, transpositions, préfixe commun et fenêtre de correspondance.
💡 À propos de cet outil
Lorsqu'on nettoie une base clients ou qu'on rapproche deux fichiers, la correspondance exacte échoue dès qu'une personne tape « Smyth » au lieu de « Smith ». Il faut un chiffre qui dise « ces deux valeurs sont identiques à 96 % » pour fixer un seuil et trancher.
Jaro-Winkler est la mesure de référence pour les chaînes courtes et les noms propres : elle tolère les caractères transposés et récompense les chaînes qui concordent au début. Ce calculateur ne se contente pas d'afficher un score : il expose les composants du calcul (m caractères correspondants, t transpositions, L préfixe commun) afin que vous compreniez pourquoi « MARTHA » face à « MARHTA » donne 0,961 et que vous calibriez votre seuil sur vos propres données.
🧐 Questions fréquentes
Quelle est la différence entre Jaro et Jaro-Winkler ? Jaro n'utilise que le nombre de caractères correspondants et les transpositions. Jaro-Winkler ajoute un bonus qui augmente quand les chaînes partagent un préfixe commun, ce qui la rend plus efficace pour les noms de personnes, où les fautes touchent rarement les premières lettres.
Quand faut-il préférer Levenshtein ? Levenshtein compte le minimum d'insertions, de suppressions et de substitutions, ce qui convient aux chaînes longues comme les raisons sociales et les adresses, où chaque caractère pèse autant. Pour les noms courts et un rapprochement axé sur le préfixe, choisissez Jaro-Winkler.
Pourquoi le score peut-il dépasser 1,0 ? Cela se produit quand le facteur d'échelle p est trop élevé. Comme p multiplié par la longueur du préfixe peut dépasser 1, le bonus s'emballe. La valeur standard de Winkler est 0,10 et 0,25 sert de limite usuelle.
La comparaison est-elle sensible à la casse ? Par défaut oui. Activez l'option de comparaison et « A » et « a » sont traités comme identiques. Le rapprochement se fait au niveau du codepoint Unicode, donc les paires de substitution et les emojis comptent pour un caractère.
Qu'est-ce que la fenêtre de correspondance ?
C'est l'écart maximal entre deux caractères pour qu'ils comptent encore comme une correspondance. Elle vaut floor(max(|A|, |B|) / 2) - 1 ; les caractères identiques plus éloignés ne sont pas appariés.
📚 Là où cette mesure intervient
Jaro-Winkler est né des travaux de rapprochement d'enregistrements (record linkage) de Matthew Jaro et William Winkler au Bureau du recensement américain. On le retrouve aujourd'hui dans le filtrage anti-blanchiment et le contrôle des sanctions, car il gère bien les variantes de translittération des noms issus d'écritures arabe ou cyrillique : un caractère change, mais le nom reste reconnu. Une pratique courante consiste à réserver Jaro-Winkler au rapprochement des noms de personnes et à employer une autre mesure pour les entités longues, plutôt que d'imposer un seul algorithme à tous les champs.