search

Found

info Aperçu

Calcule la distance de Damerau-Levenshtein, la similarité (%) et le compte d'insertions, suppressions, substitutions et transpositions (≤ 2000 caractères).

📘 Mode d'emploi

  1. Saisissez ou collez vos deux chaînes dans Chaîne A et Chaîne B
  2. Activez la sensibilité à la casse et la suppression des espaces selon le besoin
  3. Lisez la distance d'édition, la similarité (%) et la valeur normalisée
  4. Consultez le détail des insertions, suppressions, substitutions et transpositions

Calculateur de distance de Damerau-Levenshtein

0 / 2000 Caractères
0 / 2000 Caractères

Distance d'édition

0 éditions

Similarité

100.0 %

Normalisée

0.000 ratio

Détail des opérations

Insertions

0

Suppressions

0

Substitutions

0

Transpositions

0

※ Variante Optimal String Alignment (OSA) ; une même sous-chaîne n'est jamais éditée plus d'une fois.

※ Entrées limitées à 2000 caractères ; la distance est mesurée en points de code Unicode.

Article

Calculateur de distance de Damerau-Levenshtein | Distance de fautes de frappe avec transpositions

Saisissez deux chaînes pour obtenir la distance de Damerau-Levenshtein, la similarité (%) et la valeur normalisée. Contrairement à Levenshtein classique, l'échange de deux caractères adjacents compte comme une seule édition, et les quatre opérations sont détaillées pour voir où les chaînes diffèrent.

💡 À propos de cet outil

Taper « recieve » au lieu de « receive », ou « teh » à la place de « the », ce ne sont que deux lettres voisines dans le mauvais ordre. La distance de Levenshtein classique traite cet échange comme deux éditions (une suppression plus une insertion, ou deux substitutions), ce qui exagère l'écart réel entre les chaînes. Pour les fautes de frappe au clavier et les erreurs d'OCR, cette distance supplémentaire fausse vos seuils de similarité.

La distance de Damerau-Levenshtein corrige cela en comptant une transposition adjacente comme une seule opération : elle reflète donc la façon dont les humains font réellement des erreurs. Ce calculateur renvoie la distance, puis la décompose : combien d'insertions, de suppressions, de substitutions et de transpositions la composent. Ce détail vous permet d'ajuster un seuil de recherche floue, de filtrer les candidats d'un correcteur orthographique ou de valider une règle de déduplication sur vos propres données, sans deviner.

🧐 Questions fréquentes

En quoi est-ce différent de la distance de Levenshtein ? L'ensemble des opérations autorisées diffère. Levenshtein compte les insertions, suppressions et substitutions. Damerau-Levenshtein ajoute la transposition de deux caractères adjacents comme une opération. Transformer « ab » en « ba » donne une distance de 2 avec Levenshtein et de 1 avec Damerau-Levenshtein.

Que signifie la variante OSA ? Cet outil utilise la variante Optimal String Alignment : une distance de Damerau-Levenshtein avec la règle qu'aucune sous-chaîne n'est éditée plus d'une fois. Elle est plus légère à calculer et correspond à la distance réelle dans la quasi-totalité des cas, même si, dans de rares configurations, elle peut donner une valeur légèrement supérieure au Damerau-Levenshtein sans restriction.

Comment la similarité et la valeur normalisée sont-elles calculées ? La valeur normalisée est la distance divisée par la longueur de la plus longue des deux chaînes, de 0 (identiques) à 1 (totalement différentes). La similarité en est le complément, affichée comme (1 − normalisée) × 100 pour cent, afin de comparer équitablement des chaînes de longueurs différentes.

Gère-t-il l'Unicode, les accents et les emoji ? Oui. La comparaison se fait caractère par caractère : les lettres accentuées et les caractères CJK comptent chacun pour un. Notez que certains emoji formés de paires de substitution sont comptés comme deux unités.

Y a-t-il une limite de saisie ? Chaque champ accepte jusqu'à 2000 caractères. Comme l'algorithme s'exécute en temps proportionnel au produit des deux longueurs, comparer de longs passages prend nettement plus de temps que comparer des mots courts.

📚 Notes de terrain sur la distance d'édition

La règle de transposition vient de Frederick Damerau, qui a observé en 1964 que la grande majorité des fautes d'orthographe humaines sont une seule insertion, suppression, substitution, ou un échange de deux lettres contiguës. Cette observation est devenue un socle des correcteurs orthographiques et de la recherche floue, et alimente encore aujourd'hui les suggestions « vouliez-vous dire » et la correction automatique. En pratique, on utilise rarement la distance brute seule : on la combine avec la valeur normalisée par longueur ou un seuil fixe, en traitant une distance de 1–2 comme « quasi identiques » pour des noms courts et une valeur normalisée sous 0,1 pour des textes longs. Mesurer ces seuils sur vos propres données avec un outil comme celui-ci limite les faux positifs.