search

Found

info Visão geral

Calcula a distância de edição de Levenshtein entre duas cadeias: inserções, exclusões, substituições mínimas e porcentagem de similaridade.

📘 Como usar

  1. Digite as duas cadeias que deseja comparar em Cadeia A e Cadeia B
  2. Ajuste as opções de maiúsculas e de remover espaços conforme seus dados
  3. Veja a distância de edição, a similaridade, a distância normalizada e o detalhamento de inserções, exclusões e substituições

Calculadora de distância de Levenshtein

0 / 2000 car.
0 / 2000 car.

Distância de edição

0 edições

Similaridade

100.0 %

Distância normalizada

0.000 (0-1)

Detalhamento de operações

Inserções

0

Exclusões

0

Substituições

0

※ Algoritmo: distância de Levenshtein padrão por programação dinâmica (inserção, exclusão e substituição custam 1 cada).

※ Limite: até 2000 caracteres por cadeia. O backtrace separa as contagens de inserção / exclusão / substituição ao longo do caminho ótimo.

Article

Calculadora de distância de Levenshtein | Distância de edição com detalhamento de operações

Uma calculadora que mostra o quanto duas cadeias diferem pelo número mínimo de edições (distância de Levenshtein) e decompõe esse valor em inserções, exclusões e substituições, junto com um percentual de similaridade e um valor normalizado de 0 a 1.

💡 Sobre esta ferramenta

Quantas edições transformam "trabalho" em "tribunal"? Quando você programa um corretor ortográfico, uma busca difusa ou um autocorretor, esse número mínimo de edições é a base do seu limiar de correspondência. A maioria das calculadoras para na distância simples, então você nunca vê se a diferença vem principalmente de substituições ou de inserções e exclusões, que é justamente o que importa ao ajustar o sistema.

A distância de Levenshtein conta cada inserção, exclusão e substituição como uma edição e devolve o menor número de edições que transforma uma cadeia em outra. Esta ferramenta calcula a distância com programação dinâmica e depois percorre o caminho ótimo de volta para separar as contagens de cada operação. Você pode colar cadeias reais dos seus dados e observar como o detalhamento muda, escolhendo um limiar sensato antes de levá-lo ao código. Compara até 2000 caracteres por lado.

🧐 Perguntas frequentes

Como o percentual de similaridade é calculado? É (1 - distância / max(compA, compB)) * 100. Cadeias idênticas marcam 100% e a pontuação cai em direção a 0% conforme a distância se aproxima do comprimento da cadeia mais longa.

Para que serve a distância normalizada? É a distância de edição dividida pelo comprimento da cadeia mais longa, gerando um valor de 0 a 1. Use-a para comparar de forma justa pares de comprimentos diferentes: uma distância de 3 não significa o mesmo num par de 7 caracteres e num de 70.

Quando usar Levenshtein em vez de Jaro-Winkler? Levenshtein pondera cada edição de caractere igualmente, o que serve para endereços e nomes longos de empresas. Jaro-Winkler premia um prefixo coincidente e combina melhor com nomes de pessoa curtos, então escolha conforme a natureza dos seus dados.

Qual a diferença para Damerau-Levenshtein? O Levenshtein clássico conta a troca de dois caracteres adjacentes (uma transposição) como duas edições. Para tratar "conversion" e "convresion" como um único erro, use a variante Damerau-Levenshtein, que admite transposições.

Como maiúsculas e emojis são tratados? Desativar a opção de maiúsculas iguala A e a. A comparação trabalha por unidades de código, então um emoji de par substituto é contado internamente como duas unidades, o que pode inflar a distância em textos com muitos emojis.

O que acontece além de 2000 caracteres? A entrada é cortada em 2000 caracteres por cadeia. A etapa de programação dinâmica cresce com o produto dos dois comprimentos, então o limite mantém o cálculo viável dentro do navegador.

📚 Curiosidades

O matemático soviético Vladimir Levenshtein definiu essa distância em 1965 em um artigo sobre códigos corretores de erros, muito antes de ela se tornar essencial em corretores ortográficos, alinhamento de sequências de DNA, correção de OCR e os algoritmos diff do controle de versão. Uma propriedade elegante: a distância nunca é menor que a diferença de comprimentos nem maior que o comprimento da cadeia mais longa, por isso o valor normalizado fica sempre limpo entre 0 e 1. Ao depurar um comparador difuso, ler o detalhamento de operações costuma dizer mais que o número bruto: muitas substituições apontam para caracteres trocados, enquanto inserções ou exclusões desequilibradas indicam que uma cadeia simplesmente tem conteúdo a mais.