search

Found

info Visão geral

Tokenize dois textos por palavras ou n-gramas de 2 e 3 caracteres e obtenha índice de Jaccard, distância e tamanhos de interseção e união.

📘 Como usar

  1. Cole os dois textos que quer comparar em Texto A e Texto B
  2. Escolha um modo de tokenização: palavra, 2-grama ou 3-grama
  3. Ative ou desative a diferenciação de maiúsculas
  4. Veja o índice de Jaccard, a distância e o detalhe dos conjuntos

Calculadora de similaridade de Jaccard para texto

Tokens: 0
Tokens: 0

Modo palavra divide por espaços e pontuação. 2-grama / 3-grama deslizam por caractere e ajudam em textos curtos ou CJK

Ignorar maiúsculas

Define se A e a contam como o mesmo elemento

Índice de Jaccard

/ 1.0

Distância de Jaccard

/ 1.0

Detalhe dos conjuntos

|A|
|B|
|A ∩ B|
|A ∪ B|
Copiado!

※ Índice de Jaccard J(A,B) = |A ∩ B| / |A ∪ B| e distância d = 1 − J. Se ambos os conjuntos estão vazios, define-se J = 0

※ O modo palavra extrai letras, dígitos e caracteres CJK pelas categorias Unicode

Article

Calculadora de similaridade de Jaccard para texto | Palavras e n-gramas

Converte dois textos em conjuntos e calcula o índice de Jaccard J = |A ∩ B| / |A ∪ B| e sua distância 1 − J. Alterne na hora entre tokenização por palavra, 2-grama e 3-grama e o tratamento de maiúsculas.

💡 Medir a sobreposição ignorando a ordem

Quando você quer saber o quanto dois trechos se parecem, as distâncias que percorrem o texto caractere por caractere costumam deixar passar um copia-e-cola que apenas trocou a ordem das palavras. O índice de Jaccard trata cada texto como um conjunto de elementos e faz só uma pergunta: que fração do vocabulário combinado os dois compartilham? Essa visão de conjuntos é a base de verificações de plágio, varreduras de artigos duplicados e da filtragem de quase-duplicatas em índices de busca. Ela é precisa para apontar sobreposição exata ou quase exata, mas, por definição, pouco reage à paráfrase.

A ferramenta oferece três maneiras de montar o conjunto. O modo palavra divide por espaços e pontuação e mantém letras, dígitos e caracteres CJK conforme suas categorias Unicode. Os modos 2-grama e 3-grama deslizam caractere a caractere, então continuam fazendo sentido em textos curtos e em escritas sem espaços como o chinês, o japonês ou o coreano. Ao passar o mesmo par pelos três modos, você vê em uma única tela como a sobreposição muda do nível de palavra para o nível de caractere.

🧐 Perguntas frequentes

Qual a diferença para a similaridade do cosseno? Jaccard é baseado em conjuntos e só observa se um elemento aparece, o que o torna preciso e pouco sujeito a falsos positivos em correspondências quase exatas. O cosseno vetoriza a frequência dos termos e mede o ângulo entre documentos, então capta a paráfrase. Na prática: Jaccard quando você busca precisão, cosseno quando precisa de cobertura que resista à reescrita.

Por que o modo palavra devolve 1 elemento em um texto em chinês ou japonês? O modo palavra divide por espaços e pontuação, e um idioma sem espaços se reduz a um único elemento. Para CJK, escolha 2-grama ou 3-grama: o conjunto é montado caractere a caractere e o valor volta a ter sentido.

O que a distância de Jaccard indica? A distância é 1 − índice e expressa o quanto os dois textos diferem em uma escala de 0 a 1. Um índice maior indica mais semelhança; uma distância maior, mais diferença. Quando ambos os conjuntos estão vazios, o índice é definido como 0.

É melhor 2-grama ou 3-grama? Em entradas curtas ou comparações de uma ou duas palavras, o 2-grama gera mais elementos e revela diferenças pequenas. Em textos longos, o 3-grama reduz ruído e fica mais estável. O mais seguro é testar os dois e acompanhar como o índice se move.

📚 Da botânica à mineração de textos

O coeficiente vem do botânico suíço Paul Jaccard, que o criou para medir a proporção de espécies vegetais que duas regiões têm em comum. Aquela ferramenta ecológica que perguntava o quanto as floras de dois lugares se parecem se aplica igualzinho ao texto quando você trata um trecho como um conjunto de palavras ou n-gramas. Se essa mesma razão de "compartilhado sobre total" aparece tanto na comparação de sequências do genoma quanto no cruzamento de gostos de usuários em sistemas de recomendação, é justamente por essa simplicidade: não importa o que são os elementos, só quantos coincidem.