Calculadora de similaridade de Jaccard para texto | Palavras e n-gramas
Converte dois textos em conjuntos e calcula o índice de Jaccard J = |A ∩ B| / |A ∪ B| e sua distância 1 − J. Alterne na hora entre tokenização por palavra, 2-grama e 3-grama e o tratamento de maiúsculas.
💡 Medir a sobreposição ignorando a ordem
Quando você quer saber o quanto dois trechos se parecem, as distâncias que percorrem o texto caractere por caractere costumam deixar passar um copia-e-cola que apenas trocou a ordem das palavras. O índice de Jaccard trata cada texto como um conjunto de elementos e faz só uma pergunta: que fração do vocabulário combinado os dois compartilham? Essa visão de conjuntos é a base de verificações de plágio, varreduras de artigos duplicados e da filtragem de quase-duplicatas em índices de busca. Ela é precisa para apontar sobreposição exata ou quase exata, mas, por definição, pouco reage à paráfrase.
A ferramenta oferece três maneiras de montar o conjunto. O modo palavra divide por espaços e pontuação e mantém letras, dígitos e caracteres CJK conforme suas categorias Unicode. Os modos 2-grama e 3-grama deslizam caractere a caractere, então continuam fazendo sentido em textos curtos e em escritas sem espaços como o chinês, o japonês ou o coreano. Ao passar o mesmo par pelos três modos, você vê em uma única tela como a sobreposição muda do nível de palavra para o nível de caractere.
🧐 Perguntas frequentes
Qual a diferença para a similaridade do cosseno? Jaccard é baseado em conjuntos e só observa se um elemento aparece, o que o torna preciso e pouco sujeito a falsos positivos em correspondências quase exatas. O cosseno vetoriza a frequência dos termos e mede o ângulo entre documentos, então capta a paráfrase. Na prática: Jaccard quando você busca precisão, cosseno quando precisa de cobertura que resista à reescrita.
Por que o modo palavra devolve 1 elemento em um texto em chinês ou japonês? O modo palavra divide por espaços e pontuação, e um idioma sem espaços se reduz a um único elemento. Para CJK, escolha 2-grama ou 3-grama: o conjunto é montado caractere a caractere e o valor volta a ter sentido.
O que a distância de Jaccard indica? A distância é 1 − índice e expressa o quanto os dois textos diferem em uma escala de 0 a 1. Um índice maior indica mais semelhança; uma distância maior, mais diferença. Quando ambos os conjuntos estão vazios, o índice é definido como 0.
É melhor 2-grama ou 3-grama? Em entradas curtas ou comparações de uma ou duas palavras, o 2-grama gera mais elementos e revela diferenças pequenas. Em textos longos, o 3-grama reduz ruído e fica mais estável. O mais seguro é testar os dois e acompanhar como o índice se move.
📚 Da botânica à mineração de textos
O coeficiente vem do botânico suíço Paul Jaccard, que o criou para medir a proporção de espécies vegetais que duas regiões têm em comum. Aquela ferramenta ecológica que perguntava o quanto as floras de dois lugares se parecem se aplica igualzinho ao texto quando você trata um trecho como um conjunto de palavras ou n-gramas. Se essa mesma razão de "compartilhado sobre total" aparece tanto na comparação de sequências do genoma quanto no cruzamento de gostos de usuários em sistemas de recomendação, é justamente por essa simplicidade: não importa o que são os elementos, só quantos coincidem.