Calculadora de similitud coseno entre vectores de embedding | Compara dos embeddings lado a lado

Pega dos vectores de embedding de OpenAI, Cohere o SBERT y obtén la similitud coseno, el ángulo (en grados) y la distancia coseno a la vez. Admite formato coma, espacio o arreglo JSON hasta 4096 dimensiones, con las normas y una etiqueta de interpretación.

💡 Sobre esta herramienta

Cuando estudias o pruebas un sistema de búsqueda semántica o RAG, surge una pregunta muy concreta: ¿estos dos textos están realmente cerca en el espacio vectorial? Antes de fiarte de la puntuación que devuelve Pinecone o pgvector, conviene calcular la distancia a mano con los vectores en crudo y entender de dónde sale el número.

La similitud coseno mide el ángulo entre dos vectores e ignora su magnitud (longitud). Por eso es ideal para embeddings de texto: una consulta corta y un párrafo largo pueden apuntar en la misma dirección semántica aunque tengan tamaños distintos. Esta herramienta acepta tres formatos reales para que pegues una respuesta JSON de la API o una fila separada por comas, y muestra el ángulo y la distancia junto al valor coseno para que veas dónde caes respecto a los umbrales 0.85 / 0.5 / 0.

🧐 Preguntas frecuentes

¿Cómo se calcula la similitud coseno? Con la fórmula cos(θ) = (A · B) / (‖A‖ × ‖B‖): el producto escalar de los dos vectores dividido entre el producto de sus normas. El resultado va de -1 (opuestos) a 1 (misma dirección), pasando por 0 (ortogonales, sin relación).

¿Coseno o distancia euclidiana? El coseno solo mira la dirección; la distancia euclidiana mide la separación en línea recta (incluye la longitud). Como los modelos de embedding suelen normalizar sus salidas, comparar direcciones basta y por eso el coseno es el estándar.

¿Qué valor indica que dos textos "se parecen"? En embeddings de texto, 0.7–0.95 es el rango típico de "similar". La herramienta etiqueta cos > 0.85 como fuerte, 0.50–0.85 como moderado y 0–0.50 como débil o sin relación. Los umbrales cambian según el modelo, así que conviene observar la distribución en tus propios datos.

¿Por qué muestra también la distancia coseno (1 − cos)? Las bases de datos vectoriales ordenan por distancia, donde menor es más cercano. Tener la distancia facilita comparar con lo que devuelve la base de datos.

¿Hay límite de dimensiones? Hasta 4096. Los modelos text-embedding-3-large (3072) y ada-002 (1536) de OpenAI entran sin problema. Si A y B tienen distinto número de dimensiones, se marca un error.

¿Qué pasa con un vector de ceros? Un vector con norma 0 no tiene dirección definida, así que la similitud coseno se indefine (división entre cero) y la herramienta muestra un aviso en vez de un valor erróneo.

📚 El coseno como ángulo entre significados

Una forma intuitiva de entender el coseno: imagina cada texto como una flecha que sale del origen. Si dos flechas apuntan casi al mismo sitio, el ángulo entre ellas es pequeño y su coseno se acerca a 1; si forman 90° son ortogonales (coseno 0) y se consideran sin relación; si apuntan en sentidos opuestos el coseno llega a -1. Por eso esta calculadora muestra el ángulo en grados: traduce un número abstracto a una idea geométrica fácil de visualizar.

Hay un atajo útil para quien aprende: si los dos vectores están normalizados (norma = 1), la similitud coseno coincide exactamente con el producto escalar. Como esta herramienta muestra ‖A‖ y ‖B‖, puedes comprobar si tus embeddings ya vienen normalizados observando si ambas normas valen aproximadamente 1.

Found

info Descripción

📘 Cómo usar

Calculadora de similitud coseno entre vectores de embedding

Interpretación

grid_view Relacionados

Calculadora de similitud coseno entre vectores de embedding | Compara dos embeddings lado a lado

💡 Sobre esta herramienta

🧐 Preguntas frecuentes

📚 El coseno como ángulo entre significados

info Descripción

📘 Cómo usar

Calculadora de similitud coseno entre vectores de embedding

Interpretación

fullscreen Calculadora de similitud coseno entre vectores de embedding

grid_view Relacionados

Calculadora de similitud coseno entre vectores de embedding | Compara dos embeddings lado a lado

💡 Sobre esta herramienta

🧐 Preguntas frecuentes

📚 El coseno como ángulo entre significados