Noticias
Modelos
API
keyboard_arrow_down
Lector
Lea las URL y busque en la web para obtener una base más sólida para su LLM.
Incrustaciones
Integraciones multilingües y multimodales de clase mundial.
reclasificador
Recuperador neuronal de clase mundial para maximizar la relevancia de la búsqueda.
MCP terminalCLIarticlellms.txtsmart_toyAgentesdata_objectEsquemamenu_bookDocumentos



Acceso
login
Diseño
Casos de uso
Trabajos relacionados en la visualización de 向量模型 (Embedding)
Conclusión
Blog de tecnología
mayo 28, 2025

Correlaciones: Prueba de ambiente de los Vectores Modelo (Embeddings) en la GUI

Tan serios como somos con MTEB, también nos encanta probar la vibra. Correlations es una sencilla interfaz gráfica de usuario (GUI) que utilizamos para validar citas en DeepSearch, depurar la fragmentación tardía y probar la vibra de los vectores modelo (Embeddings). Ahora es de código abierto.
Jina AI
Jina AI • 4 minutos de lectura
GitHub - jina-ai/correlations: Simple UI for debugging correlations of text embeddings
Simple UI for debugging correlations of text embeddings - jina-ai/correlations
GitHubjina-ai

Una de las preguntas interesantes que la gente nos hace es: "¿Cómo comprueban ustedes la calidad de sus modelos de vectores (Embeddings)?" Claro, existe MTEB para una evaluación seria y cuantitativa en pruebas comparativas públicas, pero ¿qué hacen para problemas nuevos o de dominio abierto? Hoy queremos compartir una pequeña herramienta interna que utilizamos para la depuración y la visualización. Pueden llamarla nuestro kit de herramientas de prueba de calidad. Nosotros la llamamos Correlations, y es de código abierto en GitHub.

0:00
/1:23

tagDiseño

Correlations genera mapas de calor interactivos donde cada celda muestra la similitud coseno entre dos fragmentos, ya sean fragmentos de la misma colección de documentos o de diferentes, modalidades, hiperparámetros o modelos. Admite varias interacciones:

  • Inspección al pasar el ratón: texto/imagen original y puntuaciones de similitud para pares de celdas individuales
  • Selección de región: selección de área interactiva para el análisis enfocado de patrones de similitud
  • Filtrado de umbral: filtros de puntuación de similitud y longitud de texto para reducir el ruido

La herramienta funciona a través de una canalización de dos etapas:

  1. npm run embed: Utilizando la API de Jina Embeddings con estrategias de fragmentación configurables (nueva línea, puntuación, basada en caracteres o patrones regex)
  2. npm run corr: Interfaz de usuario basada en navegador que sirve mapas de calor de correlación con interactividad en tiempo real

Para empezar:

npm install
export JINA_API_KEY=your_jina_key_here
npm run embed -- https://jina.ai/news/jina-embeddings-v3-a-frontier-multilingual-embedding-model -o v3-blog.jsonl -t retrieval.query
npm run embed -- https://arxiv.org/pdf/2409.10173 -o v3-arxiv.jsonl -t retrieval.passage
npm run corr -- v3-blog.jsonl v3-arxiv.jsonl

JINA_API_KEY se utiliza para incrustar y leer contenido de una URL cuando es necesario; por supuesto, se admite la lectura desde un archivo de texto local. También puede traer sus propios modelos de vectores (Embeddings) y hacer npm run corr solo para la visualización, en cuyo caso no necesita JINA_API_KEY. La herramienta admite tanto el análisis de autocorrelación (dentro de una sola colección) como el análisis de correlación cruzada (entre dos colecciones).

tagCasos de uso

tagAnálisis de alineación y deduplicación de contenido

Demostramos la utilidad de la herramienta a través del análisis de nuestras publicaciones jina-embeddings-v3. Al comparar el artículo académico con la nota de la versión, la visualización reveló distintos patrones diagonales en el mapa de calor de correlación, lo que indica una fuerte alineación fragmento a fragmento entre documentos. Un examen detallado mostró la reutilización sistemática de contenido, particularmente en las secciones técnicas que describen los tipos de tareas de LoRA.

0:00
/1:19

tagValidación de citas y referencias

La herramienta demuestra ser valiosa para validar la precisión de las citas en los sistemas de generación aumentada de recuperación, donde se vuelve fundamental verificar que los pasajes recuperados realmente respaldan las afirmaciones generadas. El análisis basado en la similitud es una herramienta poderosa e intuitiva para explorar grandes conjuntos de datos, por ejemplo, para revelar patrones agrupando elementos por similitud.

tagExploración de la estrategia de fragmentación (Chunking)

La fragmentación tardía (late chunking) y otras estrategias de segmentación pueden evaluarse examinando cómo los diferentes enfoques afectan la coherencia semántica dentro y entre los segmentos de texto. La visualización ayuda a identificar el efecto de la fragmentación tardía y los límites óptimos de los fragmentos, revelando patrones de similitud que se alinean con la estructura semántica.

tagAnálisis intermodal

La herramienta se extiende más allá del texto para admitir los modelos de 向量模型 (Embeddings) de imágenes a través de jina-clip-v2, lo que permite analizar los patrones de correlación texto-imagen para aplicaciones multimodales.

0:00
/0:08

tagTrabajos relacionados en la visualización de 向量模型 (Embedding)

El desafío de la interpretabilidad es particularmente agudo cuando se trabaja con 向量模型 (embeddings) de alta dimensión. El panorama de las técnicas de visualización de 向量模型 (embedding) ha evolucionado significativamente, y los diferentes enfoques se pueden clasificar como:

  • Basados en la reducción de dimensionalidad: Enfoques tradicionales que utilizan PCA, t-SNE, UMAP que proyectan espacios de alta dimensión a 2D/3D
  • Basados en la exploración interactiva: Herramientas como Parallax y TextEssence que permiten la manipulación y la exploración directas
  • Soluciones específicas del dominio: Herramientas especializadas como Clustergrammer para datos biológicos
  • Visualización directa de la similitud: Nuestro enfoque y métodos similares basados en mapas de calor que preservan toda la información relacional
Método Enfoque Casos de uso
Correlations Mapas de calor de similitud por pares directos Depuración de la similitud de texto, análisis de alineación
Embedding Projector PCA, t-SNE y proyecciones lineales personalizadas Visualización e interpretación interactivas
Parallax Fórmulas algebraicas para la exploración semántica Comprensión de las relaciones semánticas
TextEssence Análisis comparativo de corpus Análisis diacrónico, comparación de corpus
Nomic Atlas Visualización escalable basada en la nube Conjuntos de datos a gran escala, colaboración
Clustergrammer Mapa de calor interactivo con agrupación Datos biológicos de alta dimensión
t-SNE Visualización no lineal de clústeres Depuración de modelos, identificación de confusiones
UMAP Preservación de la estructura local y global Conjuntos de datos medianos-grandes, análisis general
PCA Reducción lineal de la dimensionalidad Exploración inicial, comparación de referencia

tagLimitaciones de los enfoques puntuales

Las herramientas de visualización existentes se centran principalmente en representaciones puntuales en espacios 2D, lo que puede provocar la pérdida de información crítica sobre las relaciones por pares. Además, la mayoría de las herramientas están diseñadas para el análisis de un solo espacio de 向量模型 (embedding) en lugar de la evaluación comparativa entre diferentes fuentes, modalidades o estrategias de 向量模型 (embedding) (por ejemplo, la fragmentación tardía activada frente a desactivada).

Por ejemplo, recientemente nos encontramos con dos casos de uso en Jina. El primero implica la verificación cruzada de citas en DeepSearch, donde necesitamos hacer coincidir el informe generado con los extractos originales del material de referencia. El segundo es la recuperación multimodal, donde necesitamos verificar la alineación imagen-texto e imagen-imagen en nuevos datos no etiquetados. En ambos casos, necesitamos explorar las relaciones entre dos colecciones de 向量模型 (embeddings). Por lo tanto, utilizamos Correlations para tener una idea de cuán bien se alinean las coincidencias y para validar si las correlaciones más altas corresponden consistentemente a las coincidencias correctas.

tagConclusión

Más allá de la verificación del ambiente, correlations puede proporcionar información más profunda sobre las relaciones semánticas. Como punto de partida, se pueden extraer varias estadísticas clave de la matriz de correlación:

  • Densidad de la matriz: La proporción de correlaciones por encima de los umbrales especificados, lo que indica la cohesión semántica general
  • Distribución de valores propios: El análisis de componentes principales revela los patrones dominantes en la estructura de similitud
  • Rango de la matriz: Indica la dimensionalidad efectiva de las relaciones de similitud
  • Número de condición: Mide la estabilidad numérica y los posibles problemas de multicolinealidad

El análisis avanzado también puede implicar la extracción de submatrices significativas que representen regiones semánticas coherentes. La extracción de una submatriz principal de suma máxima de orden k de una matriz real de orden n es un problema típico de optimización combinatoria que puede identificar los segmentos más altamente correlacionados.

Categorías:
Blog de tecnología
rss_feed

Leer más
marzo 11, 2026 • 7 minutos de lectura
Generación de embeddings de audio a partir de LLM multimodales
Han Xiao
Abstract illustration of a sound wave or heartbeat, formed by blue, orange, and gray dots on a white background.
marzo 06, 2026 • 6 minutos de lectura
Identificación de modelos de embeddings a partir de valores numéricos brutos
Han Xiao
Fingerprint illustration made from numbers, showcasing digital and high-tech design on a light background.
septiembre 09, 2025 • 11 minutos de lectura
Vectores multimodales en Llama.cpp y GGUF
Andrei Ungureanu
Alex C-G
Cartoon llama in the center of a white background, emitting laser-like beams from its eyes. The illustration creates a playfu
Oficinas
location_on
Sunnyvale, California
710 Lakeway Dr, Ste 200, Sunnyvale, CA 94085, EE. UU.
location_on
Berlín, Alemania
Prinzessinnenstraße 19-20, 10969 Berlín, Alemania
Fundación de búsqueda
Lector
Incrustaciones
reclasificador
Obtener la clave API de Jina
Límite de velocidad
Estado de la API
Compañía
Sobre nosotros
Contactar con ventas
Sala de prensa
Programa de prácticas
Descargar el logotipo de Jina
open_in_new
Descargar el logotipo de Elastic
open_in_new
Términos
Seguridad
Términos y condiciones
Privacidad
Administrar cookies
email
Jina AI de Elastic © 2020-2026.