Correlaciones: Prueba de ambiente de los Vectores Modelo (Embeddings) en la GUI

Una de las preguntas interesantes que la gente nos hace es: "¿Cómo comprueban ustedes la calidad de sus modelos de vectores (Embeddings)?" Claro, existe MTEB para una evaluación seria y cuantitativa en pruebas comparativas públicas, pero ¿qué hacen para problemas nuevos o de dominio abierto? Hoy queremos compartir una pequeña herramienta interna que utilizamos para la depuración y la visualización. Pueden llamarla nuestro kit de herramientas de prueba de calidad. Nosotros la llamamos Correlations, y es de código abierto en GitHub.

0:00

/1:23

tagDiseño

Correlations genera mapas de calor interactivos donde cada celda muestra la similitud coseno entre dos fragmentos, ya sean fragmentos de la misma colección de documentos o de diferentes, modalidades, hiperparámetros o modelos. Admite varias interacciones:

Inspección al pasar el ratón: texto/imagen original y puntuaciones de similitud para pares de celdas individuales
Selección de región: selección de área interactiva para el análisis enfocado de patrones de similitud
Filtrado de umbral: filtros de puntuación de similitud y longitud de texto para reducir el ruido

La herramienta funciona a través de una canalización de dos etapas:

npm run embed: Utilizando la API de Jina Embeddings con estrategias de fragmentación configurables (nueva línea, puntuación, basada en caracteres o patrones regex)
npm run corr: Interfaz de usuario basada en navegador que sirve mapas de calor de correlación con interactividad en tiempo real

Para empezar:

npm install
export JINA_API_KEY=your_jina_key_here
npm run embed -- https://jina.ai/news/jina-embeddings-v3-a-frontier-multilingual-embedding-model -o v3-blog.jsonl -t retrieval.query
npm run embed -- https://arxiv.org/pdf/2409.10173 -o v3-arxiv.jsonl -t retrieval.passage
npm run corr -- v3-blog.jsonl v3-arxiv.jsonl

JINA_API_KEY se utiliza para incrustar y leer contenido de una URL cuando es necesario; por supuesto, se admite la lectura desde un archivo de texto local. También puede traer sus propios modelos de vectores (Embeddings) y hacer npm run corr solo para la visualización, en cuyo caso no necesita JINA_API_KEY. La herramienta admite tanto el análisis de autocorrelación (dentro de una sola colección) como el análisis de correlación cruzada (entre dos colecciones).

tagCasos de uso

tagAnálisis de alineación y deduplicación de contenido

Demostramos la utilidad de la herramienta a través del análisis de nuestras publicaciones jina-embeddings-v3. Al comparar el artículo académico con la nota de la versión, la visualización reveló distintos patrones diagonales en el mapa de calor de correlación, lo que indica una fuerte alineación fragmento a fragmento entre documentos. Un examen detallado mostró la reutilización sistemática de contenido, particularmente en las secciones técnicas que describen los tipos de tareas de LoRA.

0:00

/1:19

tagValidación de citas y referencias

La herramienta demuestra ser valiosa para validar la precisión de las citas en los sistemas de generación aumentada de recuperación, donde se vuelve fundamental verificar que los pasajes recuperados realmente respaldan las afirmaciones generadas. El análisis basado en la similitud es una herramienta poderosa e intuitiva para explorar grandes conjuntos de datos, por ejemplo, para revelar patrones agrupando elementos por similitud.

tagExploración de la estrategia de fragmentación (Chunking)

La fragmentación tardía (late chunking) y otras estrategias de segmentación pueden evaluarse examinando cómo los diferentes enfoques afectan la coherencia semántica dentro y entre los segmentos de texto. La visualización ayuda a identificar el efecto de la fragmentación tardía y los límites óptimos de los fragmentos, revelando patrones de similitud que se alinean con la estructura semántica.

La herramienta se extiende más allá del texto para admitir los modelos de 向量模型 (Embeddings) de imágenes a través de jina-clip-v2, lo que permite analizar los patrones de correlación texto-imagen para aplicaciones multimodales.

0:00

/0:08

El desafío de la interpretabilidad es particularmente agudo cuando se trabaja con 向量模型 (embeddings) de alta dimensión. El panorama de las técnicas de visualización de 向量模型 (embedding) ha evolucionado significativamente, y los diferentes enfoques se pueden clasificar como:

Basados en la reducción de dimensionalidad: Enfoques tradicionales que utilizan PCA, t-SNE, UMAP que proyectan espacios de alta dimensión a 2D/3D
Basados en la exploración interactiva: Herramientas como Parallax y TextEssence que permiten la manipulación y la exploración directas
Soluciones específicas del dominio: Herramientas especializadas como Clustergrammer para datos biológicos
Visualización directa de la similitud: Nuestro enfoque y métodos similares basados en mapas de calor que preservan toda la información relacional

Método	Enfoque	Casos de uso
Correlations	Mapas de calor de similitud por pares directos	Depuración de la similitud de texto, análisis de alineación
Embedding Projector	PCA, t-SNE y proyecciones lineales personalizadas	Visualización e interpretación interactivas
Parallax	Fórmulas algebraicas para la exploración semántica	Comprensión de las relaciones semánticas
TextEssence	Análisis comparativo de corpus	Análisis diacrónico, comparación de corpus
Nomic Atlas	Visualización escalable basada en la nube	Conjuntos de datos a gran escala, colaboración
Clustergrammer	Mapa de calor interactivo con agrupación	Datos biológicos de alta dimensión
t-SNE	Visualización no lineal de clústeres	Depuración de modelos, identificación de confusiones
UMAP	Preservación de la estructura local y global	Conjuntos de datos medianos-grandes, análisis general
PCA	Reducción lineal de la dimensionalidad	Exploración inicial, comparación de referencia

tagLimitaciones de los enfoques puntuales

Las herramientas de visualización existentes se centran principalmente en representaciones puntuales en espacios 2D, lo que puede provocar la pérdida de información crítica sobre las relaciones por pares. Además, la mayoría de las herramientas están diseñadas para el análisis de un solo espacio de 向量模型 (embedding) en lugar de la evaluación comparativa entre diferentes fuentes, modalidades o estrategias de 向量模型 (embedding) (por ejemplo, la fragmentación tardía activada frente a desactivada).

Por ejemplo, recientemente nos encontramos con dos casos de uso en Jina. El primero implica la verificación cruzada de citas en DeepSearch, donde necesitamos hacer coincidir el informe generado con los extractos originales del material de referencia. El segundo es la recuperación multimodal, donde necesitamos verificar la alineación imagen-texto e imagen-imagen en nuevos datos no etiquetados. En ambos casos, necesitamos explorar las relaciones entre dos colecciones de 向量模型 (embeddings). Por lo tanto, utilizamos Correlations para tener una idea de cuán bien se alinean las coincidencias y para validar si las correlaciones más altas corresponden consistentemente a las coincidencias correctas.

tagConclusión

Más allá de la verificación del ambiente, correlations puede proporcionar información más profunda sobre las relaciones semánticas. Como punto de partida, se pueden extraer varias estadísticas clave de la matriz de correlación:

Densidad de la matriz: La proporción de correlaciones por encima de los umbrales especificados, lo que indica la cohesión semántica general
Distribución de valores propios: El análisis de componentes principales revela los patrones dominantes en la estructura de similitud
Rango de la matriz: Indica la dimensionalidad efectiva de las relaciones de similitud
Número de condición: Mide la estabilidad numérica y los posibles problemas de multicolinealidad

El análisis avanzado también puede implicar la extracción de submatrices significativas que representen regiones semánticas coherentes. La extracción de una submatriz principal de suma máxima de orden k de una matriz real de orden n es un problema típico de optimización combinatoria que puede identificar los segmentos más altamente correlacionados.

Correlaciones: Prueba de ambiente de los Vectores Modelo (Embeddings) en la GUI

tagDiseño

tagCasos de uso

tagAnálisis de alineación y deduplicación de contenido

tagValidación de citas y referencias

tagExploración de la estrategia de fragmentación (Chunking)

tagAnálisis intermodal

tagTrabajos relacionados en la visualización de 向量模型 (Embedding)

tagLimitaciones de los enfoques puntuales

tagConclusión