Noticias
Modelos
Productos
keyboard_arrow_down
Lector
Lea las URL y busque en la web para obtener una base más sólida para su LLM.
Incrustaciones
Integraciones multilingües y multimodales de clase mundial.
reclasificador
Recuperador neuronal de clase mundial para maximizar la relevancia de la búsqueda.
Búsqueda profunda
Busca, lee y razona hasta encontrar la mejor respuesta.
Más
keyboard_arrow_down
Clasificador
Clasificación de cero disparos y pocos disparos para imágenes y texto.
Segmentador
Corta el texto largo en fragmentos y haz tokenización.

Documentación de la API
Generación automática de código para su IDE o LLM de Copilot
open_in_new


Compañía
keyboard_arrow_down
Sobre nosotros
Contactar con ventas
Programa de prácticas
Únete a nosotros
open_in_new
Descargar logotipo
open_in_new
Términos y condiciones


Acceso
login
warning
Este modelo está obsoleto por los modelos más nuevos.

jina-embeddings-v2-base-en

A la par con text-embedding-ada002 de OpenAI
Publicación de lanzamientoarrow_forward
Licencia
license
Apache-2.0
Fecha de lanzamiento
calendar_month
2023-10-28
Aporte
abc
Texto
arrow_forward
Producción
more_horiz
Vector
Detalles del modelo
Parámetros: 137M
Longitud del token de entrada: 8K
Dimensión de salida: 768
Soporte de idioma
🇺🇸 Inglés
Modelos relacionados
link
jina-embedding-b-en-v1
link
jina-embeddings-v3
Etiquetas
text-embeddings
english
long-context
production-ready
multi-task-learning
semantic-search
document-retrieval
high-performance
bert-based
fine-tunable
rag-optimized
8k-context
Disponible a través de
API de JinaAWS SageMakerMicrosoft AzureCara abrazada
Elige modelos para comparar
Publicaciones (3)
SIGIR 2025
septiembre 07, 2024
Late Chunking: Contextual Chunk Embeddings Using Long-Context Embedding Models
arXiv
febrero 26, 2024
Multi-Task Contrastive Learning for 8192-Token Bilingual Text Embeddings
arXiv
octubre 30, 2023
Jina Embeddings 2: 8192-Token General-Purpose Text Embeddings for Long Documents

Descripción general

Jina Embeddings v2 Base English es un innovador modelo de incrustación de texto de código abierto que resuelve el desafío crítico de procesar documentos extensos manteniendo una alta precisión. Las organizaciones que tienen dificultades para analizar documentos legales extensos, artículos de investigación o informes financieros encontrarán este modelo particularmente valioso. Se destaca por manejar documentos de hasta 8192 tokens de longitud (16 veces más largos que los modelos tradicionales) y al mismo tiempo igualar el rendimiento de las soluciones patentadas de OpenAI. Con un tamaño compacto de 0,27 GB y un uso eficiente de los recursos, ofrece una solución accesible para los equipos que buscan implementar un análisis avanzado de documentos sin una sobrecarga computacional excesiva.

Métodos

La arquitectura del modelo combina una estructura básica BERT Small con un innovador mecanismo ALiBi (Atención con sesgos lineales) bidireccional simétrico, lo que elimina la necesidad de incrustaciones posicionales tradicionales. Esta elección arquitectónica permite al modelo extrapolar mucho más allá de su longitud de entrenamiento de 512 tokens, manejando secuencias de hasta 8192 tokens sin degradación del rendimiento. El proceso de entrenamiento implicó dos fases clave: preentrenamiento inicial en el conjunto de datos C4, seguido de refinamiento en la colección curada de más de 40 conjuntos de datos especializados de Jina AI. Estos diversos datos de entrenamiento, que incluyen ejemplos negativos desafiantes y pares de oraciones variados, garantizan un rendimiento sólido en diferentes dominios y casos de uso. El modelo produce vectores densos de 768 dimensiones que capturan relaciones semánticas matizadas, logradas con unos parámetros relativamente modestos de 137 millones.

Actuación

En pruebas reales, Jina Embeddings v2 Base English demuestra capacidades excepcionales en múltiples puntos de referencia. Supera a text-embedding-ada-002 de OpenAI en varias métricas clave: clasificación (73,45 % frente a 70,93 %), reclasificación (85,38 % frente a 84,89 %), recuperación (56,98 % frente a 56,32 %) y resumen (31,6 % frente a 30,8 %). Estas cifras se traducen en ventajas prácticas en tareas como la clasificación de documentos, donde el modelo muestra una capacidad superior para categorizar textos complejos, y en aplicaciones de búsqueda, donde comprende mejor las consultas de los usuarios y encuentra documentos relevantes. Sin embargo, los usuarios deben tener en cuenta que el rendimiento puede variar cuando se trabaja con contenido altamente especializado y específico del dominio que no está representado en los datos de entrenamiento.

Guía

Para implementar eficazmente Jina Embeddings v2 Base English, los equipos deben considerar varios aspectos prácticos. El modelo requiere hardware compatible con CUDA para un rendimiento óptimo, aunque su eficiente arquitectura permite su ejecución en GPU de consumo. Está disponible a través de múltiples canales: descarga directa desde Hugging Face, implementación en AWS Marketplace o la API de Jina AI con 10 millones de tokens gratuitos. Para implementaciones de producción, AWS SageMaker en la región us-east-1 ofrece la solución más escalable. El modelo destaca en el análisis de texto de propósito general, pero puede no ser la mejor opción para terminología científica altamente especializada o jerga específica de un dominio sin un ajuste preciso. Al procesar documentos extensos, considere dividirlos en fragmentos semánticos significativos en lugar de divisiones arbitrarias para mantener la integridad del contexto. Para obtener resultados óptimos, implemente un preprocesamiento de texto adecuado y asegúrese de que los datos de entrada estén limpios y bien formateados.
Blogs que mencionan este modelo
diciembre 17, 2024 • 12 minutos de lectura
Los Text Embeddings fallan al capturar el orden de las palabras y cómo solucionarlo
Los modelos de incrustación de texto tienen dificultades para captar sutiles matices lingüísticos como el orden de las palabras, las relaciones direccionales, las secuencias temporales, las conexiones causales, las comparaciones y la negación. Comprender estos desafíos es clave para mejorar el rendimiento del modelo.
Bo Wang
Alex C-G
Three abstract figures in white, gray, and pink on matching cubes placed on a colorful checkered surface against a green back
octubre 25, 2024 • 19 minutos de lectura
Encontrando Puntos de Ruptura Óptimos en Documentos Largos Usando Modelos de Lenguaje Pequeños
Entrenamos tres modelos de lenguaje pequeños para segmentar mejor los documentos largos en fragmentos, y estas son las lecciones clave que aprendimos.
Andrei Ungureanu
Alex C-G
A pattern of yellow file icons on a blue background with one icon displaying a smiley face creating an emotive contrast.
octubre 15, 2024 • 9 minutos de lectura
Verificación de hechos con la nueva API de Grounding en Jina Reader
Con el nuevo g.jina.ai, puedes verificar fácilmente las declaraciones para reducir las alucinaciones de los LLM o mejorar la integridad del contenido escrito por humanos.
Jina AI
Jina developer interface showing "Jina AI was founded in 2020" with controls labeled true and false, and web address on top.
septiembre 27, 2024 • 15 minutos de lectura
Migración de Jina Embeddings v2 a v3
Recopilamos algunos consejos para ayudarte a migrar de Jina Embeddings v2 a v3.
Alex C-G
Scott Martens
A digital upgrade theme with "V3" and a white "2", set against a green and black binary code background, with "Upgrade" centr
septiembre 18, 2024 • 10 minutos de lectura
Jina Embeddings v3: Un Modelo de Embeddings Multilingüe de Vanguardia
jina-embeddings-v3 es un modelo de vanguardia de embeddings de texto multilingüe con 570M parámetros y una longitud de token de 8192, que supera a los últimos embeddings propietarios de OpenAI y Cohere en MTEB.
Jina AI
Dynamic image showing the characters "V3" formed by bright green dots varying in size on a black background.
Oficinas
location_on
Sunnyvale, California
710 Lakeway Dr, Ste 200, Sunnyvale, CA 94085, EE. UU.
location_on
Berlín, Alemania (sede central)
Prinzessinnenstraße 19-20, 10969 Berlín, Alemania
location_on
Beijing, China
Piso 5, Edificio 6, No.48 Haidian West St. Pekín, China
location_on
Shenzhen, China
Piso 402, Edificio de Tecnología Fu'an, Shenzhen, China
Fundación de búsqueda
Lector
Incrustaciones
reclasificador
Búsqueda profunda
Clasificador
Segmentador
Documentación API
Obtener la clave API de Jina
Límite de velocidad
Estado de la API
Compañía
Sobre nosotros
Contactar con ventas
Sala de prensa
Programa de prácticas
Únete a nosotros
open_in_new
Descargar logotipo
open_in_new
Términos
Seguridad
Términos y condiciones
Privacidad
Administrar cookies
email
Jina AI © 2020-2025.