API

Lisez les URL et effectuez des recherches sur le Web pour de meilleurs LLM de base.

Intégrations multimodales et multilingues de classe mondiale.

Récupérateur neuronal de classe mondiale pour maximiser la pertinence de la recherche.

Service d'inférence élastique

Exécutez les modèles Jina nativement au sein d'Elasticsearch.

MCP CLI llms.txt Agents Schéma Documents

Thème

Rédaction

Accélérez la recherche IA, un jeton à la fois.

Mis en exergue

jina-embeddings-v5-omni : Modèles vectoriels pour le texte, l'image, l'audio et la vidéo

Un modèle, quatre modalités : texte, image, audio, vidéo. Des modèles d'embeddings omni de premier ordre en 1,6B et 0,9B.

mai 12, 2026 • 7 minutes lues

jina-embeddings-v5-text : Nouveaux Embeddings multilingues de petite taille SOTA

Deux modèles de plongements (embeddings) multilingues de moins de 1 milliard de paramètres offrant des performances de premier ordre, disponibles sur Elastic Inference Service, Llama.cpp et MLX.

février 19, 2026 • 7 minutes lues

Abstract digital artwork in black and white, featuring scattered dots forming letters in a halftone effect. The central lette

Jina-VLM : Petit modèle de langage visuel multilingue

Nouveau modèle de langage de vision 2B atteint SOTA sur VQA multilingue, sans oubli catastrophique sur les tâches textuelles uniquement.

décembre 04, 2025 • 7 minutes lues

Artistic representation of "Vln" in vibrant, rainbow-like colors on a minimalistic white background, with a focus on color di

Publications académiques

jina-embeddings-v5-omni: Text-Geometry-Preserving Multimodal Embeddings via Frozen-Tower Composition

février 17, 2026

jina-embeddings-v5-text: Task-Targeted Embedding Distillation

janvier 22, 2026

Embedding Compression via Spherical Coordinates

décembre 29, 2025

Vision Encoders in Vision-Language Models: A Survey

décembre 04, 2025

Jina-VLM: Small Multilingual Vision Language Model

octobre 01, 2025

jina-reranker-v3: Last but Not Late Interaction for Document Reranking

Efficient Code Embeddings from Code Generation Models

jina-embeddings-v4: Universal Embeddings for Multimodal Multilingual Retrieval

ReaderLM-v2: Small Language Model for HTML to Markdown and JSON

décembre 17, 2024

AIR-Bench: Automated Heterogeneous Information Retrieval Benchmark

décembre 12, 2024

jina-clip-v2: Multilingual Multimodal Embeddings for Text and Images

septembre 18, 2024

jina-embeddings-v3: Multilingual Embeddings With Task LoRA

septembre 07, 2024

Late Chunking: Contextual Chunk Embeddings Using Long-Context Embedding Models

Jina-ColBERT-v2: A General-Purpose Multilingual Late Interaction Retriever

Leveraging Passage Embeddings for Efficient Listwise Reranking with Large Language Models

Jina CLIP: Your CLIP Model Is Also Your Text Retriever

février 26, 2024

Multi-Task Contrastive Learning for 8192-Token Bilingual Text Embeddings

octobre 30, 2023

Jina Embeddings 2: 8192-Token General-Purpose Text Embeddings for Long Documents

juillet 20, 2023

Jina Embeddings: A Novel Set of High-Performance Sentence Embedding Models

19 publications au total.

Mis en exergue

Académique

Tous

communiqué de presse

Blog technique

Événement

Avis

mai 12, 2026 • 7 minutes lues

jina-embeddings-v5-omni : Modèles vectoriels pour le texte, l'image, l'audio et la vidéo

Un modèle, quatre modalités : texte, image, audio, vidéo. Des modèles d'embeddings omni de premier ordre en 1,6B et 0,9B.

jina-embeddings-v5-omni: Text-Geometry-Preserving Multimodal Embeddings via Frozen-Tower Composition

We introduce frozen-encoder model composition, a novel approach to multimodal embedding models. We build on the VLM-style architecture, in which non-text encoders are adapted to produce input for a language model, which in turn generates embeddings for all varieties of input. The backbone text embedding models and the added non-text media encoders remain frozen. We only trained the connecting components, representing 0.35% of the total weights. The resulting jina-embeddings-v5-omni suite encodes text, image, audio, and video into a single semantic embedding space, producing competitive results with models 5-7x its size.

jina-embeddings-v5-omni: Text-Geometry-Preserving Multimodal Embeddings via Frozen-Tower Composition

mars 11, 2026 • 7 minutes lues

Bootstrapping d'embeddings audio à partir de LLM multimodaux

Transformez n'importe quel LLM multimodal en un petit modèle de plongements audio qui surpasse CLAP avec 25 fois moins de données.

Abstract illustration of a sound wave or heartbeat, formed by blue, orange, and gray dots on a white background.

mars 06, 2026 • 6 minutes lues

Identifier les modèles d'embeddings à partir de valeurs numériques brutes

Un minuscule transformer qui identifie les modèles d'embeddings par empreinte numérique en lisant des chiffres bruts. Sans ingénierie de caractéristiques.

Fingerprint illustration made from numbers, showcasing digital and high-tech design on a light background.

février 19, 2026 • 7 minutes lues

jina-embeddings-v5-text : Nouveaux Embeddings multilingues de petite taille SOTA

Deux modèles de plongements (embeddings) multilingues de moins de 1 milliard de paramètres offrant des performances de premier ordre, disponibles sur Elastic Inference Service, Llama.cpp et MLX.

Abstract digital artwork in black and white, featuring scattered dots forming letters in a halftone effect. The central lette

février 17, 2026

jina-embeddings-v5-text: Task-Targeted Embedding Distillation

Text embedding models are widely used for semantic similarity tasks, including information retrieval, clustering, and classification. General-purpose models are typically trained with single- or multi-stage processes using contrastive loss functions. We introduce a novel training regimen that combines model distillation techniques with task-specific contrastive loss to produce compact, high-performance embedding models. Our findings suggest that this approach is more effective for training small models than purely contrastive or distillation-based training paradigms alone. Benchmark scores for the resulting models, jina-embeddings-v5-text-small and jina-embeddings-v5-text-nano, exceed or match the state-of-the-art for models of similar size. jina-embeddings-v5-text models additionally support long texts (up to 32k tokens) in many languages, and generate embeddings that remain robust under truncation and binary quantization. Model weights are publicly available, hopefully inspiring further advances in embedding model development.

jina-embeddings-v5-text: Task-Targeted Embedding Distillation

janvier 22, 2026

Embedding Compression via Spherical Coordinates

We present a compression method for unit-norm embeddings that achieves 1.5x compression, 25% better than the best prior lossless method. The method exploits that spherical coordinates of high-dimensional unit vectors concentrate around pi/2, causing IEEE 754 exponents to collapse to a single value and high-order mantissa bits to become predictable, enabling entropy coding of both. Reconstruction error is below 1e-7, under float32 machine epsilon. Evaluation across 26 configurations spanning text, image, and multi-vector embeddings confirms consistent improvement. The method requires no training.

Embedding Compression via Spherical Coordinates

décembre 29, 2025

Vision Encoders in Vision-Language Models: A Survey

Vision encoders have remained comparatively small while language models scaled from billions to hundreds of billions of parameters. This survey analyzes vision encoders across 70+ vision-language models from 2023–2025 and finds that training methodology matters more than encoder size: improvements in loss functions, data curation, and feature objectives yield larger gains than scaling by an order of magnitude. Native resolution handling improves document understanding, and multi-encoder fusion captures complementary features no single encoder provides. We organize encoders into contrastive, self-supervised, and LLM-aligned families, providing a taxonomy and practical selection guidance for encoder design and deployment.

Vision Encoders in Vision-Language Models: A Survey

décembre 04, 2025 • 7 minutes lues

Jina-VLM : Petit modèle de langage visuel multilingue

Nouveau modèle de langage de vision 2B atteint SOTA sur VQA multilingue, sans oubli catastrophique sur les tâches textuelles uniquement.

Artistic representation of "Vln" in vibrant, rainbow-like colors on a minimalistic white background, with a focus on color di

décembre 04, 2025

Jina-VLM: Small Multilingual Vision Language Model

We present jina-vlm, a 2.4B parameter vision-language model that achieves state-of-the-art multilingual visual question answering among open 2B-scale VLMs. The model couples a SigLIP2 vision encoder with a Qwen3 language backbone through an attention-pooling connector that enables token-efficient processing of arbitrary-resolution images. Across standard VQA benchmarks and multilingual evaluations, jina-vlm achieves leading results while preserving competitive text-only performance. Model weights and code are publicly released.

Jina-VLM: Small Multilingual Vision Language Model

Rechercher par titre

Filtrer par produit

Filtrer par auteur

Filtrer par modèle

Fondation Recherche

Service d'inférence élastique

Obtenir la clé API Jina

Statut de l'API

Entreprise

À propos de nous

Télécharger le logo Jina

Télécharger le logo Elastic

Termes

termes et conditions

Confidentialité

Gérer les cookies

Élastique © 2020-2026.