新聞
模型
API
keyboard_arrow_down
讀取器
讀取URL或搜索為大模型提供更好的依據。
向量模型
世界一流的多模態多語言向量模型。
重排器
世界一流的重排器,最大限度地提高搜索相關性。
Elastic Inference Service
在 Elasticsearch 中原生運行 Jina 模型。
MCP terminal命令行articlellms.txtsmart_toy代理人data_object模式menu_book文檔



登錄
login
warning
此模型已被較新的模型棄用。
向量模型
copyright CC BY-NC 4.0
open_in_new 發行説明

jina-embeddings-v3

最新、最好的向量化模型,在文本和代碼上均具有最佳性能
許可證
copyright CC-BY-NC-4.0
發佈日期
calendar_month
2024-09-18
輸入
abc
文本
arrow_forward
輸出
more_horiz
向量
支持的俄羅斯套娃維度 help_outline
32
64
128
256
512
768
1024
遲分技術 help_outline
check_circle
Yes
模型詳細信息
參數: 570M
輸入詞元長度: 8K
輸出維度: 1024
底座模型 help_outline
open_in_new
XLM-RoBERTa Large
訓練過的語言 help_outline
32 語言
支持的語言 help_outline
108 語言
相關模型
link
jina-embeddings-v2-base-en
link
jina-embeddings-v2-base-zh
link
jina-embeddings-v2-base-de
link
jina-embeddings-v2-base-es
link
jina-embeddings-v2-base-code
支持的任務
search 檢索
compare_arrows 文本匹配
call_split 分離
label 分類
標籤
text-embedding
multilingual
high-dimension
long-context
production
base-model
matryoshka
lora-adapters
可通過以下方式獲取
Elastic Inference ServiceJina API亞馬遜雲微軟雲谷歌雲抱抱臉
I/O 圖

文本

jina-embeddings-v3

任務

向量

選擇要比較的模型
論文 (3)
ACL 2025
十二月 17, 2024
AIR-Bench: Automated Heterogeneous Information Retrieval Benchmark
ECIR 2025
九月 18, 2024
jina-embeddings-v3: Multilingual Embeddings With Task LoRA
SIGIR 2025
九月 07, 2024
Late Chunking: Contextual Chunk Embeddings Using Long-Context Embedding Models

概述

Jina Embeddings v3 是一種突破性的多語言文本向量模型,它改變了組織處理跨語言文本理解和檢索的方式。從本質上講,它解決了在多種語言和任務中保持高性能,同時保持計算要求可控的關鍵挑戰。該模型在效率至關重要的生產環境中尤其出色 - 它僅用 5.7 億個參數就實現了最先進的性能,這使得無法承擔較大模型計算開銷的團隊也可以使用它。需要構建可擴展的多語言搜索系統或跨語言障礙分析內容的組織會發現這個模型特別有價值。

方法

該模型的架構代表了向量技術的重大創新,它建立在具有 24 層的 jina-XLM-RoBERTa 基礎上,並通過特定於任務的低秩自適應 (LoRA) 適配器進行了增強。LoRA 適配器是專門的神經網絡組件,可針對不同的任務(如檢索、分類或聚類)優化模型,而不會顯着增加參數數量 - 它們使總參數增加不到 3%。該模型結合了 Matryoshka 表示學習 (MRL),允許將向量從 1024 維靈活地減少到 32 維,同時保持性能。訓練涉及三個階段:對來自 89 種語言的多語言文本進行初始預訓練,對成對文本進行微調以提高向量質量,以及專門的適配器訓練以優化任務。該模型通過旋轉位置向量 (RoPE) 支持高達 8,192 個詞元的上下文長度,並採用創新的基頻調整技術來提高短文本和長文本的性能。

性能

該模型在實際測試中展現出卓越的效率性能比,在英語任務上的表現優於開源替代方案以及來自 OpenAI 和 Cohere 的專有解決方案,同時在多語言場景中也表現出色。最令人驚訝的是,它取得了比參數多 12 倍的 e5-mistral-7b-instruct 更好的結果,凸顯了其卓越的效率。在 MTEB 基準評估中,它在所有任務中獲得了 65.52 的平均分數,在分類準確率(82.58)和句子相似度(85.80)方面表現尤為出色。該模型在不同語言中保持一致的性能,在多語言任務上的得分為 64.44。當使用 MRL 進行降維時,即使在較低維度下也能保持強勁性能 - 例如,與完整的 1024 維相比,64 維可以保持 92% 的檢索性能。

最佳實踐

為了有效部署 Jina Embeddings v3,團隊應考慮其特定用例以選擇適當的任務適配器:搜索應用程序使用 retrieval.query 和 retrieval.passage,聚類任務使用分離,分類使用分類,語義相似性使用文本匹配。該模型需要具有 CUDA 功能的硬件才能獲得最佳性能,但其高效的架構意味着它所需的 GPU 內存比更大的替代方案少得多。對於生產部署,AWS SageMaker 集成提供了一條簡化的可擴展性路徑。該模型在多語言應用程序中表現出色,但對於資源匱乏的語言可能需要額外的評估。雖然它支持多達 8,192 個詞元的長文檔,但對於非常長的文本,使用遲分技術功能可實現最佳性能。團隊應避免將該模型用於需要實時生成或複雜推理的任務 - 它是為向量和檢索而設計的,而不是文本生成或直接問答。
提及此模型的博客
九月 18, 2024 • 10 分鐘的讀取量
Jina Embeddings v3:前沿多語言嵌入式模型
jina-embeddings-v3 是一個具有突破性的多語言文本嵌入模型,擁有 570M 參數和 8192 個 token 長度,在 MTEB 基準測試中的表現超越了 OpenAI 和 Cohere 最新的專有嵌入模型。
Jina AI
Dynamic image showing the characters "V3" formed by bright green dots varying in size on a black background.
三月 06, 2026 • 6 分鐘的讀取量
從原始數值辨識向量模型
一個透過讀取原始數值來對向量模型進行指紋識別的微型 Transformer。無需特徵工程。
Han Xiao
Fingerprint illustration made from numbers, showcasing digital and high-tech design on a light background.
二月 19, 2026 • 7 分鐘的讀取量
jina-embeddings-v5-text:全新的 SOTA 小型多語言向量模型
兩款效能領先的 1B 以下多語言向量模型,現已於 Elastic Inference Service、Llama.cpp 與 MLX 上架。
Han Xiao
Abstract digital artwork in black and white, featuring scattered dots forming letters in a halftone effect. The central lette
十月 03, 2025 • 7 分鐘的讀取量
Jina Reranker v3:用於 SOTA 多語檢索的 0.6B Listwise 重排器
全新 0.6B 參數的列表式重排器,可以在單一上下文視窗中考量查詢語句和所有候選文件。
Jina AI
Light blue background with stylized text in the center, composed of small dots or squares, evoking a modern and minimalistic
九月 04, 2025 • 6 分鐘的讀取量
Jina Code Embeddings:0.5B 和 1.5B 參數規模下,最先進的程式碼檢索向量模型
程式碼生成大模型 → 程式碼向量模型:0.5B/1.5B 模型在 25 個程式碼檢索基準測試中實現了 SOTA 效能。
Jina AI
Green "Code Embeddings" text displayed in a LED dot style on a black background, evoking a futuristic and technological atmos
搜索底座
讀取器
向量模型
重排器
Elastic Inference Service
open_in_new
獲取 Jina API 密鑰
速率限制
API 狀態
公司
關於我們
新聞
下載 Jina 標誌
open_in_new
下載 Elastic 徽標
open_in_new
條款
安全
條款及條件
隱私
管理 Cookie
Elastic © 2020-2026.