late_chunking 參數控制模型是否在將文檔切分為片段之前先處理整個文檔,以在長文本中保留更多上下文。從用戶的角度來看,輸入和輸出格式保持不變,但嵌入值將反映完整文檔的上下文,而不是為每個片段獨立計算。- 當使用
late_chunking=True時,每個請求中input中所有片段的總 token 數限制為 8192,這是 v3 允許的最大上下文長度。 - 當使用
late_chunking=False時,此 token 限制不適用,總 token 數只受到 Embedding API 的速率限制約束。
要啟用延遲分塊,在 API 調用中傳遞 late_chunking=True。
你可以通過搜索聊天歷史來看到延遲分塊的優勢:
history = [
"Sita, have you decided where you'd like to go for dinner this Saturday for your birthday?",
"I'm not sure. I'm not too familiar with the restaurants in this area.",
"We could always check out some recommendations online.",
"That sounds great. Let's do that!",
"What type of food are you in the mood for on your special day?",
"I really love Mexican or Italian cuisine.",
"How about this place, Bella Italia? It looks nice.",
"Oh, I've heard of that! Everyone says it's fantastic!",
"Shall we go ahead and book a table there then?",
"Yes, I think that would be a perfect choice! Let's call and reserve a spot."
]
如果我們用 Embeddings v2 詢問 What's a good restaurant?,結果並不太相關:
| Document | Cosine Similarity |
|---|---|
| I'm not sure. I'm not too familiar with the restaurants in this area. | 0.7675 |
| I really love Mexican or Italian cuisine. | 0.7561 |
| How about this place, Bella Italia? It looks nice. | 0.7268 |
| What type of food are you in the mood for on your special day? | 0.7217 |
| Sita, have you decided where you'd like to go for dinner this Saturday for your birthday? | 0.7186 |
使用 v3 但不使用延遲分塊,我們得到類似的結果:
| Document | Cosine Similarity |
|---|---|
| I'm not sure. I'm not too familiar with the restaurants in this area. | 0.4005 |
| I really love Mexican or Italian cuisine. | 0.3752 |
| Sita, have you decided where you'd like to go for dinner this Saturday for your birthday? | 0.3330 |
| How about this place, Bella Italia? It looks nice. | 0.3143 |
| Yes, I think that would be a perfect choice! Let's call and reserve a spot. | 0.2615 |
然而,當使用 v3 並且使用延遲分塊時,我們看到明顯的性能提升,最相關的結果(一個好餐廳)排在最前面:
| Document | Cosine Similarity |
|---|---|
| How about this place, Bella Italia? It looks nice. | 0.5061 |
| Oh, I've heard of that! Everyone says it's fantastic! | 0.4498 |
| I really love Mexican or Italian cuisine. | 0.4373 |
| What type of food are you in the mood for on your special day? | 0.4355 |
| Yes, I think that would be a perfect choice! Let's call and reserve a spot. | 0.4328 |
如你所見,即使最匹配的結果完全沒有提到「餐廳」這個詞,延遲分塊保留了其原始上下文並將其作為正確的最佳答案呈現。它將「餐廳」的含義編碼到餐廳名稱「Bella Italia」中,因為它在更大的文本中看到了其含義。
tag使用套娃嵌入平衡效率和性能
Embeddings v3 中的 dimensions 參數讓你能以最小的代價在存儲效率和性能之間取得平衡。v3 的套娃嵌入讓你可以截斷模型產生的向量,根據需要減少維度的同時保留有用的信息。較小的嵌入非常適合在向量數據庫中節省空間並提高檢索速度。你可以根據維度減少的程度來估計性能影響:
data = {
"model": "jina-embeddings-v3",
"task": "text-matching",
"dimensions": 768, # 1024 by default
"input": [
"The Force will be with you. Always.",
"力量与你同在。永远。",
"La Forza sarà con te. Sempre.",
"フォースと共にあらんことを。いつも。"
]
}
response = requests.post(url, headers=headers, json=data)
tag常見問題
tag我已經在生成嵌入之前對文檔進行分塊。延遲分塊相比我自己的系統有什麼優勢嗎?
延遲分塊比預先分塊有優勢,因為它先處理整個文檔,在將文本分割成塊之前保留重要的上下文關係。這會產生更豐富的上下文嵌入,從而提高檢索準確性,特別是在複雜或冗長的文檔中。此外,延遲分塊可以在搜索或檢索過程中幫助提供更相關的回應,因為模型在分段之前對文檔有整體的理解。與預先分塊相比,延遲分塊的整體性能更好,因為在預先分塊中,每個塊都是獨立處理的,沒有完整的上下文。
tag為什麼 v2 在配對分類方面比 v3 表現更好,我應該擔心嗎?
v2-base-(zh/es/de) 模型在配對分類(PC)方面表現更好的主要原因是平均分數的計算方式。在 v2 中,PC 性能只考慮中文,其中 embeddings-v2-base-zh 模型表現出色,導致平均分數較高。v3 的基準測試包括四種語言:中文、法語、波蘭語和俄語。因此,與 v2 僅針對中文的分數相比,其整體分數顯得較低。然而,v3 在 PC 任務中仍然與 multilingual-e5 等模型的表現相當或更好。這種更廣泛的範圍解釋了感知到的差異,性能下降不應成為擔憂,特別是對於 v3 仍然具有高度競爭力的多語言應用。
tagv3 真的在特定語言上比 v2 雙語模型表現更好嗎?
當比較 v3 和 v2 雙語模型時,性能差異取決於特定的語言和任務。
v2 雙語模型針對各自的語言進行了高度優化。因此,在特定語言的基準測試中,如中文的配對分類(PC),v2 可能會顯示出更優異的結果。這是因為 embeddings-v2-base-zh 的設計專門針對該語言,使其能在該狹窄範圍內表現出色。
然而,v3 的設計目標是更廣泛的多語言支持,處理 89 種語言,並通過特定任務的 LoRA 適配器進行優化。這意味著雖然 v3 可能不會在特定語言的每個任務中都優於 v2(比如中文的 PC),但在跨多種語言評估或更複雜的特定任務場景(如檢索和分類)時,它往往表現更好。
對於多語言任務或跨語言工作時,v3 提供了更平衡和全面的解決方案,在多語言中實現更好的泛化。然而,對於雙語模型經過精細調整的特定語言任務,v2 可能仍保持優勢。
實際應用中,正確的模型選擇取決於你任務的具體需求。如果你只使用特定語言且 v2 針對該語言進行了優化,你可能仍會看到 v2 的競爭力結果。但對於更通用或多語言應用,由於 v3 的多功能性和更廣泛的優化,v3 可能是更好的選擇。
tag為什麼 v2 在摘要方面比 v3 表現更好,我需要擔心嗎?
v2-base-en 在摘要(SM)方面表現更好是因為其架構針對語義相似度等任務進行了優化,而這與摘要密切相關。相比之下,v3 的設計目的是支持更廣泛的任務,特別是在檢索和分類任務方面,並且更適合複雜和多語言場景。

然而,這種 SM 性能差異對大多數用戶來說不應該是一個問題。SM 評估僅基於一個摘要任務 SummEval,主要測量語義相似度。這個單一任務並不能充分說明或代表模型的更廣泛能力。由於 v3 在其他關鍵領域(如檢索)表現出色,摘要方面的差異不太可能對你的實際使用場景產生重大影響。








