新聞
模型
產品
keyboard_arrow_down
讀取器
讀取URL或搜索為大模型提供更好的依據。
向量模型
世界一流的多模態多語言向量模型。
重排器
世界一流的重排器,最大限度地提高搜索相關性。
深度搜索
搜索、讀取並推理直到找到最佳答案。
更多的
keyboard_arrow_down
分類器
圖片和文本的零樣本和少樣本分類。
切分器
將長文本切分成塊或詞元。

MCP 服務器
添加 mcp.jina.ai 作為您的MCP服務器,讓大模型使用我們的API
open_in_new
API 文檔
為您的AI 編程助手 IDE 或大模型自動生成代碼
open_in_new


公司
keyboard_arrow_down
關於我們
聯繫銷售
實習生計劃
加入我們
open_in_new
下載Logo
open_in_new
條款及條件


登錄
login
warning
此模型已被較新的模型棄用。

jina-embeddings-v2-base-es

支持西英雙語的 8K 最佳向量模型
發行説明arrow_forward
許可證
license
Apache-2.0
發佈日期
calendar_month
2024-02-14
輸入
abc
文本
arrow_forward
輸出
more_horiz
向量
模型詳細信息
參數: 161M
輸入詞元長度: 8K
輸出維度: 768
語言支持
🇺🇸 英語
🇪🇸 Español
相關模型
link
jina-embeddings-v2-base-en
link
jina-embeddings-v2-base-de
link
jina-embeddings-v2-base-zh
標籤
spanish
bilingual
long-context
8k-context
bert-based
production-ready
semantic-search
cross-lingual
text-embeddings
fine-tunable
可通過以下方式獲取
Jina API亞馬遜雲微軟雲抱抱臉
選擇要比較的模型
出版物 (1)
arXiv
二月 26, 2024
Multi-Task Contrastive Learning for 8192-Token Bilingual Text Embeddings

概述

Jina Embeddings v2 Base Spanish 是一種突破性的雙語文本向量模型,可解決西班牙語和英語內容之間的跨語言信息檢索和分析這一關鍵挑戰。與通常偏向特定語言的傳統多語言模型不同,該模型在西班牙語和英語之間實現了真正平衡的性能,對於在西班牙語市場運營或處理雙語內容的組織來説,它是必不可少的。該模型最引人注目的特點是它能夠生成幾何對齊的向量 - 當西班牙語和英語文本表達相同的含義時,它們的向量表示會自然地聚集在向量空間中,從而實現無縫的跨語言搜索和分析。

方法

該模型的核心是基於對稱雙向 ALiBi(具有線性偏差的注意力機制)的創新架構,這是一種複雜的方法,無需傳統的位置向量即可處理多達 8,192 個詞元的序列。該模型採用具有 161M 個參數的改進的 BERT 架構,結合了門控線性單元 (GLU) 和專門的層規範化技術。訓練遵循三個階段的過程:首先在海量文本語料庫上進行預訓練,然後使用精心挑選的文本對進行微調,最後進行硬負訓練以增強對相似但語義不同的內容的區分。這種方法與 768 維向量相結合,使模型能夠捕捉細微的語義關係,同時保持計算效率。

性能

在綜合基準評估中,該模型表現出卓越的能力,特別是在跨語言檢索任務中,儘管其規模只有 E5 和 BGE-M3 等大型多語言模型的 15-30%,但其表現卻優於後者。該模型在檢索和聚類任務中表現出色,在跨語言匹配語義等效內容方面表現出色。在 MTEB 基準測試中,它在分類、聚類和語義相似性等各種任務中表現出色。8,192 個詞元的擴展上下文窗口對於長文檔處理尤其有價值,即使文檔跨越多頁,也能表現出一致的性能——這是大多數競爭模型所缺乏的能力。

最佳實踐

為了有效利用該模型,組織應確保能夠訪問支持 CUDA 的 GPU 基礎架構以獲得最佳性能。該模型與主要的矢量數據庫和 RAG 框架(包括 MongoDB、Qdrant、Weaviate 和 Haystack)無縫集成,使其可輕鬆部署到生產環境中。它在雙語文檔搜索、內容推薦系統和跨語言文檔分析等應用中表現出色。雖然該模型表現出色,但它特別針對西班牙語-英語雙語場景進行了優化,可能不是單語應用或涉及其他語言對的場景的最佳選擇。為了獲得最佳效果,輸入文本應以西班牙語或英語正確格式化,但該模型可以有效處理混合語言內容。該模型支持針對特定領域的應用程序進行微調,但應仔細考慮訓練數據的質量和分佈。
提及此模型的博客
四月 29, 2024 • 7 分鐘的讀取量
Jina Embeddings 和 Reranker 在 Azure 上的應用:可擴展的企業級 AI 解決方案
Jina Embeddings 和 Rerankers 現已在 Azure Marketplace 上架。重視隱私和安全的企業現在可以輕鬆地將 Jina AI 的最先進模型整合到其現有的 Azure 生態系統中。
Susana Guzmán
Futuristic black background with a purple 3D grid, featuring the "Embeddings" and "Reranker" logos with a stylized "A".
二月 14, 2024 • 4 分鐘的讀取量
此可使用西班牙語:頂級西班牙語-英語 Embeddings 與 8k 上下文
Jina AI 的新型西班牙語-英語雙語嵌入模型,為全球五億西班牙語使用者帶來最先進的 AI 技術。
Jina AI
Digital wireframe rendering of a Gothic-style cathedral, with colorful outlines and pointed spires on a dark background.
辦公室
location_on
加利福尼亞州桑尼維爾
710 Lakeway Dr, Ste 200, 桑尼維爾, CA 94085, 美國
location_on
德國柏林(總部)
Prinzessinnenstraße 19-20,10969 柏林,德國
location_on
中國北京
中國北京市海淀區西大街48號6號樓5層
location_on
中國深圳
中國深圳市賦安科技大廈4樓402
搜索底座
讀取器
向量模型
重排器
深度搜索
分類器
切分器
API 文檔
獲取 Jina API 密鑰
速率限制
API 狀態
公司
關於我們
聯繫銷售
新聞
實習生計劃
加入我們
open_in_new
下載Logo
open_in_new
條款
安全
條款及條件
隱私
管理 Cookie
email
Jina AI © 2020-2025.