jina-embeddings-v2-base-es

此模型已被較新的模型棄用。

向量模型

發行説明

jina-embeddings-v2-base-es

支持西英雙語的 8K 最佳向量模型

許可證

Apache-2.0

發佈日期

2024-02-14

輸入

文本

輸出

向量

模型詳細信息

參數: 161M

輸入詞元長度: 8K

輸出維度: 768

語言支持

🇺🇸 英語

🇪🇸 Español

相關模型

jina-embeddings-v2-base-en

jina-embeddings-v2-base-de

jina-embeddings-v2-base-zh

標籤

spanish

bilingual

long-context

8k-context

bert-based

production-ready

semantic-search

cross-lingual

text-embeddings

fine-tunable

可通過以下方式獲取

Jina API 亞馬遜雲微軟雲抱抱臉

選擇要比較的模型

jina-embeddings-v2-base-es

jina-embeddings-v2-base-en

jina-embeddings-v2-base-de

jina-embeddings-v2-base-zh

論文 (1)

arXiv

二月 26, 2024

Multi-Task Contrastive Learning for 8192-Token Bilingual Text Embeddings

概述

Jina Embeddings v2 Base Spanish 是一種突破性的雙語文本向量模型，可解決西班牙語和英語內容之間的跨語言信息檢索和分析這一關鍵挑戰。與通常偏向特定語言的傳統多語言模型不同，該模型在西班牙語和英語之間實現了真正平衡的性能，對於在西班牙語市場運營或處理雙語內容的組織來説，它是必不可少的。該模型最引人注目的特點是它能夠生成幾何對齊的向量 - 當西班牙語和英語文本表達相同的含義時，它們的向量表示會自然地聚集在向量空間中，從而實現無縫的跨語言搜索和分析。

方法

該模型的核心是基於對稱雙向 ALiBi（具有線性偏差的注意力機制）的創新架構，這是一種複雜的方法，無需傳統的位置向量即可處理多達 8,192 個詞元的序列。該模型採用具有 161M 個參數的改進的 BERT 架構，結合了門控線性單元 (GLU) 和專門的層規範化技術。訓練遵循三個階段的過程：首先在海量文本語料庫上進行預訓練，然後使用精心挑選的文本對進行微調，最後進行硬負訓練以增強對相似但語義不同的內容的區分。這種方法與 768 維向量相結合，使模型能夠捕捉細微的語義關係，同時保持計算效率。

性能

在綜合基準評估中，該模型表現出卓越的能力，特別是在跨語言檢索任務中，儘管其規模只有 E5 和 BGE-M3 等大型多語言模型的 15-30%，但其表現卻優於後者。該模型在檢索和聚類任務中表現出色，在跨語言匹配語義等效內容方面表現出色。在 MTEB 基準測試中，它在分類、聚類和語義相似性等各種任務中表現出色。8,192 個詞元的擴展上下文窗口對於長文檔處理尤其有價值，即使文檔跨越多頁，也能表現出一致的性能——這是大多數競爭模型所缺乏的能力。

最佳實踐

為了有效利用該模型，組織應確保能夠訪問支持 CUDA 的 GPU 基礎架構以獲得最佳性能。該模型與主要的矢量數據庫和 RAG 框架（包括 MongoDB、Qdrant、Weaviate 和 Haystack）無縫集成，使其可輕鬆部署到生產環境中。它在雙語文檔搜索、內容推薦系統和跨語言文檔分析等應用中表現出色。雖然該模型表現出色，但它特別針對西班牙語-英語雙語場景進行了優化，可能不是單語應用或涉及其他語言對的場景的最佳選擇。為了獲得最佳效果，輸入文本應以西班牙語或英語正確格式化，但該模型可以有效處理混合語言內容。該模型支持針對特定領域的應用程序進行微調，但應仔細考慮訓練數據的質量和分佈。

提及此模型的博客

四月 29, 2024 • 7 分鐘的讀取量

Jina Embeddings 和 Reranker 在 Azure 上的應用：可擴展的企業級 AI 解決方案

Jina Embeddings 和 Rerankers 現已在 Azure Marketplace 上架。重視隱私和安全的企業現在可以輕鬆地將 Jina AI 的最先進模型整合到其現有的 Azure 生態系統中。

二月 14, 2024 • 4 分鐘的讀取量

此可使用西班牙語：頂級西班牙語-英語 Embeddings 與 8k 上下文

Jina AI 的新型西班牙語-英語雙語嵌入模型，為全球五億西班牙語使用者帶來最先進的 AI 技術。