
오늘 우리는 jina-reranker-m0를 공개합니다. 이는 여러 언어에 걸친 시각적 문서 랭킹을 위한 새로운 다국어 멀티모달 리랭커 모델입니다. 이 모델은 쿼리와 함께 텍스트, 그림, 표, 인포그래픽 및 다양한 레이아웃을 포함하는 시각적으로 풍부한 문서 이미지 컬렉션을 29개 이상의 언어로 처리할 수 있습니다. 입력 쿼리에 대한 관련성에 따라 문서의 순위가 매겨진 목록을 출력합니다. jina-reranker-v2-base-multilingual와 비교하여, jina-reranker-m0는 다국어 콘텐츠, 긴 문서, 코드 검색 작업에 대한 텍스트 리랭킹도 개선했습니다.


tag새로운 아키텍처
jina-reranker-v2-base-multilingual와 달리, jina-reranker-m0는 기존의 크로스 인코더 아키텍처에서 디코더 전용 비전 언어 모델로 전환했습니다. Qwen2-VL의 사전 학습된 비전 인코더와 프로젝터를 활용하고, LoRA로 LLM을 미세 조정했으며, 쿼리-문서 관련성을 측정하는 랭킹 로짓을 생성하기 위해 MLP를 후속 학습했습니다. 이는 랭킹 작업에 최적화된 판별 모델을 제공합니다.
jina-reranker-m0 | jina-reranker-v2 |
|
---|---|---|
아키텍처 | Vision Language Model | Cross-Encoder |
기본 모델 | Qwen2-VL-2B | Jina-XLM-RoBERTa |
매개변수 | 2.4 B | 278 M |
최대 컨텍스트 길이 (쿼리 + 문서) | 10,240 | 8,192 |
최대 이미지 패치 (동적 해상도) | 768 × 28 × 28 | ❌ |
다국어 지원 | ✅ | ✅ |
지원 작업 | Text2Text, Text2Image, Image2Text, Text2Mixed | Text2Text |
이 새로운 아키텍처를 통해 jina-reranker-m0는 최대 32K 토큰을 처리할 수 있으며, 시각적 및 텍스트 입력을 원활하게 결합할 수 있습니다. 이 모델은 최소 56×56 픽셀에서 4K 해상도까지의 이미지를 지원합니다. 이미지를 처리할 때, ViT와 프로젝터는 인접한 2×2 토큰을 LLM 입력을 위한 단일 시각적 토큰으로 압축합니다. <|vision_start|>
와 <|vision_end|>
와 같은 특수 토큰은 시각적 토큰 경계를 명확히 표시하여, 언어 모델이 시각적 정보를 적절히 처리하고 시각적 및 텍스트 요소를 통합하는 정교한 멀티모달 추론을 수행할 수 있게 합니다.
이 아키텍처는 또한 jina-clip-v1과 jina-clip-v2와 같은 이전 모델들을 괴롭혔던 모달리티 갭 문제를 효과적으로 해결합니다. 이전에는 이미지는 다른 이미지 근처에 클러스터링되고 텍스트는 다른 텍스트 근처에 클러스터링되어 표현 공간에서 단절이 발생했습니다. 이는 후보 문서에 이미지와 텍스트가 모두 포함되어 있을 때 텍스트 쿼리를 사용하여 이미지를 검색하는 것이 문제가 된다는 것을 의미했습니다. jina-reranker-m0를 사용하면 이제 이 갭에 대해 걱정할 필요 없이 이미지와 문서의 순위를 함께 매길 수 있어 진정으로 통합된 멀티모달 검색 경험을 만들 수 있습니다.
우리의 학습은 최대 10K 입력 토큰으로 제한되었으며, 이미지당 최대 768 토큰(<|vision_start|>
와 <|vision_end|>
마커 사이)을 사용했다는 점을 주목할 만합니다. 또한 우리는 image-to-image
, image-to-multimodal
, 또는 text-to-multimodal
리랭킹 작업을 위한 특별한 학습을 하지 않았습니다. 여기서 "멀티모달"은 입력에서 이미지와 텍스트 토큰을 모두 포함하는 단일 문서를 의미합니다. 쿼리와 문서에서 가능한 모든 이미지 및 텍스트 토큰의 조합을 살펴보면, jina-reranker-m0가 지원하는 전체 작업 범위를 아래 표에 요약할 수 있습니다.

테스트에서 모델이 이러한 학습되지 않은 순위 지정 작업으로 확장될 수 있다는 몇 가지 증거를 발견했지만, 이러한 영역에서의 효과는 모델의 제로샷 전이성이나 의도하지 않은 학습 부작용의 결과로 보아야 합니다. 우리는 이러한 작업에 대한 모델의 성능을 심각하게 평가하지 않았으며, 향후 연구에서 이러한 기능을 더 철저히 탐구할 계획입니다.
tag시작하기
tagAPI를 통해
아래 코드는 쿼리 "small language model data extraction"
와 이미지 및 텍스트 문서 컬렉션 간의 관련성 점수를 계산하는 방법을 보여줍니다. 텍스트 문자열, base64로 인코딩된 이미지 또는 이미지 URL을 전달할 수 있습니다. 신규 사용자는 100만 개의 무료 토큰이 포함된 Jina API 키를 받을 수 있습니다. API는 이미지를 쿼리로 사용하는 것을 지원하지 않지만, Hugging Face Transformers 라이브러리를 통해 모델에 접근할 때는 이미지를 쿼리로 사용할 수 있습니다.
curl -X POST \
https://api.jina.ai/v1/rerank \
-H "Content-Type: application/json" \
-H "Authorization: Bearer JINA_API_KEY" \
-d '{
"model": "jina-reranker-m0",
"query": "small language model data extraction",
"documents": [
{
"image": "https://raw.githubusercontent.com/jina-ai/multimodal-reranker-test/main/handelsblatt-preview.png"
},
{
"image": "https://raw.githubusercontent.com/jina-ai/multimodal-reranker-test/main/paper-11.png"
},
{
"image": "https://raw.githubusercontent.com/jina-ai/multimodal-reranker-test/main/wired-preview.png"
},
{
"text": "We present ReaderLM-v2, a compact 1.5 billion parameter language model designed for efficient web content extraction. Our model processes documents up to 512K tokens, transforming messy HTML into clean Markdown or JSON formats with high accuracy -- making it an ideal tool for grounding large language models. The models effectiveness results from two key innovations: (1) a three-stage data synthesis pipeline that generates high quality, diverse training data by iteratively drafting, refining, and critiquing web content extraction; and (2) a unified training framework combining continuous pre-training with multi-objective optimization. Intensive evaluation demonstrates that ReaderLM-v2 outperforms GPT-4o-2024-08-06 and other larger models by 15-20% on carefully curated benchmarks, particularly excelling at documents exceeding 100K tokens, while maintaining significantly lower computational requirements."
},
{
"image": "https://jina.ai/blog-banner/using-deepseek-r1-reasoning-model-in-deepsearch.webp"
},
{
"text": "数据提取么?为什么不用正则啊,你用正则不就全解决了么?"
},
{
"text": "During the California Gold Rush, some merchants made more money selling supplies to miners than the miners made finding gold."
},
{
"text": "Die wichtigsten Beiträge unserer Arbeit sind zweifach: Erstens führen wir eine neuartige dreistufige Datensynthese-Pipeline namens Draft-Refine-Critique ein, die durch iterative Verfeinerung hochwertige Trainingsdaten generiert; und zweitens schlagen wir eine umfassende Trainingsstrategie vor, die kontinuierliches Vortraining zur Längenerweiterung, überwachtes Feintuning mit spezialisierten Kontrollpunkten, direkte Präferenzoptimierung (DPO) und iteratives Self-Play-Tuning kombiniert. Um die weitere Forschung und Anwendung der strukturierten Inhaltsextraktion zu erleichtern, ist das Modell auf Hugging Face öffentlich verfügbar."
}
],
"return_documents": false
}'
아래는 응답 결과입니다. 첫 번째 결과 index=1
는 ReaderLM-v2 논문 스크린샷에 해당합니다.
{"model":"jina-reranker-m0","usage":{"total_tokens":2829},"results":[{"index":1,"relevance_score":0.9587112551898949},{"index":3,"relevance_score":0.9337408271911014},{"index":7,"relevance_score":0.8922925217195924},{"index":2,"relevance_score":0.8891905997562045},{"index":0,"relevance_score":0.8827516945848907},{"index":4,"relevance_score":0.8701035914834407},{"index":6,"relevance_score":0.8676828987527296},{"index":5,"relevance_score":0.8455347349164652}]}
tagCSP 마켓플레이스를 통해
jina-reranker-m0는 곧 AWS, Azure 및 GCP에서 해당 플랫폼에 명시된 가격으로 직접 이용할 수 있습니다.
tagHuggingFace를 통해
Hugging Face 페이지에서 로컬로 모델을 사용할 수도 있습니다. 작동 방식을 보여주는 Google Colab 노트북을 준비했습니다. 웹 API와 비교하여 로컬에서 모델을 사용하면 이미지를 쿼리로 사용하고 멀티모달 문서로 작업하는 등 더 큰 유연성을 제공합니다.

tag평가
전체 평가 결과는 이 Google Spreadsheet에서 확인할 수 있습니다.
tagBEIR (텍스트-텍스트, 영어만)

BEIR는 IR 모델의 다양성과 견고성을 평가하기 위해 설계된 이질적인 정보 검색 벤치마크입니다. 다양한 도메인의 데이터셋을 포함하고 있으며 제로샷 평가에 중점을 둡니다. NDCG, Recall@K, MRR과 같은 표준화된 평가 지표가 사용됩니다.
Model | AVG (NDCG@10) | TREC-COVID | NFCorpus | NQ | HotpotQA | FiQA | ArguAna | Touche-2020 | DBPedia | SCIDOCS | FEVER | Climate-FEVER | SciFact | Quora |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
jina-reranker-m0 | 58.95 | 84.17 | 41.03 | 72.25 | 76.99 | 51.62 | 40.69 | 31.79 | 49.34 | 22.91 | 91.14 | 36.42 | 79.94 | 88.01 |
jina-embeddings-v3 (1024 tokens) | 55.81 | 77.81 | 36.65 | 64.31 | 64.63 | 47.47 | 54.31 | 26.55 | 41.07 | 19.91 | 89.00 | 42.33 | 72.4 | 89.06 |
bge-reranker-v2-m3 | 56.51 | 82.19 | 34.33 | 69.52 | 77.89 | 45.45 | 36.21 | 33.12 | 46.72 | 17.79 | 91.03 | 38.69 | 72.64 | 89.10 |
jina-reranker-v2-multilingual | 57.06 | 80.53 | 37.17 | 67.39 | 76.17 | 46.48 | 39.28 | 32.35 | 47.81 | 20.03 | 93.02 | 37.17 | 76.50 | 87.83 |
tagMIRACL (Text2Text, 다국어, 18개 언어)

MIRACL은 18개 언어에 걸친 대규모 다국어 애드혹 정보 검색 데이터셋입니다. 30억 명 이상의 원어민 화자를 포함하며 철저한 인간 주석이 특징입니다. 단일어 검색 작업에 중점을 두고 있습니다.
Model | AVG (NDCG@10) | ar | bn | en | es | fa | fi | fr | hi | id | ja | ko | ru | sw | te | th | zh | de | yo |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
jina-reranker-m0 | 66.75 | 79.78 | 78.01 | 59.21 | 53.56 | 58.80 | 78.00 | 56.66 | 62.83 | 54.92 | 66.51 | 72.86 | 67.26 | 59.04 | 70.19 | 80.37 | 64.51 | 58.50 | 80.44 |
jina-embeddings-v3 (8192 tokens) | 58.90 | 71.53 | 69.86 | 48.37 | 46.91 | 54.13 | 71.15 | 50.90 | 55.05 | 47.83 | 56.46 | 64.76 | 55.63 | 54.07 | 70.48 | 73.56 | 55.29 | 49.18 | 65.01 |
bge-reranker-v2-m3 | 69.32 | 80.51 | 81.85 | 57.67 | 57.64 | 61.92 | 80.38 | 59.60 | 67.66 | 58.86 | 67.37 | 75.14 | 67.61 | 68.92 | 76.69 | 82.29 | 64.46 | 58.32 | 80.85 |
jina-reranker-v2-multilingual | 63.65 | 72.50 | 79.42 | 46.66 | 51.54 | 57.81 | 73.05 | 50.90 | 60.94 | 56.66 | 59.15 | 72.60 | 53.43 | 66.47 | 74.62 | 77.75 | 62.49 | 53.06 | 76.69 |
tagMLDR (Text2Text, 다국어 긴 문서, 13개 언어)

MLDR은 장문 문서 검색을 위해 특별히 설계된 다국어 데이터셋으로, 13개 언어를 지원합니다. GPT-3.5를 사용하여 문서에 대한 질문을 생성합니다. 이 데이터셋은 Wikipedia, Wudao 및 mC4를 기반으로 구축되었습니다.
Model | AVG (NDCG@10) | ar | de | en | es | fr | hi | it | ja | ko | pt | ru | th | zh |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
jina-reranker-m0 | 59.83 | 55.86 | 51.25 | 54.67 | 87.63 | 82.59 | 32.76 | 73.25 | 58.93 | 55.73 | 86.08 | 66.73 | 39.17 | 33.14 |
jina-embeddings-v3 (8192 tokens) | 39.71 | 28.44 | 31.57 | 29.07 | 62.08 | 59.79 | 25.47 | 53.72 | 38.36 | 32.37 | 63.26 | 49.65 | 25.15 | 17.26 |
bge-reranker-v2-m3 | 53.53 | 49.19 | 45.39 | 43.92 | 74.57 | 68.67 | 44.75 | 62.79 | 49.27 | 48.24 | 76.45 | 62.84 | 38.82 | 31.02 |
jina-reranker-v2-multilingual | 59.50 | 51.96 | 50.13 | 46.85 | 86.34 | 82.25 | 49.50 | 69.00 | 59.07 | 52.19 | 85.26 | 68.06 | 38.73 | 34.15 |
tagMKQA (Text2Text, 다국어 질의응답, 24개 언어, 중국어 3가지 변형)

MKQA는 Google Natural Questions에서 추출한 10k개의 질문-답변 쌍을 26개의 유형학적으로 다양한 언어로 정렬한 오픈 도메인 질문 답변 평가 세트입니다.
Model | AVG (recall@10) | ar | da | de | es | en | fi | fr | he | hu | it | ja | km | ko | ms | nl | no | pl | pt | ru | sv | th | tr | vi | zh_cn | zh_hk | zh_tw |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
jina-reranker-m0 | 68.19 | 63.88 | 70.57 | 70.52 | 71.26 | 73.47 | 64.10 | 71.11 | 63.68 | 63.23 | 70.30 | 69.13 | 50.43 | 64.30 | 70.78 | 71.73 | 70.25 | 69.72 | 70.57 | 70.78 | 70.69 | 69.80 | 67.90 | 69.68 | 69.12 | 68.23 | 67.79 |
jina-embeddings-v3 (8192 tokens) | 65.63 | 59.00 | 69.12 | 68.27 | 68.15 | 71.14 | 65.66 | 68.30 | 59.51 | 63.23 | 68.30 | 64.36 | 56.13 | 58.98 | 68.30 | 69.53 | 68.65 | 67.26 | 67.93 | 67.06 | 68.68 | 66.32 | 66.97 | 66.87 | 63.38 | 63.59 | 61.55 |
bge-reranker-v2-m3 | 67.88 | 63.09 | 70.15 | 68.91 | 68.92 | 73.00 | 68.71 | 68.71 | 70.27 | 64.00 | 68.15 | 68.47 | 60.43 | 63.95 | 68.80 | 70.77 | 69.10 | 67.44 | 67.40 | 69.77 | 70.03 | 69.68 | 66.04 | 68.29 | 67.84 | 66.70 | 66.34 |
jina-reranker-v2-multilingual | 67.90 | 63.88 | 70.31 | 70.09 | 70.51 | 73.09 | 67.50 | 70.38 | 63.00 | 64.59 | 69.90 | 67.34 | 57.79 | 62.14 | 70.36 | 71.58 | 69.51 | 68.61 | 70.13 | 70.07 | 70.15 | 68.80 | 68.02 | 69.39 | 67.23 | 65.77 | 65.37 |
tagCoIR (Text2Text, 코드 정보 검색)

CoIR은 코드 검색에서 모델의 성능을 평가하기 위해 설계된 종합적인 벤치마크입니다. 7개의 다양한 도메인에 걸쳐 8개의 검색 작업을 포함하는 10개의 큐레이트된 코드 데이터셋을 포함합니다. 이 벤치마크를 위한 Python 프레임워크가 제공됩니다.
Model Name | Avg (NDCG@10) | Text-to-Code | Code-to-Text | Code-to-Code | Hybrid Code | ||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Apps | CosQA | SQL | CSN | CSN-CCR | CodeTransOcean | StackOver Flow |
CodeFeedBack | ||||||||||||||||
AVG | python | javascript | go | ruby | java | php | AVG | python | javascript | go | ruby | java | php | -Contest | -DL | -MT | -ST | ||||||
jina-reranker-m0 | 63.55 | 26.21 | 37.75 | 57.92 | 80.76 | 98.37 | 71.16 | 86.14 | 72.74 | 79.02 | 77.14 | 74.57 | 81.66 | 77.92 | 68.71 | 75.44 | 77.54 | 66.13 | 79.79 | 31.89 | 90.41 | 72.25 | 83.95 |
jina-embeddings-v2-base-code (top 100) |
56.90 | 16.34 | 41.72 | 49.79 | 83.95 | 94.71 | 76.35 | 87.39 | 78.23 | 82.69 | 84.35 | 59.65 | 68.23 | 62.31 | 49.15 | 65.40 | 63.89 | 48.92 | 79.20 | 30.35 | 89.42 | 49.62 | 68.93 |
bge-reranker-v2-m3 | 35.97 | 8.33 | 30.06 | 50.63 | 49.26 | 67.62 | 39.55 | 58.11 | 41.37 | 44.77 | 44.13 | 40.81 | 42.57 | 42.75 | 38.04 | 38.04 | 41.73 | 41.73 | 34.93 | 5.09 | 60.12 | 16.44 | 64.05 |
jina-reranker-v2-multilingual | 56.14 | 21.90 | 37.26 | 53.56 | 78.88 | 97.83 | 67.43 | 84.64 | 68.93 | 75.73 | 78.71 | 63.59 | 72.62 | 67.80 | 55.07 | 67.25 | 64.25 | 54.54 | 73.67 | 25.74 | 91.24 | 42.03 | 73.59 |
tagViDoRe (텍스트-이미지 변환, 시각적 문서 검색 벤치마크)

ViDoRe는 시각적 특징을 사용하여 쿼리를 관련 문서에 매칭하는 검색 시스템의 능력을 평가하기 위해 설계된 벤치마크입니다. 여러 도메인과 언어에 걸쳐 다양한 페이지 수준의 검색 작업을 다룹니다. 이 벤치마크는 문서의 시각적 요소에 중점을 둡니다.
Model Name | AVG (NDCG@5) |
TAT-DQA | Shift Project |
Artificial Intelligence |
Government Reports |
ArxivQA | DocVQA | Healthcare Industry |
InfoVQA | Energy | TabFQuad |
---|---|---|---|---|---|---|---|---|---|---|---|
jina-reranker-m0 | 91.02 | 81.83 | 93.22 | 99.63 | 97.59 | 89.82 | 62.58 | 99.26 | 92.88 | 96.06 | 97.32 |
MrLight/dse-qwen2-2b-mr1-v1 | 84.48 | 66.64 | 79.39 | 96.45 | 95.30 | 84.53 | 55.47 | 96.85 | 86.39 | 91.80 | 92.03 |
MonoQwen2-VL-v0.1 | 87.64 | 79.50 | 76.38 | 98.39 | 93.63 | 89.50 | 57.47 | 98.39 | 92.12 | 95.29 | 95.75 |
tagM-BEIR (Text2Image,Image2Text,멀티모달 지시 검색을 위한 벤치마크)

M-BEIR은 멀티모달 검색 모델을 훈련하고 평가하기 위해 설계된 포괄적인 대규모 검색 벤치마크입니다. 다양한 도메인과 소스에서 가져온 8가지 멀티모달 검색 작업과 10개의 데이터셋으로 구성되어 있습니다. 이 벤치마크는 지시사항을 따르는 검색에 중점을 둡니다.
Model | MBEIR t2i VisualNews Recall@5 |
MBEIR t2i MSCOCO Recall@5 |
MBEIR t2i Fashion200K Recall@10 |
MBEIR i2t VisualNews Recall@5 |
MBEIR i2t MSCOCO Recall@5 |
MBEIR i2t Fashion200K Recall@10 |
---|---|---|---|---|---|---|
jina-reranker-m0 | 23.89 | 72.19 | 9.79 | 17.61 | 41.21 | 11.56 |
jinaai/jina-clip-v2 | 15.42 | 52.28 | 7.03 | 11.63 | 28.80 | 8.78 |
MonoQwen2-VL-v0.1 | 22.74 | 71.29 | 10.00 | 15.08 | 42.24 | 11.25 |
tagWinoground (Text2Text,Text2Image)

Winoground는 시각 및 언어 모델의 시각-언어적 조합 추론 능력을 평가하기 위한 새로운 과제와 데이터셋입니다. 동일한 단어 내용을 가진 쌍둥이 캡션을 사용하고 대조적인 이미지-캡션 쌍을 활용합니다. 조합적 추론에 초점을 맞추고 있습니다.
Model | Text | Image | Group | Avg |
---|---|---|---|---|
jina-reranker-m0 | 57.00 | 40.75 | 34.00 | 43.92 |
MrLight/dse-qwen2-2b-mrl-v1 | 7.50 | 9.25 | 1.75 | 6.17 |
MonoQwen2-VL-v0.1 | 52.00 | 36.25 | 31.50 | 39.92 |
Winoground는 세 가지 주요 지표를 사용하여 시각-언어 모델을 평가합니다: Text Score, Image Score, Group Score입니다. Text Score는 모델이 캡션을 이미지와 올바르게 매칭하는지 측정하고, Image Score는 캡션에 대해 올바른 이미지를 선택하는지 평가합니다. 가장 엄격한 지표인 Group Score는 모든 캡션-이미지 관계가 올바르게 식별되어야 합니다. 점수는 정확도를 나타내는 백분율로, 높은 값일수록 더 나은 추론 능력을 나타냅니다.
tag결론
jina-reranker-m0는 텍스트와 시각적 모달리티를 단일 디코더 전용 모델로 통합하려는 우리의 첫 시도입니다. 이 새로운 아키텍처는 jina-clip-v2, jina-embeddings-v3, jina-reranker-v2-base-multilingual 및 jina-embeddings-v2-base-code를 포함한 이전의 인코더 전용 검색 모델에서 얻은 교훈을 반영합니다.
새로운 모델은 텍스트-이미지 재순위화 및 시각적 문서 재순위화와 같은 멀티모달 검색 작업에 대한 기능을 제공할 뿐만 아니라, 텍스트-텍스트 및 텍스트-코드 재순위화 작업에서 jina-reranker-v2-base-multilingual보다 향상된 성능을 보여줍니다. 우리는 이 새로운 모델 시리즈를 멀티모달 특성을 강조하기 위해 "m-시리즈"로 지정합니다.
jina-reranker-m0를 jina-reranker-v2-base-multilingual와 비교할 때, m-시리즈의 목표는 텍스트 전용 작업에서 전문화된 텍스트 전용 모델과 비슷한 수준의 성능을 개선하면서 멀티모달리티를 달성하는 것입니다. 텍스트 전용 작업에서의 성능 향상이 미미해 보이는데 8배 더 큰 모델을 사용하는 것이 의미가 있는지 의문을 제기할 수 있습니다. 현재로서는 텍스트 전용 애플리케이션에서 m0
가 v2
보다 실질적인 부가가치를 제공하지 않을 수 있지만, 디코더 전용 아키텍처는 인코더 전용 아키텍처로는 달성할 수 없었던 많은 새로운 가능성을 제공합니다. 여기에는 다음이 포함됩니다:
- 진정한 혼합 모달리티 재순위화
- 리스트 방식 재순위화 및 문서 중복 제거
- 어텐션 메커니즘을 통한 순위 점수 설명 가능성
우리의 향후 작업은 텍스트 전용 재순위화 기능을 더욱 개선하고 이 멀티모달 아키텍처가 제공하는 새로운 기능을 충분히 활용하여 더 나은 그리고 더 폭넓은 검색을 달성하는 데 초점을 맞출 것입니다.