AI의 골칫덩이, 向量模型

벡터 모델은 AI의 미운 오리 새끼입니다. 이미지 생성만큼 매력적이지도 않고, LLM 챗봇만큼 헤드라인을 장식하지도 않으며, 인공 초지능 예측만큼 종말론적이지도 않은 시맨틱 벡터 모델은 난해하고 기술적이며, 일반 소비자는 직접적으로 사용할 일이 거의 없습니다.

벡터 모델은 의미론을 고차원 공간의 기하학적 관계로 변환하는 벡터입니다. 하지만 이 내용을 모르는 사람에게 말하면 금세 지루해하는 모습을 볼 수 있습니다.

그렇다고 해서 중요하지 않거나 혁명적이지 않다는 의미는 아닙니다. 텍스트의 의미론을 고차원 공간의 벡터로 표현하는 것은 1950년대부터 존재해 왔지만, 트랜스포머 아키텍처를 사용하는 신경망은 이를 음성, 이미지, 비디오 및 거의 모든 종류의 디지털 데이터로 확장했습니다. 지난 10년간의 전산 의미론의 질적 개선은 혁신적이었으며, 검색 엔진, 추천 알고리즘, 자동 분류기 및 의사 결정 시스템에 미치는 영향은 엄청났지만, 뉴스에 거의 나오지 않습니다.

과소평가된 이러한 혁명에서 간과되는 한 가지는 최근의 트랜스포머 기반 모델을 포함한 대부분의 신경망이 암묵적으로 벡터 모델이라는 점입니다. 대규모 언어 모델, 생성 이미지 모델 및 기계 번역 시스템은 모두 입력을 필수적인 의미론을 보존하는 고차원 벡터 공간으로 변환하여 작동합니다. 즉, 벡터 모델을 생성한 다음 이를 사용하여 출력을 생성합니다. 이러한 모델은 정보 검색 및 기타 목적을 위해 벡터 모델을 생성하도록 쉽게 용도를 변경할 수 있습니다.

이 글에서는 생성 언어 모델(예: LLM)을 사용하여 텍스트 벡터 모델을 생성하는 데 관련된 주요 문제와 이러한 작업을 통해 모델을 개선하는 방법에 대해 논의합니다.

tag인코더 및 디코더

“인코더”와 “디코더”라는 용어는 AI 모델 개발에서 많이 사용되지만, 종종 매우 혼란스러운 방식으로 사용됩니다. 이 용어는 전기 공학 및 정보 이론의 개념과 관련이 있으며, 신경망이 실제적이기보다는 이론적이었던 시대로 거슬러 올라갑니다.

원래 개념에서 인코더는 입력을 기계가 사용할 수 있는 형태로 변환하고, 디코더는 그 반대로 데이터를 보다 인간에게 유용한 것으로 변환합니다. 매우 추상적으로 보인다면 맞습니다. 이해를 돕기 위해 몇 가지 구체적인 예를 살펴보겠습니다.

기존 디지털 전자 제품(AI 아님)에서 인코더는 마이크로 캡처한 아날로그 사운드와 같은 풍부한 입력 소스를 컴퓨터 메모리, 물리적 디지털 미디어에 저장하거나 인터넷과 같은 디지털 네트워크를 통해 전송할 수 있는 이진 시퀀스로 변환하는 장치입니다.

벡터 모델과 생성 AI로 이어진 초기 작업의 상당 부분은 기계 번역 분야에서 이루어졌으며, 여기서 기본 아키텍처는 이 그림과 거의 일치했습니다.

벡터 모델은 벡터 모델을 생성하기 위한 어댑터가 추가된 인코더-디코더 기계 번역 모델의 “인코더” 절반으로 볼 수 있습니다.

그리고 생성 모델은 “디코더” 절반으로 볼 수 있습니다.

신경망 모델을 이런 식으로 생각하는 것은 매우 직관에 어긋날 수 있습니다. 데이터 모델링, 의미론 및 압축 간의 관계는 복잡하고 매우 추상적이지만 AI 모델을 이해하는 데 중요합니다. 인코더와 디코더 모델의 차이점은 아키텍처가 아니라 사용 방식에 있습니다.

tag트랜스포머 기반 인코더와 디코더는 동일합니다.

인코더와 디코더는 상당히 추상적인 개념이지만, 트랜스포머 기반 모델에 대해 이야기하는 경우 둘 다 거의 동일한 아키텍처를 가지고 있습니다.

아래 예는 생성 언어 모델과 텍스트 벡터 모델을 나타내지만, 약간의 변경만으로 다른 미디어 유형에도 동일하게 적용됩니다.

인코더 전용 모델과 디코더 전용 모델은 모두 텍스트를 입력으로 사용하고 토큰화를 적용한 다음 벡터화를 적용합니다. 즉, 사전에 있는 토큰을 찾고 각 토큰에 적절한 벡터를 대체한 다음 적절하게 패딩을 추가합니다. 결과는 모델의 나머지 부분에 대한 고정 길이 입력 벡터입니다.

디코더 전용 생성 언어 모델에서 이 입력 벡터는 트랜스포머 모델로 전달된 다음 출력을 하나 이상의 词元으로 변환하는 디코더 어댑터로 전달됩니다. 텍스트 생성 모델은 이러한 새 词元을 입력에 추가하고 다시 실행하여 추가 词元을 추가합니다.

토큰을 생성하는 디코더 장치 대신 인코더 장치가 벡터 모델을 생성한다는 점을 제외하고는 이 그림의 거의 모든 부분이 트랜스포머 기반 텍스트 벡터 모델 아키텍처와 공유됩니다.

둘의 주요 차이점은 근본적으로 아키텍처에 있는 것이 아니라 훈련 및 사용 방식에 있습니다.

생성 언어 모델은 일반적으로 단방향(또는 “인과적”)입니다. 즉, 이전 词元만 보고 다음 词元을 생성합니다. 벡터 모델은 일반적으로 양방향(또는 “비인과적”)입니다.

이것은 훈련 방식에 영향을 미칩니다. 생성 모델 훈련은 한 번에 하나의 词元씩 전달되는 텍스트 양으로부터 학습하여 이를 반영합니다. 벡터 모델은 일반적으로 “마스크 언어 모델링”(MLM) 기술을 사용하여 사전 훈련됩니다. 즉, 누락된 단어의 의미론적 표현을 생성하기 위해 간격 전후의 단어를 모두 살펴봅니다.

그럼에도 불구하고 원칙적으로 생성 LLM을 벡터 모델로 변환하는 것은 디코더 장치를 인코더로 바꾸고 새 사용에 맞게 미세 조정하는 것을 의미합니다.

그렇다면 왜 그렇게 하지 않을까요?

tag트랜스포머 기반 인코더와 디코더는 다릅니다.

연구자들은 생성 언어 모델을 텍스트 벡터 모델로 변환하지 않는 세 가지 큰 이유를 제시했지만, 각 이유에 대해 최근 의문이 제기되었습니다.

양방향(“비인과적”) 어텐션이 단방향(“인과적”) 어텐션보다 낫습니다.

획기적인 BERT 모델 이후로 단순히 더 많은 정보를 사용할 수 있기 때문에 양방향 어텐션이 단방향 어텐션보다 낫다고 당연하게 여겨왔습니다. 모델은 词元을 이전 단어의 컨텍스트뿐만 아니라 전체 컨텍스트에서 볼 수 있습니다.

그러나 최근 연구(Wang et al. 2023, Gisserot-Boukhlef et al. 2025)에서는 살펴보고 있는 요소에 따라 양방향 사전 훈련과 단방향 사전 훈련 간에 결과에 큰 차이가 없지만 각각에 약간의 이점이 있음을 시사합니다.

생성 LLM은 차원의 저주로 인해 일반화에 좋지 않습니다.

LLM은 훌륭한 벡터 모델이 되도록 설계되지 않았습니다. 내부 벡터 표현(숨겨진 레이어)은 일반적으로 벡터 모델이 가질 수 있는 차원보다 훨씬 더 많은 차원을 가지고 있습니다. 모델이 너무 커서 큰 의미론적 공간이 컴팩트한 표현을 포함할 필요가 없기 때문에 일반화에 실패할 수 있습니다.

이 문제는 때때로 차원의 저주라고 하며, 신경망을 괴롭힙니다.

💡

Lee et al. (2024)은 LLM과 向量模型에서 차원의 저주에 대해 논합니다. Altman & Krzywinski (2018)는 “빅 데이터”에 대한 문제를 다루지만, 이 아이디어는 통계 모델링의 Hugues (1968)와 동적 프로그래밍의 Bellman (1957)으로 거슬러 올라갑니다.

向量模型과 달리 생성 언어 모델은 상대 평가를 받습니다. 생성 모델은 이러한 내부 向量模型 벡터를 직접 사용하지 않고, 벡터를 词元으로 다시 변환하여 생성된 언어를 사용합니다. 모델이 유창하고 일관성 있게 말하는 것처럼 보이면 높은 순위를 매깁니다. 반면에 向量模型 모델은 올바른 일반화를 요구하는 실제 작업을 수행해야 합니다. 따라서 차원의 저주는 생성 모델에는 그다지 중요하지 않지만 向量模型 모델에는 치명적인 것으로 보입니다.

그러나 최근 생성 언어 모델은 차원의 저주를 어느 정도 벗어났습니다. 100억 개 미만의 파라미터를 가진 고성능 생성 小模型(SLM)이 이제는 매우 흔하며, 向量模型에 대한 관심보다는 더 작고 효율적인 언어 모델을 갖고 싶어하는 동기가 더 크지만, 이를 활용하여 더 나은 모델을 구축할 수 있습니다.

사람들이 이미 시도했지만 결과가 좋지 않았습니다.

向量模型 모델과 생성 모델의 이중성은 새로운 것이 아니지만, 생성 모델에서 파생된 向量模型 모델은 일반적으로 성능이 비슷한 向量模型 모델보다 훨씬 큽니다. OpenAI는 2022년에 GPT-3를 向量模型에 맞게 조정했지만 약 1,750억 개의 파라미터에도 불구하고 10억 개 미만의 파라미터를 가진 MLM 훈련 向量模型 모델과 거의 동일한 성능을 보입니다.

그러나 NVIDIA가 70억 파라미터 Mistral-7B SLM에서 파생시킨 NV-Embed 모델 제품군은 표준 向量模型 벤치마크에서 최첨단 성능을 달성했습니다. 이는 생성 언어 모델을 조정하는 것이 실제로 매우 효과적일 수 있다는 충분한 증거입니다.

tag생성 모델 조정의 이점

디코더 스타일의 생성 언어 모델을 인코더 스타일의 向量模型에 용도 변경하는 것은 단점이 없을 수도 있지만, 적어도 이론상으로는 장점도 없는 것으로 보입니다. 그러나 실제로는 몇 가지 실질적인 이점이 있습니다.

첫째, 생성 언어 모델은 AI의 매력적인 부분이기 때문에 많은 연구와 자금의 초점이 됩니다. 생성 언어 모델에서 파생된 向量模型 모델은 추가 비용을 거의 들이지 않고도 추가적인 관심과 노력을 활용할 수 있습니다. 사전 훈련된 모델을 최적화하는 데 사용되는 대조 학습 미세 조정에 비해 새로운 向量模型 모델을 처음부터 개발하고 훈련하는 것은 비용이 많이 드는 작업이므로 순전히 경제적인 이점이 상당히 큽니다.

예를 들어 최근에 출시된 모델 jina-code-embeddings-1.5b 및 jina-code-embeddings-0.5b는 코드 생성 백본, 특히 Qwen2.5-Coder-1.5B 및 Qwen2.5-Coder-0.5B를 기반으로 한 최초의 코드 向量模型 모델입니다. 복잡하고 비용이 많이 드는 사전 훈련을 수행하는 대신 우수한 向量模型을 위해 훈련하는 데 모든 노력을 집중할 수 있었기 때문에 向量模型 성능을 상당히 향상시켰습니다.

둘째, 생성 모델의 기능을 새로운 도메인으로 이전할 수 있습니다.

jina-embeddings-v4 모델이 바로 그 예입니다. 이 모델은 38억 파라미터의 비전-언어 모델인 Qwen2.5-VL-3B-Instruct를 멀티모달 向量模型에 맞게 조정합니다. 다이어그램, 스크린샷 및 기타 시각적 문서 이미지 입력에 대한 向量模型 모델로서의 뛰어난 성능은 생성 모델의 기존 자연어 이해 능력에 의존합니다. 처음부터 언어를 이해하고 이미지에서 인쇄된 텍스트를 구문 분석한 다음 우수한 向量模型을 생성하도록 모델을 훈련하는 대신, 기존 이미지 向量模型 모델과 생성 언어 모델에서 지식을 이전하여 向量模型 작업을 위한 대조 학습에 집중할 수 있었습니다.

tag向量模型이 작업을 완료합니다.

다른 모든 조건이 동일하다면 생성 언어 모델을 向量模型 모델의 백본으로 사용하는 데 명확한 이점은 없습니다. 텍스트 向量模型 모델을 처음부터 구축해야 하는 경우 양방향 또는 단방향 사전 훈련을 사용하는 것이 큰 차이가 없는 것 같습니다. 데이터 품질, 작업 전문화 및 向量模型 품질을 위한 미세 조정에 투자하는 것이 훨씬 더 중요합니다.

그러나 다른 모든 조건이 동일하지는 않습니다.

向量模型 모델은 생성 언어 모델이 받는 자금 지원을 받지 못하며, 해당 모델을 백본으로 사용하면 사전 훈련에 투입한 리소스로 인해 더 나은 向量模型 모델을 만드는 데 더 많은 노력을 기울일 수 있습니다.

向量模型은 생성형 AI가 매우 유명한 인상적인 데모가 없기 때문에 특별한 문제에 직면합니다. 대신 정확성, 품질 및 비용이 모든 것을 좌우하는 중요하고 실제로 존재하는 사용 사례가 있습니다. 정보 검색, 분류 작업, 추천 시스템, 스팸 및 사기 탐지, 콘텐츠 조정 — 이 모든 것이 向量模型 모델이 현재 수행하고 있는 실제 작업입니다.

向量模型은 그다지 매력적이지 않지만 작업을 완료합니다. 따라서 AI의 매력적인 측면에서 자금 지원이 더 잘 된 작업을 약간이라도 덜 매력적인 측면으로 재할당할 수 있다면 충분히 공정해 보입니다.