
현재 대부분의 검색 시스템은 텍스트에만 의존하고 있습니다. 하지만 우리가 실제로 다루는 문서들은 어떨까요? 차트, 인포그래픽, 표, 이미지가 가득한 복잡한 문서들이 대부분입니다. 이런 시각적 정보들을 제대로 활용하지 못하는 것은 검색 시스템의 큰 한계입니다.
텍스트만 보는 검색 시스템의 문제점
기존의 RAG(Retrieval-Augmented Generation) 시스템은 문서 내 텍스트만을 분석 대상으로 삼습니다. 이미지 속 차트나 인포그래픽에 담긴 핵심 데이터는 OCR을 통해 텍스트로 변환하더라도 원래 문맥이 손실되기 쉽습니다.
현실의 비즈니스 문서는 단순한 텍스트를 넘어 다양한 형식의 데이터로 구성되어 있습니다. 슬라이드, 표, 차트, 스캔된 문서까지 포함하면 텍스트만으로는 정보의 상당 부분을 놓치게 됩니다.

기존 문서 처리 방식의 한계를 정리하면 다음과 같습니다:
- 이미지 내 정보 손실: OCR 과정에서 시각적 맥락이 사라짐
- 구조적 정보 파괴: 표나 차트의 의미 구조가 텍스트 변환 과정에서 손상됨
- 복잡한 파이프라인: PDF 추출과 텍스트 파싱 과정이 비효율적임
- 정확도 저하: 시각 정보를 놓치면서 검색 정확도가 떨어짐
멀티모달 RAG: 새로운 접근법
이런 문제를 해결하기 위해 등장한 것이 멀티모달 RAG입니다. 비전-언어 모델(VLM) 기반의 이 구조는 이미지와 텍스트를 함께 임베딩하여 시각 정보와 언어 정보를 동시에 고려할 수 있게 합니다.

멀티모달 RAG의 핵심 장점은 다음과 같습니다:
- 시각 정보 보존: 원본 문서의 이미지를 그대로 활용
- 다양한 문서 형식 지원: PDF, 이미지, 스캔 문서 등 폭넓은 호환성
- 파이프라인 단순화: 복잡한 전처리 과정 없이 직접 처리
- 통합적 이해: 텍스트 의미와 레이아웃 정보를 동시에 반영
NVIDIA Llama 3.2 NeMo Retriever: 작지만 강력한 모델
NVIDIA가 새롭게 발표한 Llama 3.2 NeMo Retriever는 멀티모달 문서 검색을 위한 소형 임베딩 모델입니다. 이 모델의 구성 요소는 다음과 같습니다:
- 비전 인코더: SigLIP2-So400m 기반으로 이미지 정보 처리
- 언어 모델: Llama-3.2-1B로 텍스트 이해 담당
- 프로젝션 레이어: 이미지 임베딩을 언어 모델 공간에 맞게 변환
이 모델은 대조 학습(contrastive learning) 방식으로 파인튜닝되었으며, 하드 네거티브 샘플링을 통해 학습 성능을 극대화했습니다. 2,048차원의 임베딩 벡터를 생성하여 텍스트와 이미지 간 의미 정렬을 가능하게 합니다.
실제 성능은 어떨까?
Llama 3.2 NeMo Retriever는 다양한 공개 데이터셋에서 뛰어난 성능을 입증했습니다. 특히 Recall@5 지표에서 주목할 만한 결과를 보여줍니다:
DigitalCorpora 데이터셋 (991개 쿼리):
- 전체 멀티모달: 84.5%
- 차트: 88.1%
- 텍스트: 86.9%
- 테이블: 75.3%
Earnings 데이터셋 (628개 쿼리):
- 전체 멀티모달: 66.1%
- 차트: 89.9%
- 텍스트: 96.0%
- 테이블: 44.6%
- 인포그래픽: 55.0%
이는 20억 파라미터 이하 모델 중 가장 높은 성능으로, 특히 차트와 텍스트 기반 문서 검색에서 탁월한 결과를 보여줍니다.
실제 구현은 어떻게?
멀티모달 RAG 구현은 생각보다 간단합니다. 텍스트 쿼리와 이미지 임베딩을 각각 생성하여 의미적 유사도를 계산하는 방식입니다:

기업 환경에서의 의미
기업들이 다루는 문서는 대부분 복합적입니다. 재무 보고서의 차트, 기술 문서의 다이어그램, 프레젠테이션의 인포그래픽까지 포함하면 텍스트만으로는 한계가 명확합니다. 멀티모달 RAG는 이런 현실을 정확히 반영한 솔루션입니다. 작은 모델 크기에도 불구하고 강력한 성능을 보여주며, 실제 기업 환경에 적용할 수 있는 정확도와 효율성을 갖추고 있습니다.
결론: 검색의 새로운 기준
텍스트 기반 검색의 한계를 뛰어넘고 싶다면, 지금이 멀티모달 RAG 도입을 고려할 시점입니다. NVIDIA의 Llama 3.2 NeMo Retriever는 이러한 전환을 빠르고 실용적으로 이끌 수 있는 핵심 솔루션이 될 것입니다.
포스트 공유하기