(사진=엔씨소프트)
엔씨소프트는 한국어에 특화된 중소형 오픈소스 VLM(비전 랭귀지 모델) 'VARCO-VISION'과 한국어 멀티모달 벤치마크 5종을 4일 공개했다.
VLM은 자연어와 이미지를 함께 활용해 입력 값을 넣을 수 있는 언어모델이다. 현재 오픈소스로 공개된 대부분의 VLM은 영어와 중국어 기반이며, 한국어 지원 모델은 소수에 불과해 국내 기업들은 GPT 등 빅테크 기업의 API에 의존하고 있다.
이날 엔씨가 공개한 오픈소스 VLM 모델 'VARCO-VISION'은 한글, 영어 프롬프트와 함께 이미지 입력 값을 이해할 수 있는 중소형 모델이다. LLM과 유사한 수준의 언어 능력을 보유하고 있으며, 애플리케이션에서 LLM과 VLM 두개의 모델을 운용하지 않고 단일 모델 만으로 이미지-텍스트 작업과 텍스트 전용 작업을 모두 처리할 수 있는 것이 특징이다.
특히 'VARCO-VISION'은 한국어 부문에서 동종 크기 모델 중 1위 성능을 보인다. 또 ▲OCR ▲그라운딩 ▲레퍼링 등 이미지를 인식하고 추론하는 비전 태스크에서도 뛰어난 결과값을 제공한다.
AI 서비스 개발 기업은 'VARCO-VISION'을 활용해 ▲이미지 인식 및 질의응답 ▲이미지 설명 ▲글자인식(OCR) ▲사물 위치 검출(그라운딩) 기능을 활용한 각종 멀티모달 AI 서비스를 개발할 수 있다.
또한 콘텐츠 제작 기업은 이미지 상세 설명을 자동 생성해 콘텐츠 제작 시간을 아끼거나, 이미지 내 텍스트 인식을 통해 보다 많은 자료를 빠르게 수집하는 등 기획 업무에 도움을 받을 수 있다. 멀티모달 AI모델은 엔씨가 개발 중인 '바르코 스튜디오'에도 적용될 예정이다.
엔씨는 한국어 AI 모델 연구 발전에 기여하기 위한 벤치마크 5종도 공개했다. 먼저 영미권에서 대표적으로 사용되고 있는 객관식 벤치마크 3종(MMBench, SEED-Bench, MMStar)을 비롯해 주관식 벤치마크 1종(LLava-in-the-wild)을 기반으로 새로운 한국어 벤치마크 4종을 구축했다. 더불어 한국어 문서, 표, 차트에 대한 이해능력을 검증할 수 있는 'K-DTCBench' 벤치마크 1종을 새롭게 더했다.
이연수 NC Research 본부장은 "엔씨소프트가 'VARCO-VISION'과 한국어 벤치마크 5종 공개를 통해 멀티모달 AI 분야에서 선도적인 위치를 확보하고 있다는 점을 증명했다"며 "앞으로 VLM의 접목 분야를 오디오, 비디오까지 확대하고 콘텐츠 제작 지원 기능을 강화하는 등 성능을 끌어 올릴 것"이라고 말했다.