카카오가 한국어와 함께 한국 문화를 이해하는 데 강점이 있는 최신 멀티모달 AI 기술 연구 성과를 공개한다.
카카오는 테크블로그를 통해 국내 문화에 특화된 통합 멀티모달 언어모델 ‘카나나-o’와 ‘카나나-v-임베딩’ 개발 과정과 성능을 공개했다고 12일 밝혔다.
먼저 지난 5월 최초 공개된 카나나-o는 한국어 맥락 이해에서 강점을 보이는 AI로, 사람처럼 자연스럽고 풍부한 표현력을 목표로 설계됐다.
이번 공개에서는 당시보다 지시 이행 능력이 개선됐다는 설명이다.
실제로 공개 당시에는 텍스트에는 강점을 보이지만 음성 대화 시 답변이 단순해지고 추론 능력이 떨어진다는 지적이 있었다.
이에 카카오는 지시 이행 능력을 높이면서 사용자의 숨은 의도와 복잡한 요구사항을 파악할 수 있도록 개선했다고 밝혔다.
구체적으로는 단순 질의응답을 넘어 대화를 요약하고 사용자의 감정과 의도를 해석해 답변의 형식을 바꾸는 등이 가능해졌다.
또 고품질 음성 데이터를 학습하면서 억양과 감정, 호흡 등을 정교하게 분석할 수 있게 됐다.
카카오는 이에 따라 영어 음성 성능에서 카나나-o가 GPT-4o와 유사한 수준을 달성했으며, 한국어에서는 빅테크 모델보다도 높은 수준을 기록했다고 밝혔다.
이어 카나나-v-임베딩은 이미지 기반 검색 기술이며, 텍스트와 이미지를 동시에 이해해 처리한다.
현재 이 모델은 카카오 내부에서 광고 소재의 유사도를 분석·심사하는 시스템에 적용 중이다.
카카오 김병학 성과리더는 "카나나를 단순 정보 나열 수준을 넘어 사용자의 감정을 이해하며 친숙하고 자연스럽게 대화하는 AI가 될 수 있게 하겠다"라는 포부를 밝혔다.
![카카오 [연합뉴스 제공]](https://images.jkn.co.kr/data/images/full/98/24/982438.jpg?w=800&h=0)






![[금융진단] 미 증시, 지정학 완화·빅테크 반등에 상승](https://images.jkn.co.kr/data/images/full/982892/image.jpg?w=288&h=168&l=50&t=40)

