본문 바로가기
컴퓨터 일반/IT용어

멀티모달(Multimodal)

by 건티 2025. 5. 17.
728x90

사람이 기계와 상호 작용할 때 입출력에 텍스트, 음향, 이미지 등 다양한 정보 유형을 통합하여 사용하는 것.

멀티모달은 사람이 기계와 상호 작용할 때 사용하는 정보의 유형이 여러 가지인 경우를 말한다. 예를 들어 멀티모달 AI 시스템은 텍스트뿐 아니라 음향, 이미지 등을 인식하고 처리할 수 있다.


멀티모달은 센서 및 입출력 데이터 처리 능력이 발전하면서 구현할 수 있게 되었다. 1990년대 들어 멀티모달 인터페이스 연구가 시작되었고, 음성과 제스처, 음성과 필기 등의 결합 기술이 개발되었다. 2010년대 이후에는 심층 기계학습(deep learning) 등 AI 기술이 발전하면서 다양한 유형의 데이터 처리 능력이 비약적으로 발전하기 시작하였다.

인공지능 분야에서 멀티모달은 여러 가지 다른 형태의 모달을 통합하여 동시에 사용하는 것을 말한다. 멀티모달은 텍스트만으로는 부족한 정보를 이미지로 보완하거나, 이미지만으로는 전달되지 않는 정보를 텍스트로 추가할 수 있다. 또 텍스트와 이미지를 결합하여 더 정확하고 자연스러운 의미를 전달하고, 다양하고 창의적인 결과물을 생성할 수 있다. 특히 대규모 언어 모델(LLM: Large Language Model)은 텍스트 기반을 넘어서 이미지와 음향, 영상 데이터를 포함한 대규모 멀티모달 모델(LMM: Large Multimodal Model)로 진화하였다. 대표적인 사례로 OpenAI의 ‘GPT-4V’가 있다.


멀티모달은 사용자 경험을 향상하고, 환경과 사용자 상황에 맞는 정보 융합으로 정보 전달 효과가 크다. 반면 다양한 모달을 통합하는 기술이 필요하고, 데이터 확보가 어려워 데이터세트(dataset) 구축이 어렵다. 또한 데이터 처리에 높은 계산 능력과 자원이 필요하다. 멀티모달은 인공지능뿐만 아니라 스마트폰, 태블릿, 웨어러블 기기, 자율주행차, 의료 분야 등에 활용할 수 있다.

 

 

출처]

한국정보통신기술협회 : 멀티모달

 

 

 

 

 

※ 10월 25일은 독도의 날입니다.

대한민국의 아름다운 영토, 독도의 가을

 

반응형

댓글