대규모의 텍스트 데이터를 학습하여 자연어 이해와 생성 작업에 탁월한 성능을 보이는 심층 신경망(deep neural network) 모델.
대규모 언어 모델(LLM: Large Language Model)은 대규모 텍스트 데이터세트를 활용하여 학습한 파라미터의 수가 매우 큰 모델로 문장을 이해하거나 새로운 텍스트를 생성하는 데 사용한다.
대규모 언어 모델은 수십억에서 수조 개의 파라미터를 포함하고 있어서 과적합(overfitting)을 방지하고 우수한 성능을 달성하기 위해 대규모 데이터세트로 훈련되어야 한다. 대규모 언어 모델에 사용되는 학습 데이터세트로는 인터넷상에 존재하는 방대한 양의 책, 기사, 웹 사이트 등이 있다. 이들 데이터는 일반적으로 데이터 수집(collection), 정제(cleansing), 전처리(preprocessing), 라벨링(labeling) 과정을 통해 학습 데이터로 변환된다. 최종적으로 정제된 텍스트 데이터를 대규모 언어 모델 훈련에 사용하고 훈련은 자동화하거나 전문가가 직접 개입하여 진행한다. 인공지능 모델의 성능은 초기 데이터 학습 과정에 크게 의존되며, 제대로 훈련되지 않으면 편향성(bias), 부적절한 답변 생성 등의 문제가 발생할 수 있다.
대규모 언어 모델 훈련에는 상당한 양의 컴퓨팅 자원과 에너지를 소비하여 모델 확보에 큰 비용이 들고 모델에서 생성하는 출력값이 어떻게 도출되었는지 결정 과정을 이해하기 어려운 한계가 있다.
한 번 학습된 대규모 언어 모델은 높은 언어 이해와 생성 능력으로 질의응답, 문서 요약, 번역 등 다양한 언어 작업을 수행할 수 있으며, 다양한 주제와 맥락에 대하여 상황에 맞는 적절한 언어 반응을 생성할 수 있다. 또한 전이 학습(transfer learning)이 용이하여 소설 작성, 뉴스 기사 작성, 상담 서비스 자동 응답 시스템 등 다양한 서비스에 하나의 대규모 언어 모델을 응용하여 사용할 수 있다.
대규모 언어 모델은 학습 방법과 방향에 따라 서로 다른 특징을 가지며, 특정 작업에 적합한 모델이 다를 수 있다. 대표적인 예로 오픈AI사의 GPT, 구글의 버트(BERT), 메타(Meta)의 LLaMA 등이 있다. GPT는 트랜스포머 모델을 기반으로 한 언어 생성 모델로, 주어진 문맥을 순차적으로 분석하며 다음 단어를 예측하는 방식으로 학습된다. 반면, BERT는 문장 내 단어의 전후 관계를 동시에 고려하는 양방향 학습 방식을 사용하며, 마스크드 언어 모델링(MLM)과 다음 문장 예측(NSP)을 활용한다. 이러한 차이로 인해 GPT는 텍스트 생성에 강점을 가지며, BERT는 문장 의미 이해와 같은 자연어 처리(NLP) 작업에서 각기 다른 영역에서 우수성을 발휘한다. 한편, 대규모 언어 모델은 “언어 생성”과 “문장 의미 이해” 뿐만 아니라 “논리적 추론”, “코드 작성”, “멀티모달 처리” 등 특정 작업에 최적화된 형태로 개발되기도 한다.
출처]
한국정보통신기술협회 : LLM
대한민국의 아름다운 영토, 독도의 겨울
'컴퓨터 일반 > IT용어' 카테고리의 다른 글
Gemini(제미나이) (2) | 2025.04.02 |
---|---|
DNN(Deep Neural Network, 심층 신경망) (0) | 2025.04.01 |
제로클릭 취약점 (0) | 2025.02.12 |
제로데이 공격(Zero-day Attack) (0) | 2025.02.12 |
바이러스 토털(Virus Total) (0) | 2025.02.02 |
댓글