LLM?
LLM(Large Language Models)은 대량의 언어 데이터를 학습하여 텍스트를 이해하고 생성하는 모델을 이야기한다. LLM은 주로 질문에 대한 답 생성, 텍스트 요약, 번역 등 다양한 task에 쓰이곤 한다. 이렇게 LLM이 핫해지게 된 이유가 chatGPT 때문이라고 생각하는데 오늘은 chatGPT의 베이스인 GPT 모델과 그 외에 BERT, LLaMA에 대해서도 정리해보겠다.
대표적인 LLM 비교
1. BERT (Bidirectional Encoder Representations from Transformers)
BERT는 텍스트를 이해하는 것에 초점을 둔 transformer 형태의 모델이다. 그렇기 때문에 문장의 앞뒤 정보를 모두 파악하여 문맥을 더 잘 이해하기 위해 양방향 인코더 형태를 가지고 있다. 또한 대규모의 unlabeled data로 사전학습 되어있는 모델을 제공함으로써, 적은 컴퓨팅 자원으로 여러 자연어 처리의 일을 수행할 수 있다.
- 학습 방식: BERT는 Masked Language Modeling(MLM)과 Next Sentence Prediction(NSP)를 사용해서 학습 (양방향 학습 방식)
- MLM은 입력에서 무작위하게 몇개의 토큰을 마스킹한 뒤 이를 transformer의 입력으로 하여 주변 단어의 맥락을 통해 마스킹된 토큰을 예측하는 것이다.
- NSP는 두 문장의 관계를 이해하기 위해 두 번째 문장이 첫번째 문장의 바로 다음에 오는 문장인지를 예측하는 방식으로 역시 문맥 이해해 도움이 되는 학습 방식이다.
- 사용 사례: 질문 응답, 감정 분석, 정보 검색 등에 쓰인다.
2. GPT (Generative Pre-trained Transformer)
GPT는 텍스트 생성에 중점을 둔 단방향 트랜스포머 디코더 기반 모델이다. GPT는 텍스트 시퀀스를 입력으로 받아 다음 단어를 예측하는 것을 반복하며 단방향으로 텍스트를 생성한다.
- 학습 방식: unsupervised pretraining을 하며(autoregressive language modeling), BERT처럼 사전학습된 모델을 사용자가 큰 모델 구조의 수정 없이 원하는 테스크에 맞게 fine-tune할 수 있다.
- 사용 사례: 대화형 모델처럼 텍스트 생성 작업에 주로 사용된다.
3. LLaMA (Large Language Model Meta AI)
LLaMA는 transformer 구조의 오픈소스 모델로, 모델 사이즈를 키우는 것보다 더 많은 데이터로 훈련된 작은 모델이 더 좋은 성능을 낸다고 강조한다. 아래 그래프를 보면 학습 토큰(학습 데이터) 양이 매우 많아져도 training loss가 계속 감소한다. 즉, 적은 자원으로도 고성능을 달성할 수 있다는 것이다.
- 학습 방식: GPT와 유사하게 autoregressive 방식으로 학습된다.
- 사용 사례: 텍스트 생성, 번역 등 다양한 테스크에 사용된다.
BERT와 LLaMA는 오픈소스이니 직접 실험해본 결과를 다음 게시글에 정리해볼 예정이다.
'논문 리뷰' 카테고리의 다른 글
Visual Instruction Tuning (LLaVA) 리뷰 (0) | 2025.02.06 |
---|---|
[LLM 연구 흐름] # 1. Alignment [In-context learning/Instruction tuning/RLHF] (0) | 2025.01.24 |