이 글은 업스테이지 블로그의 "Data-Centric AI 관점으로 재해석하는 자연언어처리 기반 History of AI (https://www.upstage.ai/blog/tech/reinterpreting-the-history-of-nlp-based-ai-through-a-data-centric-perspective) 게시물을 참고하여 작성하였습니다.
자연어처리(NLP)란?
- 인간의 언어를 컴퓨터가 처리하는 것.
- 형태소 분석, 질의응답, 대화 시스템 등에 활용된다.
- 언어 모델은 사람이 읽고 쓰는 문자(Characters)를 컴퓨터가 읽고 쓸 수 있는 Numbers로 표현하고자 함.
One-hot encoding
- 0과 1로 단어를 표현함.
- 단어들 간의 관계성을 고려할 수 없음.
- 단어 집합의 크기만큼 벡터의 차원이 필요하게 되므로 메모리 낭비 문제가 존재
Word2Vec
- 단어를 dense한 실수 벡터 공간에 매핑하되, 유사한 의미의 단어는 벡터 공간 상의 가까운 거리 내에 분포하도록 학습
- 문장 이상의 단위에서 문백 정보를 이해하지 못한다는 한계
- Word2Vec을 이용한 게임 '꼬맨틀': https://semantle-ko.newsjel.ly/
ELMo (Embeddings from Language Models)
- 현재 표준이 된 Pre-training - Fine-tuning 방식의 등장
- 문맥 정보를 잘 담은 언어 모델을 하위 task에 추가적으로 학습하여 활용
- 문맥을 잘 이해하기 위해 양방향으로 문장을 학습함. (biLM)
- 단, 단방향 학습을 2번 반복한 것이기 때문에 진정한 양방향 학습이라고 보기 어려움.
Transformer
- Transformer 아키텍처 기반 언어 모델인 GPT, BERT의 등장
- BERT
- Masked Language Model: 문장의 일부분을 마스킹처리한 뒤, 해당 토큰이 무엇인지 예측하는 방식으로 학습 (진정한 의미의 양방향 의존성 학습)
- Transformer의 Encoder 아키텍처 활용
- BERT의 MLM을 테스트해보기: klue/bert
- GPT
- 이전 단어들을 바탕으로 다음 단어를 예측하는 방식으로 학습
- Transformer의 Decoder 아키텍처 활용
- GPT 생성 체험: skt/ko-gpt-trinity-1.2B-v0.5
- 이후 BERT, GPT 계열 모델들은 모델의 크기를 키우거나, 서비스 가능한 수준으로 경량화하는 방향으로 발전함.
- 크기를 키우는 방향: ChatGPT, GPT-4 등
- 경량화: ALBERT, Linformer, Performer 등의 모델 및 Quantization, Distillation, Pruning 등의 연구
- LLM 체험: KoAlpaca
klue/bert-base · Hugging Face
Model Description: KLUE BERT base is a pre-trained BERT Model on Korean Language. The developers of KLUE BERT base developed the model in the context of the development of the Korean Language Understanding Evaluation (KLUE) Benchmark. The model can be used
huggingface.co
RLHF (Reinforcement Learning from Human Feedback)
Reference
728x90
'NLP' 카테고리의 다른 글
[Paper Review] REALM: Retrieval-Augmented Language Model Pre-Training 리뷰 (1) | 2024.12.02 |
---|---|
Llama2 초간단 요약 (0) | 2023.07.23 |
[NLP] BPE 기반 Tokenization 간단 정리 (0) | 2023.05.15 |
[NLP] Attention의 개념 간단 정리 (0) | 2023.04.17 |
Boostcamp AI Tech 4기 최종 프로젝트 후기 (일기 감성 분석 및 코멘트 생성) (1) | 2023.02.19 |