도비LOG(跳飛錄)

도비의 AI 엔지니어 도전기

Tokenizing 2

[NLP] BPE 기반 Tokenization 간단 정리

(이 글은 rat'sgo 님의 블로그 (https://ratsgo.github.io/nlpbook/)와 네이버 커넥트재단 부스트캠프 AI Tech 4기의 강의 자료를 바탕으로 작성하였습니다.) 1. Intro BPE(Byte Pair Encoding)는 토큰화를 할 때 단어를 단어보다 더 작은 단위인 subword로 쪼개어 표현하는 기법입니다. 자연어처리 분야에서 문장을 잘 처리하기 위해서는 문장을 더 작게 나눠주어야 합니다. 이때 나누어지는 한 단위를 '토큰(token)'이라고 하고, 이렇게 문장을 토큰 단위로 쪼개는 과정을 '토큰화(Tokenization)'라고 합니다. (토큰화 방법에는 여러 가지 방법이 제안되었습니다. 특히, 교착어인 한국어를 토큰화하는 것은 꽤나 어려운 작업입니다. 이에 대해서는..

NLP 2023.05.15

[NLP] 한국어의 토큰화(Tokeniziation) - Subword BPE, Sub-character BPE, Morheme-aware-subword BPE

목차 1. Subword Tokenization (BPE) 2. Sub-character BPE 3. Morpheme-aware subword BPE 4. Conclusion References Intro 이번 글에서는 최근에 제안된 한국어 토크나이징 방안들에 정리해보고자 한다. 한국어는 언어유형학적으로 교착어로 분류된다. 교착어란 실질적인 의미를 갖는 실질형태소인 어근(root)에, 형식 형태소인 접사(affix)가 결합되어 새로운 단어를 생성하거나, 문장 내에서 각 형태소들 간의 문법적 관계를 나타내는 언어를 가리킨다. 예를 들어, 어근 '설명'에 최근 유행하는 접사 '-충(蟲)'이 결합하여 '설명충'이라는 단어를 만들어내고, '철수는 밥을 먹는다.'에서 어근 '철수'에 주격조사 '는'이 결합하여 '..

NLP 2022.11.13