목차 1. Subword Tokenization (BPE) 2. Sub-character BPE 3. Morpheme-aware subword BPE 4. Conclusion References Intro 이번 글에서는 최근에 제안된 한국어 토크나이징 방안들에 정리해보고자 한다. 한국어는 언어유형학적으로 교착어로 분류된다. 교착어란 실질적인 의미를 갖는 실질형태소인 어근(root)에, 형식 형태소인 접사(affix)가 결합되어 새로운 단어를 생성하거나, 문장 내에서 각 형태소들 간의 문법적 관계를 나타내는 언어를 가리킨다. 예를 들어, 어근 '설명'에 최근 유행하는 접사 '-충(蟲)'이 결합하여 '설명충'이라는 단어를 만들어내고, '철수는 밥을 먹는다.'에서 어근 '철수'에 주격조사 '는'이 결합하여 '..