(이 글은 rat'sgo 님의 블로그 (https://ratsgo.github.io/nlpbook/)와 네이버 커넥트재단 부스트캠프 AI Tech 4기의 강의 자료를 바탕으로 작성하였습니다.) 1. Intro BPE(Byte Pair Encoding)는 토큰화를 할 때 단어를 단어보다 더 작은 단위인 subword로 쪼개어 표현하는 기법입니다. 자연어처리 분야에서 문장을 잘 처리하기 위해서는 문장을 더 작게 나눠주어야 합니다. 이때 나누어지는 한 단위를 '토큰(token)'이라고 하고, 이렇게 문장을 토큰 단위로 쪼개는 과정을 '토큰화(Tokenization)'라고 합니다. (토큰화 방법에는 여러 가지 방법이 제안되었습니다. 특히, 교착어인 한국어를 토큰화하는 것은 꽤나 어려운 작업입니다. 이에 대해서는..