이 글은 https://huggingface.co/blog/rlhf 를 참고하였음을 밝힙니다. 1. 동기 Language model이 점점 거대해져 성능이 향상되었다고 하더라도 여전히 거짓, 유해, 혹은 별 도움이 되지 않는 내용을 생성할 수 있습니다. Language model은 다음 토큰이 무엇인지를 예측하면서 언어 능력을 학습하는 Next token predictiont task를 진행하게 되는데, 이는 실제 사용자들의 요구사항(질문에 답변하기 등)과 부합하지 않을 수 있습니다. 따라서, 유저가 요구한 task를 잘 수행하고(helpful), 정확한 정보를 제공하며(honest), 심리적, 사회적 피해를 가하지 않는(harmless) 모델을 만드는 학습 방법이 필요합니다. 이를 위해 사람의 피드백을..