도비LOG(跳飛錄)

도비의 AI 엔지니어 도전기

NLP 14

[Paper Review] LLM-Rec: Personalized Recommendation via Prompting Large Language Models (Lyu et al., 2024)

- LLM-Rec는 LLM을 활용하여 아이템 설명을 풍부하게 하고, 이를 통해 개인화 추천 시스템의 성능을 크게 향상시킨다. LLM-Rec를 적용한 단순한 MLP 모델은 복잡한 모델보다 우수한 성능을 보인다.- paraphrasing, recommendation, engagement, 전략 결합의 네 가지 프롬프트 전략을 도입하여, 아이템의 특성과 사용자의 선호도를 효과적으로 반영한다.- 영화, 레시피 등 다양한 도메인에서 적용 가능하다. Abstractitem description의 불완전함을 해결하기 위해 네 가지의 프롬프트 전략을 통해 text를 풍부하게 만드는 방법을 제안한다.LLM으로 증강된 텍스트를 사용하면 단순한 MLP 모델도 기존의 복잡한 콘텐츠 기반 추천 시스템보다 우수한 성능을 달성할..

NLP 2025.03.09

[Paper Review] RAGAS: Automated Evaluation of Retrieval Augmented Generation

세 줄 요약RAG 시스템을 평가하기 위한 RAGAS라는 시스템을 소개한다.Faithfulness, Answer relevance, Context relevance라는 metric을 소개한다.RAGAS 평가 방식은 GPT score, GPT Ranking 방법론보다 사람의 직관에 좀 더 잘 맞는다. 1. IntroductionRAG는 LLM의 한계(학습 이후의 사건을 모른다는 점, 학습 코퍼스에 드물게 출현한 지식을 기억하지 못하는 것)를 해소해왔다. RAG 시스템은 perplexity를 측정하는 것과 같은 방법으로 language modeling task 자체로 평가되어왔다.그러나 이러한 평가 방식은 하위 task의 성능을 항상 정확히 예측하는 것은 아니며, 파라미터가 비공개된 모델(ChatGPT 등)에..

NLP 2025.01.15

[Paper Review] When Not to Trust Language Models: Investigating Effectiveness of Parametric and Non-Parametric Memories 리뷰 (Adaptive RAG)

1. IntroductionLLM은 다양한 작업에서 뛰어난 성능을 보이지만, 여전히 세상 지식을 요구하는 작업에서는 어려움을 겪는다. 이는 세상 지식의 방대한 양을 파라미터에 인코딩하는 데 어려움이 있음을 시사한다.본 논문에서는 성능을 향상시키고 추론 비용을 줄이기 위해 필요한 경우에만 non-parametric memory를 검색하는 새로운 Retrieval augmentation 기법을 제안한다.본 논문은 사실 지식(Factual knowledge)을 기억하는 LLM의 강점과 한계를 이해하기 위해 다음과 같은 Research Question을 풀고자 한다.RQ1. LLM이 얼마나 많은 사실 지식을 기억하고 있으며, 기억에 영향을 미치는 요인은 무엇인가?RQ2. non-parametric 메모리가 LL..

NLP 2024.12.11

[Paper Review] Retreival-Augmented Generation for Knowledge-Intensive NLP Tasks (RAG) 리뷰

1. Introductionpre-trained 언어 모델(GPT2, BART)은 방대한 데이터로부터 상당한 양의 지식을 파라미터화하여 암묵적으로 저장한다. 이를 통해 언어 모델은 외부에 존재하는 메모리에 접근하지 않고도 task를 수행할 수 있다.그러나, 학습한 모델의 메모리를 확장하거나 수정할 수 없기 때문에, hallucination을 생성할 수도 있다.non-paramateric 메모리를 통합시켜, 지식을 직접적으로 수정하거나 확장할 수 있다. 검색을 기반으로 한 메모리의 통합은 해석 가능성도 갖는다. RAG에서 parametric memory란 pre-trained seq2seq transformer모델을 말하며, non-parametric memory란 pre-trained retriever로..

NLP 2024.12.03

[Paper Review] REALM: Retrieval-Augmented Language Model Pre-Training 리뷰

1. IntroductionREALM (Retrieval-Augmented Language Model pre-training): latent knowledge retriever를 이용한 pre-training, fine-tuning최근 언어 모델(BERT, RoBERTa, T5 등) pre-training은 방대한 코퍼스를 학습하여 놀라운 수준의 세상 지식을 암묵적으로 습득한다. 그러나 이러한 지식은 신경망 파라미터에 저장되므로 해석하기 어렵고, 더 많은 지식을 학습하기 위해서는 신경망의 크기를 확장해야 하므로 비효율적이다.REALM은 모델이 활용하는 지식에 대한 해석 가능성을 높이기 위해 학습된 knowledge retriever를 활용한다. 즉, 파라미터에 암묵적으로 지식을 저장하는 대신, 모델이 어..

NLP 2024.12.02

Llama2 초간단 요약

논문 링크: https://arxiv.org/abs/2307.09288 Abstract 70억 ~ 700억 개의 파라미터로 사전학습되고 fine-tuning된 LLM인 Llama 2 출시. fine tuning된 모델인 Llama 2-chat은 대화에 최적화되어 있음. 대부분의 벤치마크에서 다른 오픈소스 채팅 모델보다 성능이 뛰어남. helpfulness, safety에 대한 human evaluation에 따르면, closed source 모델을 대체할 수 있는 적합한 모델일 수 있음. 1. Introduction Llama2 : Llama1의 후속 버전. 공개된 데이터를 새롭게 조합하여 학습하였고, 사전학습 코퍼스를 40% 더 늘렸으며, context length를 2배로 늘림. Grouped-que..

NLP 2023.07.23

한국어 초거대 언어 모델 KULLM (Korea University Large Language Model) 체험기

2023년 5월 30일에 고려대학교 NLP & AI 연구실, HIAI 연구소에서 한국어 LLM인 KULLM을 공개했습니다. 오픈소스로 공개가 되어, 개인도 쉽게 체험해볼 수 있습니다. Backbone model로는 Polyglot-ko 모델을 사용하였으며, GPT4ALL, Dolly, Vicuna 데이터셋을 deepl을 이용해 번역하여 만든 데이터셋으로 학습했다고 합니다. KULLM의 대화 성능은 기존에 공개되었었던 한국어 LLM인 KoAlpaca, KoVicunna를 뛰어넘었다고 하는데요. 지금부터 KULLM에 대해 간단히 살펴보도록 하겠습니다. 데이터셋 KULLM의 학습을 위한 데이터셋은 instruction language model 학습 등에 활용된 GPT4ALL, Dolly의 데이터셋을 병합한 ..

카테고리 없음 2023.07.07

NLP 트렌드의 흐름 간단 요약

이 글은 업스테이지 블로그의 "Data-Centric AI 관점으로 재해석하는 자연언어처리 기반 History of AI (https://www.upstage.ai/blog/tech/reinterpreting-the-history-of-nlp-based-ai-through-a-data-centric-perspective) 게시물을 참고하여 작성하였습니다. 자연어처리(NLP)란? 인간의 언어를 컴퓨터가 처리하는 것. 형태소 분석, 질의응답, 대화 시스템 등에 활용된다. 언어 모델은 사람이 읽고 쓰는 문자(Characters)를 컴퓨터가 읽고 쓸 수 있는 Numbers로 표현하고자 함. One-hot encoding 0과 1로 단어를 표현함. 단어들 간의 관계성을 고려할 수 없음. 단어 집합의 크기만큼 벡터..

NLP 2023.06.23

[NLP] BPE 기반 Tokenization 간단 정리

(이 글은 rat'sgo 님의 블로그 (https://ratsgo.github.io/nlpbook/)와 네이버 커넥트재단 부스트캠프 AI Tech 4기의 강의 자료를 바탕으로 작성하였습니다.) 1. Intro BPE(Byte Pair Encoding)는 토큰화를 할 때 단어를 단어보다 더 작은 단위인 subword로 쪼개어 표현하는 기법입니다. 자연어처리 분야에서 문장을 잘 처리하기 위해서는 문장을 더 작게 나눠주어야 합니다. 이때 나누어지는 한 단위를 '토큰(token)'이라고 하고, 이렇게 문장을 토큰 단위로 쪼개는 과정을 '토큰화(Tokenization)'라고 합니다. (토큰화 방법에는 여러 가지 방법이 제안되었습니다. 특히, 교착어인 한국어를 토큰화하는 것은 꽤나 어려운 작업입니다. 이에 대해서는..

NLP 2023.05.15

[NLP] Attention의 개념 간단 정리

이번 글에서는 최근 NLP 모델들의 급격한 성능 향상을 가능한 Transformer 아키텍쳐의 근간이 되는 Attention에 대해 알아보겠습니다. (이 글은 네이버 커텍트재단 Boostcamp AI Tech 4기 NLP 과정 주재걸 교수님 강의, 자연어처리를 위한 딥러닝 입문, Bahdanau et al. (2014)를 참고하여 작성하였음을 밝힙니다.) 등장 배경 언어 데이터는 단어(토큰)이 연속되는 시계열 데이터로 볼 수 있습니다. 그리고 언어 데이터는 입출력 문장의 길이가 제각각입니다. 따라서 시계열 데이터를 잘 다루면서도 입출력 길이에 구애받지 않는 RNN 계열의 Seq2Seq 구조가 언어 데이터 처리에 많이 사용되어 왔습니다. 하지만 Seq2Seq 구조는 Source 문장의 길이가 어떻든 간에 ..

NLP 2023.04.17