도비LOG(跳飛錄)

도비의 AI 엔지니어 도전기

분류 전체보기 84

한국어 관계 추출(Relation Extraction) 경진대회 후기 (Naver BoostCamp AI tech 4기)

이번 대회에서 나는 데이터를 담당하였다. 이 글에서는 데이터 담당으로서 진행하였던 EDA 및 data augmentation을 중점적으로 정리해 보고자 한다. 대회 개요 관계 추출(Relation Extraction)이란 문장의 개체(Entity)에 대한 속성과 관계를 예측하는 문제이다. 예를 들어, 아래의 문장에서 주체(Subject entity)와 객체(Object entity)를 추출하고, 이들 간의 관계를 추론해보면 다음과 같다. 이순신은 1545년 한성에서 태어났다. 먼저 '이순신'을 주체로, '한성'을 객체로 추출하고, 이들의 속성을 각각 '인물'과 '장소'로 부여한다면, 이들 간의 관계를 '출생지'라고 추론할 수 있다. 본 대회에서는 각 문장마다 Subject entity, Object en..

NLP 2022.12.12

[NLP] 한국어의 토큰화(Tokeniziation) - Subword BPE, Sub-character BPE, Morheme-aware-subword BPE

목차 1. Subword Tokenization (BPE) 2. Sub-character BPE 3. Morpheme-aware subword BPE 4. Conclusion References Intro 이번 글에서는 최근에 제안된 한국어 토크나이징 방안들에 정리해보고자 한다. 한국어는 언어유형학적으로 교착어로 분류된다. 교착어란 실질적인 의미를 갖는 실질형태소인 어근(root)에, 형식 형태소인 접사(affix)가 결합되어 새로운 단어를 생성하거나, 문장 내에서 각 형태소들 간의 문법적 관계를 나타내는 언어를 가리킨다. 예를 들어, 어근 '설명'에 최근 유행하는 접사 '-충(蟲)'이 결합하여 '설명충'이라는 단어를 만들어내고, '철수는 밥을 먹는다.'에서 어근 '철수'에 주격조사 '는'이 결합하여 '..

NLP 2022.11.13

한국어 STS(Semantic Text Similarity) 경진대회 후기 (Naver Connect BoostCamp AI tech 4기)

STS Task STS(Semantic Text Similarity)란 두 문장 사이의 의미적인 유사도를 측정하는 task이다. 예를 들어, "어젯밤에 비가 많이 내렸다."라는 문장과 "어젯밤에 폭우가 쏟아졌다."라는 문장은 형태는 서로 다르나 의미적으로는 사실상 거의 동일하다고 할 수 있다. 반면, "어젯밤에 비가 많이 내렸다."와 "어젯밤에 눈이 많이 내렸다."는 문장의 형태는 거의 유사하나 의미적으로는 다른 문장이다. STS task는 이처럼 두 가지의 문장을 입력으로 받은 뒤, 두 문장 간의 의미적인 유사도를 측정하는 task이다. 이때 출력값은 두 문장이 동일한 의미인가 아닌가를 이진 분류하여 1 또는 0으로 출력할 수도 있고, 의미적으로 유사한 정도를 연속형 수치로 출력할 수도 있다. 대회 개..

NLP 2022.11.12

중기청 대출 정리

중기청 대출 순서 정리 1. 은행 가심사 상담(선택) 본인이 중기청 대출 가능한지 확인하는 과정. 은행에 직접 방문하여 상담을 받으면 되는데, 간혹 계약서가 없는 경우 안 해줄 수도 있다고 한다. 준비 서류: 신분증 추가: 매물 주소 알아오기, **전세보증보험** 들기 혹시나 서류가 필요할 수도 있으니 아래의 서류들을 가져가보자. ``` 주민등록등본 주민등록초본 가족관계증명서 신분증 재직증명서 최근 2개년 원천징수영수증 현 직장 건강보험료자격득실확인서 건강보험료납부확인서 (최근 3개월 이상) 재직회사 사업자등록증 고용보험 피보험자격 이력 내역서 주업종코드확인서(회사 직인 필수) 예상 매물 주소 ``` 2. 중기청 대출 가능한 집 알아보기 집을 찾은 후, 제가 중기청 대출로 전세집 알아보고 있는데 그 집 ..

직장인 되기 2022.03.30