네이버 부스트캠프/LEVEL-2
[부스트캠프][P-stage][WK11 / Day49,50] MRC 3
1. 강의 내용 Scaling up with FAISS (서민준 교수님) 1) Passage Retrieval and Similarity Search MIPS(Maximum Inner Product Search) 주어진 질문(query) 벡터 q에 대해 Passage 벡터 v들 중 가장 질문과 관련된 벡터를 찾아야함 -> 여기서 관련성은 내적(inner product)이 가장 큰 것 4, 5 강에서는 brute-force(exhaustive) search 방식의 검색을 사용했는데, 이때 저장해둔 모든 Sparse/Dense 임베딩에 대해 일일히 내적값을 계산하여 가장 값이 큰 passage를 추출했습니다. 하지만 이 방식은 passage의 개수가 많아질수록 비효율적이게 됩니다. 실제로 검색해야할 데이터는..
[부스트캠프][P-stage][WK11 / Day48] MRC 2
1. 강의 내용 Passage Retrieval - Sparse Embedding (서민준 교수님) 1) Introduction to Passage Retrieval Passage Retrieval 질문(query)에 맞는 문서(passage)를 찾는 것. Passage Retrieval with MRC Open-domain Question Answering: 대규모의 문서 중에서 질문에 대한 답을 찾기 Overview of Passage Retrieval Query와 Passage를 임베딩한 뒤 유사도로 랭킹을 매기고, 유사도가 가장 높은 Passage를 선택함 2) Passage Embedding and Sparse Embedding Passage Embedding Space Passage Embed..
[부스트캠프][P-stage][WK11 / Day47] MRC 1
1. 강의 내용 MRC Intro & Python Basics (서민준님) 1) Introduction to MRC 기계 독해 (Machine Reading Comprehension)이란 주어진 지문 (context)를 이해하고, 주어진 질의 (Query/Question)의 답변을 추론하는 문제입니다. MRC의 종류 Extractive Answer Datasets : 질의 (question)에 대한 답이 항상 주어진 지문 (context)의 segment (or span)으로 존재 Span Extraction: SQuAD, KorQuAD, NewsQA, Natural Questions, etc Descriptive/Narrative Answer Datasets : 답이 지문 내에서 추출한 span이 아니..
[부스트캠프][P-stage][WK10] P-stage level2 KLUE RE 결산 및 개인회고
프로젝트 목표 3위 안의 성적 거두기 가능한 많은 실험, 제출 해보기 앞으로를 위해 팀원들과 호흡 맞추기 새로운 기법을 다양하게 적용해 의미 있는 커밋 하기 wandb로 실험 관리 및 효율적으로 제출횟수 활용 나는 내 학습목표를 달성하기 위해 무엇을 어떻게 했는가? 개인 학습 1주차 데이터를 살펴보고 성능의 향상을 위해 어떤식으로 처리해야 할지 고민 및 팀원들에게 공유 매일 1회 이상의 제출을 하며 wandb로 실험 관리 Hyperparameter search를 위한 OPTUNA를 구현 roberta, electra 등의 모델을 튜닝하고 confusion matrix를 찍어보며 모델이 잘 맞추지 못하는 취약점 파악 Relation Extraction 관련 SoTA 방법론들을 사용하는데 entity typ..
[부스트캠프][P-stage][WK09 / Day41] KLUE RE 5
1. 금일 목표 강의 5,6,7 강(오전 마무리) 베이스라인 코드 받아와 klue/roberta-large로 optuna 실험 3시 멘토링 베이스라인 코드에 confusion matrix 추가해서 실험하기 2. 진행사항 1) 강의 5,6,7 강(오전 마무리) BERT 언어모델 기반의 단일 문장 분류, 두 문장 관계 분류, 문장 토큰 분류에 관련된 강의를 수강하였습니다. BERT 모델 기반의 단일 문장 분류 KLUE 데이터 셋 의존 구문 분석: 단어들 사이의 관계를 분석하는 task 의미의 중심이 되는 지배소와 지배소가 갖는 의미를 보완해주는 의존소로 구성되어 있음 지배소는 후위언으로 항상 의존소보다 뒤에 위치, 교차 의존 구조는 없음 sequence labeling 방식으로 앞 어절에 의존소가 없고 다음..
[부스트캠프][P-stage][WK09 / Day40] KLUE RE 4
1. 금일 목표 EDA는 끝나지 않는다 강의 5,6 강 entity, label issue 정리하기 대웅님과 모각공(1시 반) 2. 진행사항 1) EDA는 끝나지 않는다 위와 같은 방식으로 각 label과 entity간의 관계에 대해 EDA 했습니다. 모든 클래스에 대해 관계 파악을 완료 했습니다. 자세한 내용은 팀 Github의 colab notebook에서 확인 가능합니다. 2) 강의 5,6 강 오늘도 듣지 못했습니다 ㅠㅠ 3) entity, label issue 정리하기 팀원들과 함께 모여 다음과 같은 sheet에 특성에 대해 정리하였습니다. 캡쳐로는 보이지 않게 했습니다. 4) 대웅님과 모각공(1시 반) 1시 반부터 모여서 EDA를 합께하고 이슈를 공유하며 마무리 하였습니다. 3. 피어세션 정리 ..
[부스트캠프][P-stage][WK09 / Day39] KLUE RE 3
1. 금일 목표 가지고 있는 코드 깔끔하게 정리하기 추가적인 EDA, 전처리 할 수 있는데까지 하기 강의 5,6 강 entity, label issue 정리하기 2. 진행사항 1) 가지고 있는 코드 깔끔하게 정리하기 나름대로 level-1 때의 기억을 살려서 정리했습니다. 팀과 코드를 합치며 많은 부분이 달라질 예정입니다. 2) 추가적인 EDA, 전처리 할 수 있는데까지 하기 위와 같은 방식으로 각 label과 entity간의 관계에 대해 EDA 했습니다. 자세한 내용은 팀 Github의 colab notebook에서 확인 가능합니다. 3) 강의 5,6 강 아직 수강하지 못했습니다 ㅠㅠ 4) entity, label issue 정리하기 EDA를 아직 완전히 끝마치지 않아 마무리 후 정리 예정입니다. 5)..
[부스트캠프][P-stage][WK09 / Day38] KLUE RE 2
1. 금일 목표 모자란 EDA 추가 진행 EDA 바탕으로 Pororo word_translation 등을 이용해 명훈님 코드 base로 전처리 코드 작성 강의 3, 4강 수강 OPTUNA 2. 진행사항 1) 모자란 EDA 추가 진행 POH 기준, Object Entity랑 Label 잘못 된 것들 수정하자! 나라는 LOC인가 ORG인가? 과연 Object Entity가 하나로 정해져야 하는 걸까? 맥락에 따라 달라지는 경우: e.g. 김 씨가문 : ORG, 김씨는~ : PER 물론 명백히 잘못된 것도 있다. PTR 적용에 있어 올바른 entity type은 중요 Hierarchical 분석 2) EDA 바탕으로 Pororo word_translation 등을 이용해 명훈님 코드 base로 전처리 코드 작..