부스트캠프

    [부스트캠프][P-stage][WK09 / Day41] KLUE RE 5

    1. 금일 목표 강의 5,6,7 강(오전 마무리) 베이스라인 코드 받아와 klue/roberta-large로 optuna 실험 3시 멘토링 베이스라인 코드에 confusion matrix 추가해서 실험하기 2. 진행사항 1) 강의 5,6,7 강(오전 마무리) BERT 언어모델 기반의 단일 문장 분류, 두 문장 관계 분류, 문장 토큰 분류에 관련된 강의를 수강하였습니다. BERT 모델 기반의 단일 문장 분류 KLUE 데이터 셋 의존 구문 분석: 단어들 사이의 관계를 분석하는 task 의미의 중심이 되는 지배소와 지배소가 갖는 의미를 보완해주는 의존소로 구성되어 있음 지배소는 후위언으로 항상 의존소보다 뒤에 위치, 교차 의존 구조는 없음 sequence labeling 방식으로 앞 어절에 의존소가 없고 다음..

    [부스트캠프][P-stage][WK09 / Day40] KLUE RE 4

    1. 금일 목표 EDA는 끝나지 않는다 강의 5,6 강 entity, label issue 정리하기 대웅님과 모각공(1시 반) 2. 진행사항 1) EDA는 끝나지 않는다 위와 같은 방식으로 각 label과 entity간의 관계에 대해 EDA 했습니다. 모든 클래스에 대해 관계 파악을 완료 했습니다. 자세한 내용은 팀 Github의 colab notebook에서 확인 가능합니다. 2) 강의 5,6 강 오늘도 듣지 못했습니다 ㅠㅠ 3) entity, label issue 정리하기 팀원들과 함께 모여 다음과 같은 sheet에 특성에 대해 정리하였습니다. 캡쳐로는 보이지 않게 했습니다. 4) 대웅님과 모각공(1시 반) 1시 반부터 모여서 EDA를 합께하고 이슈를 공유하며 마무리 하였습니다. 3. 피어세션 정리 ..

    [부스트캠프][P-stage][WK09 / Day39] KLUE RE 3

    1. 금일 목표 가지고 있는 코드 깔끔하게 정리하기 추가적인 EDA, 전처리 할 수 있는데까지 하기 강의 5,6 강 entity, label issue 정리하기 2. 진행사항 1) 가지고 있는 코드 깔끔하게 정리하기 나름대로 level-1 때의 기억을 살려서 정리했습니다. 팀과 코드를 합치며 많은 부분이 달라질 예정입니다. 2) 추가적인 EDA, 전처리 할 수 있는데까지 하기 위와 같은 방식으로 각 label과 entity간의 관계에 대해 EDA 했습니다. 자세한 내용은 팀 Github의 colab notebook에서 확인 가능합니다. 3) 강의 5,6 강 아직 수강하지 못했습니다 ㅠㅠ 4) entity, label issue 정리하기 EDA를 아직 완전히 끝마치지 않아 마무리 후 정리 예정입니다. 5)..

    [부스트캠프][P-stage][WK09 / Day38] KLUE RE 2

    1. 금일 목표 모자란 EDA 추가 진행 EDA 바탕으로 Pororo word_translation 등을 이용해 명훈님 코드 base로 전처리 코드 작성 강의 3, 4강 수강 OPTUNA 2. 진행사항 1) 모자란 EDA 추가 진행 POH 기준, Object Entity랑 Label 잘못 된 것들 수정하자! 나라는 LOC인가 ORG인가? 과연 Object Entity가 하나로 정해져야 하는 걸까? 맥락에 따라 달라지는 경우: e.g. 김 씨가문 : ORG, 김씨는~ : PER 물론 명백히 잘못된 것도 있다. PTR 적용에 있어 올바른 entity type은 중요 Hierarchical 분석 2) EDA 바탕으로 Pororo word_translation 등을 이용해 명훈님 코드 base로 전처리 코드 작..

    [부스트캠프][P-stage][WK09 / Day37] KLUE RE 1

    강의가 있지만 대부분의 내용이 복습이므로 따로 정리하지 않았습니다. 1. 금일 목표 간단한 EDA 및 전처리(cleansing) 방식 생각해보기 Special Mission 수행 TUNIB koelectra 학습 및 제출 2. 진행사항 1) 간단한 EDA 및 전처리(cleansing) 방식 생각해보기 데이터가 전체적으로 깨끗하며 RE task이기 때문에 subject와 object를 고려하여 함부로 cleansing하기 어려운 issue가 있음. 이를 훼손하지 않는 선에서의 전처리가 필요해 보임. train_test_split을 활용하여 train, validation set 구분. random_state=42, stratify 적용, train:test = 8:2 koelectra 등 한글 위주의 모델..

    [부스트캠프][WK07 / Day33] Self-supervised Pre-training Models 2

    1. 강의 내용 Advanced Self-supervised Pre-training Models (주재걸 교수님) 1) GPT-2 모델 구조는 GPT-1과 크게 다를 바 없고 단지 transformer layer를 많이 쌓고 다음 단어를 예측하는 task입니다. 또한 데이터의 양과 질을 모두 높였습니다. GPT-2는 자연어 처리의 대부분의 문제가 QA로 해결된다는 주장을 한 논문 The Natural Language Decathlon: Multitask Learning as Question Answering에서 영감을 받았습니다. GPT-2의 데이터셋은 Reddit이라는 사이트에서 3개 이상의 좋아요를 받은 글들에 대해 외부 링크의 글을 포함해 수집했습니다. 전처리는 BERT에서의 wordpiece와 비..

    [부스트캠프][WK07 / Day32] Self-supervised Pre-training Models 1

    1. 강의 내용 Self-supervised Pre-training Models (주재걸 교수님) 1) GPT-1 GPT-1은 , , $와 같은 special token을 적용해 다양한 자연어처리 task를 동시에 커버할 수 있는 통합된 모델을 제안합니다. [출처][https://blog.openai.com/language-unsupervised/] 위의 그림을 보면 Text & Position Embedding을 거친 후, self-attention block을 12개 쌓은 구조를 가집니다. 이 모델은 두 task를 가지는데, Text Prediction은 첫 단어부터 순차적으로 다음 단어를 예측하는 Language modeling task입니다. Text Classifier는 Extract토큰이 문장..

    [부스트캠프][WK07 / Day31] Transformer (2)

    1. 강의 내용 Transformer (2) (주재걸 교수님) 1) Multi-Head Attention attention module에 Q, K, V를 Linear($W_Q, W_K, W_V$)를 거쳐 입력으로 입력으로 넣게 되는데, 여기서 서로 다른 버전의 attention의 개수 만큼 서로 다른 encoding vector가 나오고, 해당 vector들을 concat 하면 Multi-Head Attention이 나옵니다. 여기서 동일한 시퀀스 정보가 주어졌을 때, 동일한 query word에 대해서 여러가지 다양한 측면의 데이터를 필요로 할 수 있으며 이럴때 하나의 attention으로는 모든 정보를 담을 수 없으므로 서로 다른 정보를 병렬적으로 뽑고 그 정보들을 합치는 형태로 구성하게 됩니다. [..