네이버 부스트캠프/LEVEL-2

[부스트캠프][P-stage][WK09 / Day37] KLUE RE 1

  • 강의가 있지만 대부분의 내용이 복습이므로 따로 정리하지 않았습니다.

1. 금일 목표

  • 간단한 EDA 및 전처리(cleansing) 방식 생각해보기
  • Special Mission 수행
  • TUNIB koelectra 학습 및 제출

2. 진행사항

1) 간단한 EDA 및 전처리(cleansing) 방식 생각해보기

데이터가 전체적으로 깨끗하며 RE task이기 때문에 subject와 object를 고려하여 함부로 cleansing하기 어려운 issue가 있음. 이를 훼손하지 않는 선에서의 전처리가 필요해 보임.

  1. train_test_split을 활용하여 train, validation set 구분.
    • random_state=42, stratify 적용, train:test = 8:2
  2. koelectra 등 한글 위주의 모델을 사용하기 때문에 한자가 들어가 있는 경우 처리 필요
    image
  3. 영어 소문자 처리(lower) 여부
  4. 이중 괄호가 되어 있을 경우 내부 괄호 반복 문제 발견
    image
    image

적용해볼만한 처리기법

  1. kss 라이브러리 사용
  2. 한자 -> 한글 처리 번역툴 이용
  3. k-fold cross validation

2) Special Mission 수행

정규표현식을 이용하여 수행하는 과제 였습니다.
난이도 상 문제는 아직 해결하지 못했습니다.

3) TUNIB koelectra 학습 및 제출

아래와 같은 세팅으로 학습을 진행하였습니다. 하지만 무엇인가 잘못되었는지 성능이 너무 낮습니다. large 모델과 ko-en 모델을 모두 이용해 새로 실험해 볼 예정입니다.

)

)


3. 피어세션 정리

  • 스몰톡
  • 롤 체킹 : 주간, 일일 목표 공유 및 진행상황 체크
  • 강의 질의응답 + 어떻게 적용할지 discussion