- 강의가 있지만 대부분의 내용이 복습이므로 따로 정리하지 않았습니다.
1. 금일 목표
- 간단한 EDA 및 전처리(cleansing) 방식 생각해보기
- Special Mission 수행
- TUNIB koelectra 학습 및 제출
2. 진행사항
1) 간단한 EDA 및 전처리(cleansing) 방식 생각해보기
데이터가 전체적으로 깨끗하며 RE task이기 때문에 subject와 object를 고려하여 함부로 cleansing하기 어려운 issue가 있음. 이를 훼손하지 않는 선에서의 전처리가 필요해 보임.
- train_test_split을 활용하여 train, validation set 구분.
- random_state=42, stratify 적용, train:test = 8:2
- koelectra 등 한글 위주의 모델을 사용하기 때문에 한자가 들어가 있는 경우 처리 필요
- 영어 소문자 처리(lower) 여부
- 이중 괄호가 되어 있을 경우 내부 괄호 반복 문제 발견
적용해볼만한 처리기법
- kss 라이브러리 사용
- 한자 -> 한글 처리 번역툴 이용
- k-fold cross validation
2) Special Mission 수행
정규표현식을 이용하여 수행하는 과제 였습니다.
난이도 상 문제는 아직 해결하지 못했습니다.
3) TUNIB koelectra 학습 및 제출
아래와 같은 세팅으로 학습을 진행하였습니다. 하지만 무엇인가 잘못되었는지 성능이 너무 낮습니다. large 모델과 ko-en 모델을 모두 이용해 새로 실험해 볼 예정입니다.
)
)
3. 피어세션 정리
- 스몰톡
- 롤 체킹 : 주간, 일일 목표 공유 및 진행상황 체크
- 강의 질의응답 + 어떻게 적용할지 discussion
'네이버 부스트캠프 > LEVEL-2' 카테고리의 다른 글
[부스트캠프][P-stage][WK09 / Day39] KLUE RE 3 (0) | 2021.10.02 |
---|---|
[부스트캠프][P-stage][WK09 / Day38] KLUE RE 2 (0) | 2021.10.02 |
[부스트캠프][WK07 / Day34] 7주차 NLP Transformer 이후 연구 동향 정리 (0) | 2021.09.18 |
[부스트캠프][WK07 / Day33] Self-supervised Pre-training Models 2 (0) | 2021.09.18 |
[부스트캠프][WK07 / Day32] Self-supervised Pre-training Models 1 (0) | 2021.09.16 |