1. 강의 내용
자연어처리 데이터 소개 1 (한지윤님)
1) 국내 언어 데이터의 구축 프로젝트
2) 21세기 세종 계획과 모두의 말뭉치
21세기 세종 계획
- '21세기 세종계획'은 1997년에 그 계획이 수립되었고 이듬해인 1998년부터 2007년까지 10년 동안 시행된 한국의 국어 정보화 중장기 발전 계획(홍윤표, 2009) 총 2억 어절의 자료 구축, 공개
- XML 형식, 언어정보나눔터 누리집을 통해 배포하다 중단 후 DVD로만 배포
모두의 말뭉치
- 인공지능의 한국어 처리 능력 향상에 필수적인 한국어 학습 자료 공개 플랫폼. '21세기 세종계획'에 비해 일상 대화, 메신저, 웹 문서 등 구어체 자료의 비중을 높임. 다층위 주석 말뭉치 포함(형태, 구문, 어휘 의미, 의미역, 개체명, 상호 참조 등)
- JSONU형식,U모두의 말뭉치 누리집(https://corpus.korean.go.kr/)에서 배포
-> 학습, 검증, 평가용 데이터가 나누어져 있지 않으므로 사용자가 직접 나누어 사용해야 함.
세종 형태 분석 태그표
Mecap, Khaiii, kkma, Hannanum, komoran 등에서 채택
https://docs.google.com/spreadsheets/d/1OGAjUvalBuX-oZvZ_-9tEfYD2gQe7hTGsgUpiiBSXI8/edit?usp=sharing
3) 엑소브레인
- 엑소브레인(ExoBrain) : 내 몸 바깥에 있는 인공 두뇌
- 엑소브레인은 인간의 지적 노동을 보조할 수 있는 언어처리 분야의 AI 기술개발을 위해, 전문직 종사자(예: 금융, 법률, 또는 특허 등)의 조사·분석 등의 지식노동을 보조 가능한 1. 언어 문법 분석을 넘어선 언어의 의미 추론 기술 개발, 2. 전문분야 원인, 절차, 상관관계 등 고차원 지식 학습 및 축적 기술 개발, 3. 전문분야 대상 인간과 기계의 연속적인 문답을 통한 심층질의응답 기술 개발 및 국내외 표준화를 통해 핵심 IPR을 확보하는 우리나라 대표 인공지능 국가 R&D 프로젝트.
- 21세기 세종 계획에서 개발된 주석 말뭉치의 체계를 확장하고 추가하여 TTA 표준안 마련(형태, 구문, 개체명)
- http://exobrain.kr/pages/ko/business/index.jsp
4) AI 허브
- AI 허브는 AI 기술 및 제품·서비스 개발에 필요한 AI 인프라(AI 데이터, AI SW API, 컴퓨팅 자원)를 지원하는 누구나 활용하고 참여하는 AI 통합 플랫폼
- 데이터별로 데이터 설명서, 구축활용 가이드 제공
- JSON, 엑셀 등 다양한 형식의 데이터 제공
- 실제 산업계 수요 조사를 반영하여 다양한 TASK를 수행할 수 있는 자원 구축
5) 민간 주도 데이터셋
KLUE
- 한국어 이해 능력 평가를 위한 벤치마크
- 뉴스 헤드라인 분류
- 문장 유사도 비교
- 자연어 추론
- 개체명 인식
- 관계 추출
- 형태소 및 의존 구문 분석
- 기계 독해 이해
- 대화 상태 추적
KorQuAD 1.0 & 2.0
- KorQuAD 2.0은 KorQuAD 1.0에서 질문답변 20,000+ 쌍을 포함하여 총 100,000+ 쌍으로 구성된 한국어 기계 독해(Machine Reading Comprehension) 데이터셋
- 스탠포드 대학교에서 공개한 SQuAD(https://rajpurkar.github.io/SQuADexplorer/) 를 벤치마킹 (CC BY-ND 2.0 KR)
- https://korquad.github.io/
KorNLU
- 영어로 된 자연어 추론(NLI,Natural language inference) 및 문장 의미 유사도(STS, semantic textual similarity) 데이터셋을 기계 번역하여 공개 (CC BY-SA 4.0)
- https://github.com/kakaobrain/KorNLUDatasets
자연어처리 데이터 소개 2 (한지윤님)
최신 자연어처리 데이터를 찾는 법
- http://nlpprogress.com/
- https://paperswithcode.com/search?q_meta=&q_type=&q=lexical+semantic
- https://aclweb.org/aclwiki/Main_Page
1) 질의응답 (Question Answering)
SQuAD
- 위키피디아 데이터를 기반으로 제작한 기계 독해 및 질의응답 데이터
- URL : https://rajpurkar.github.io/SQuADexplorer/
SQuAD1.0
- 데이터 구축
- 구축 대상 기사 추출 위키피디아 상위 10,000 기사 중 500자 이하인 536 기사 무작위 추출
- 크라우드 소싱을 통한 질의 응답 수집, 각 문단마다 다섯 개의 질문과 답변 수집
- 추가 응답 수집, 평가를 통해서 각 질문 당 최소 두 개의 추가적인 답변 수집. 기사의 단락과 질문 노출 후 가장 짧은 대답 선택
- https://arxiv.org/pdf/1606.05250.pdf
SQuAD2.0
- 데이터 형식: https://rajpurkar.github.io/SQuAD-explorer/explore/v2.0/dev/Amazon_rainforest.html
- 데이터 구축
- 크라우드 소싱 플랫폼을 통한 대답하기 어려운 질문(unanswerable questions) 수집
- 각 문단마다 각 문단 만으로는 대답할 수 없는 다섯 개의 질문 생성
- 적합한 질문을 25개 이하로 남김
- 적합한 질문이 수집되지 않은 기사 삭제
- 학습, 검증, 평가용 데이터 분할
- 크라우드 소싱 플랫폼을 통한 대답하기 어려운 질문(unanswerable questions) 수집
- https://arxiv.org/abs/1806.03822
2) 기계 번역 (Machine Translation)
WMT 데이터셋
- 2014년부터 시행된 기계 번역 학회에서 공개한 데이터셋 다국어 번역 데이터이며, 두 언어간의 병렬 말뭉치로 구성됨. 뉴스, 바이오, 멀티 모달 데이터 등이 제공됨
- 평가용 데이터 : 1,500개의 영어 문장을 다른 언어로 번역 +1,500개의 문장은 다른 언어에서 영어 문장으로 번역
- 훈련용 데이터 : 기존에 존재하는 병렬 말뭉치와 단일 언어 말뭉치를 제공
- http://www.statmt.org/wmt18/pdf/WMT028.pdf
3) 요약 (Text Summarization)
CNN/Daily Mail
- 추상 요약 말뭉치. 기사에 대하여 사람이 직접 작성한 요약문이 짝을 이루고 있음.
- 학습 데이터 286,817쌍, 검증 데이터 13,368쌍, 평가 데이터 11,487쌍으로 구성
- https://github.com/abisee/cnn-dailymail
4) 대화 (Dialogue)
DSTC - Dialog System Technology Challenges
- DSTC1: human-computer dialogs in the bus timetable domain
- DSTC2 and DSTC3: human-computer dialogs in the restaurant information domain
- DSTC4 and DSTC5: DSTC4 human-human dialogs in the tourist information domain
- DSTC6 이후: End-to-End Goal Oriented Dialog Learning, End-to-End Conversation Modeling, and Dialogue Breakdown Detection로 확장
Wizard-of-Oz
- WoZ 방식으로 수집된 데이터셋이며 대화 상태 추적 데이터와 유사한 형태로 이루어짐
- Woz 방식은 대화 수집 방식의 하나로, 참여자가 대화시스템을 통해 대화를 하고 있다고 생각하게 한 뒤 실제로는 실제 사람이 참여자의 발화에 맞추어 응답을 제시하고 대화를 이끌어나면서 대화를 수집하는 방식
- https://huggingface.co/datasets/woz_dialogue
UDC4(Ubuntu4Dialogue4Corpus)
- 우분투 플랫폼 포럼의 대화를 수집한 데이터
- 100만 개의 멀티 턴 대화로 구성, 700만 개 이상의 발화와 1억개의 단어 포함, 특별한 레이블이 주석되어 있지 않음.
- 대화 상태 추적과 블로그 등에서 보이는 비구조적 상호작용의 특성을 모두 가지고 있음
- https://arxiv.org/pdf/1506.08909v3.pdf
2. 피어세션 정리
- 스몰톡 + 개별 계획
- 강의 일정 및 내용 질의응답
- 데이터 제작 스페셜 미션 계획
- 최종 프로젝트
- 인원별 의견 정리
- 아이디어 정리 및 실현 가능성 확인
'네이버 부스트캠프 > LEVEL-3' 카테고리의 다른 글
[부스트캠프][P-stage][WK15 / Day4,5] 관계 추출 (0) | 2021.11.12 |
---|---|
[부스트캠프][P-stage][WK15 / Day3] Dataset Construction (0) | 2021.11.12 |
[부스트캠프][P-stage][WK15 / Day1] 데이터제작 Introduction (0) | 2021.11.12 |