1. 강의 내용
원시 데이터의 수집과 가공 (한지윤님)
1) 원시 데이터의 정의
- 과제를 해결하기 위해 특정 도메인, 장르, 주제 등에 대하여 조건에 맞춰 수집하였으나, 주석 단계를 거치지 않은 상태의 데이터
- 원하는 형태로 가공하기 이전의 데이터로 목적에 맞는 전처리 과정을 거쳐 가공이 되어야 활용할 수 있음
원시 텍스트 수집 시 검토 사항
원시 데이터 수집 절차 예시
원시 텍스트 데이터의 종류
원시 텍스트 데이터 사용역(장르)에 따른 분류
- 문어
- 신문기사, 소설, 수필, 논문, 잡지, 보고서 등
- 구어(음성 파일을 텍스트로 전사)
- 일상 대화, 연설, 강연
- 준구어 : 방송 대본, 영화 대본 등
- 웹
- SNS, 커뮤니티 게시판, 메신저 대화, 블로그, 이메일 등
원시 텍스트 데이터의 메타 정보
- 텍스트 외에 텍스트를 설명하는 정보
- 텍스트 ID, 이름, 저장 정보, 매체 정보, 주석 정보, 출처, 형태/구문 분석 정보 등을 사전에 정해진 양식에 맞춰 기록
2) 원시 데이터 수집 시 고려 사항
- 획득 가능성
- 획득이 불가능하거나 통제 불가능한 주기를 가지고 있다면 원시데이터의 정책에 의존하게 되므로 바람직하지 않음
- 획득이 용이하더라도 서비스 활용 측면에서 데이터를 활용하기 위해 가공 처리에 많은 비용이 드는 데이터는 선정하기 어려움.
- 직접 산출이 어려운 경우 획득 난이도 측면에서 트래픽량과 저장 처리 장치의 용량 등을 고려 대상, 획득 대상의 대안 필요.
- 데이터 균형과 다양성
개체의 다양성 , 목적 및 상황의 다양성 , 시간별, 종류별, 사람별, 지역별 다양성 - 신뢰성
데이터의 품질이 신뢰할 수 있는지 검토 - 법 제도 준수
개인정보 및 사생활 보호가 필요한 항목 획득 시, 개인정보보호법 등에 따라 적절한 법적, 기술적 절차를 거친 데이터를 활용하며, 그렇지 않은 데이터는 정제 과정에서 처리될 수 있도록 함 - 저작권
원시 데이터에 주석 작업을 하는 경우, 결과물은 2차적 저작물로 간주되며 라이센스는 원시 데이터를 따름
- 데이터 윤리
3) 원시 데이터 전처리
전처리 단계
- 추출 대상 확인
- 메타 정보
- 주석 대상 텍스트
- 주석 대상 표현 포함 텍스트 여부
- 텍스트 길이 범위
- 불필요 요소 제거 및 변환
- 개인정보 비식별화
- 비윤리적 표현 정제
- 정제 대상 확인
- 숫자, 외국어, 기호, 이모지
- 띄어쓰기, 맞춤법, 오탈자
- 개인 정보
- 문장 분리
말뭉치 정제 기준 예시
4) 원시 데이터의 가공 - 주석 도구
주석(annotation,ilabeling)
- 원시 데이터를 가공하여 원하는 정보를 부착하는 작업. 텍스트를 단순히 분류하여(긍부정, 주제) 해당 분류를 텍스트에 삽입하거나 개체명, 관계 정보 등의 정보를 문자열에 직접 주석할 수 있음.
- 주석 시에는 다양한 도구(tool)가 사용됨
주석 도구의 종류
- 구글 스프레드 시트
- 여러 명의 작업자 동시 작업 가능
- 작업과 동시에 저장
- 데이터 관리 용이
- csv 형식으로 export 가능
- 구글 폼
- 단순 분류 문제 등 복잡한 주석 도구가 필요하지 않은 경우에 적합.
- 결과를 구글 스프레드 시트로 확인할 수 있음.
- 작업자 모집에도 활용
- Brat
- 오픈 소스 데이터 주석기
- 오래 전 발표 됨
- Doccano
- NER, 감성분석, 기계 번역 등 주석 기능 제공
- 서버 또는 로컬에 설치하여 사용
- https://doccano.github.io/doccano/
- Tagtog
- 웹 기반 주석 도구
- 다양한 형식 지원
- 무료 이용시 데이터 공개
- https://tagtog.net/
- 참고: https://aihub.or.kr/intro/guide
데이터 구축 작업 설계 (한지윤님)
1) 데이터 구축 프로세스
데이터 구축 프로세스 정의 예시
- 도표로 정리, 흐름 파악
- 줄글로 정리, 세부 사항
- 표로 정리, 가독성
『인공지능 (AI) 학습용 데이터 품질관리 가이드라인 (v.1.0)』,
한국지능정보사회진흥원
『인공지능 (AI) 학습용 데이터셋 구축 안내서』, 한국지능정보사회진흥원
-> 기본적으로 전체 흐름도를 그린 후 줄글이냐 표 형식이냐를 정함
2) 데이터 주석
데이터 주석 유형 1 분류
- 문장 또는 텍스트에 대한 분류 레이블 주석하는 유형 : 감성 분석, 주제 분류, 자연어 추론 등
- 구축 난이도는 일반적으로 낮은 편
reference
데이터 주석 유형 2 특정 범위(span) 주석 - NER
- 텍스트의 일부를 선택하여 특정한 레이블을 주석하는 유형 – 개체명, 형태 분석 등
reference
데이터 주석 유형 2 특정 범위(span) 주석 – 형태 분석
- 텍스트의 일부를 선택하여 특정한 레이블을 주석하는 유형 – 개체명, 형태 분석 등
- 구축 난이도는 과제에 따라 다름 (스팬의 위치가 중요)
reference
데이터 주석 유형 3 대상 간 관계 주석 – 개체명 연결
- 대상 간 관계를 주석하는 유형 – 관계 추출, 개체명 연결, 구문 분석 등
- 두 단계에 걸쳐 구축 해야 하므로 구축 난이도는 높은 편
reference
데이터 주석 유형 3 대상 간 관계 주석 – 구문 분석
대상 간 관계를 주석하는 유형 – 관계 추출, 개체명 연결, 구문 분석 등
두 단계에 걸쳐 구축 해야 하므로 구축 난이도는 높은 편
데이터 주석 유형 4 텍스트 생성 – 번역
주어진 텍스트에 대한 텍스트 또는 발화를 생성하는 유형 – 대화문, 번역, 요약 등
데이터 주석 유형 5 그 외 – 복합 유형
앞선 유형의 데이터 구축 방식을 복합적으로 사용하여 다양한 정보를 주석하는 유형 (질의 응답, 슬롯필링 대화 등)
3) 데이터 검수
- 가이드라인 정합성: 각 주석 절차 및 주석 내용이 가이드라인에 부합하는지 확인
- 데이터 형식: 메타 정보, 레이블, 텍스트 내용 등의 형식이 맞는지 확인
- 통계 정보: 메타 정보 및 레이블의 분포, 문장 길이, 단위 별 규모 확인
- 모델 성능 확인: 모델 학습을 통해 결과값 확인
오류 원인 분석
- 구축방법 측면의 오류 원인 : 모델·데이터의 대상 선정, 수집, 정제, 라벨링 등의 통제 미흡으로 인하여 구축 절차, 구조, 학습모델 측면의 다양한 오류 데이터 생성
- 가이드라인 측면의 오류 원인 : 구축 가이드라인의 불완전성, 미준수로 인하여 작업자간 서로 상이하게 작업을 수행하거나 데이터간 일관성 위배
- 데이터셋 측면의 오류 원인 : 데이터셋 설계의 부족, 구문정확성 위배, 데이터 구축 중복 등
- 학습모델 측면의 오류 원인 : 학습모델에 적합한 데이터 구축이 수행되지 않았거나, 잘못된 학습모델 선정으로 데이터 구축 방향이 잘못된 경우
데이터 검수 유형
데이터 평가
4) 데이터 구축 프로세스 설계 시 유의 사항
- 데이터 구축 기간은 넉넉하게 설정할 것
- 검수에 충분한 시간을 확보할 것
- 검수 내용을 어느 시점에 어떻게 반영할 것인가 하는 계획을 세울 것
- 품질 미달인 경우의 보완책을 마련할 것
- 작업 난이도에 따라 참여 인력을 산정하고, 참여 인력 모집 및 관리를 어떻게 할 것인지 고민할 것
- 각 단계별 작업의 주체를 고려할 것
- 각 단계별 검수 유형을 지정해둘 것
- 외부 인력 및 자원을 활용하는 경우 비용 산정을 위해 기본 단가 산정 기준을 잘 세울 것
참고 문헌
Natural Language Annotation for Machine Learning Book by Amber Stubbs and James Pustejovsky
데이터 구축 가이드라인 작성 기초 (한지윤님)
1) 가이드라인의 유형
목적에 따른 가이드라인
- 수집을 위한 가이드라인
- 주석을 위한 가이드라인
- 검수를 위한 가이드라인
제시 방식에 따른 가이드라인
- 문서형
- 화면 노출형 튜토리얼 형
문서형 가이드라인 예시
- 한국어 학습자 말뭉치 구축 가이드라인
튜토리얼 가이드라인 예시
2) 가이드라인의 구성 요소
공동 가이드라인
- 데이터 구축 목적 정의
- 데이터 구축 시 고려 사항
- 사용 용어 정의
수집을 위한 가이드라인
- 데이터 수집 및 정제 작업
- 데이터 정의
- 수집 데이터 특성 분석
- 수집 데이터 정제 방식
- 수집 도구 및 정제 도구
- 수집 시 고려 사항
주석을 위한 가이드라인
- 데이터 주석 작업
- 데이터 특성 분류 체계
- 데이터 주석 방법 및 절차
- 데이터 주석 형식과 정의
- 데이터 주석 도구 사용법
- 데이터 주석 완료 후 관리 방법
- 반려 및 통과 기준
검수를 위한 가이드라인
- 데이터 검수 및 평가
- 검수 절차 정의
- 검수 방식
- 평가 지표
- 검수 결과 분석법
- 검수 결과 반영법
데이터 구축 목적 정의 예시
- 작업자들의 작업에 대한 이해도를 높여 더 높은 품질의 데이터를 만들 수 있도록 돕는 역할
『인공지능 (AI) 학습용 데이터 품질관리 가이드라인 (v.1.0)』,
한국지능정보사회진흥원
『인공지능 (AI) 학습용 데이터셋 구축 안내서』, 한국지능정보사회진흥원
데이터 구축 가이드라인 용어 정의
데이터 수집 가이드라인 예
데이터 체계 제시 예시
- 어떤 식으로 무엇을 주석해야는지 정해야 함
- 억양 단위에 따라 ?,.! 등을 붙여줌
- https://kcorpus.korean.go.kr/boardFileDownload.data?seq=63
- PTB의 체계
- https://www.cis.upenn.edu/~bies/manuals/tagguide.pdf
데이터 구축 도구 사용법 예시
3) 가이드라인의 버전 관리
- 가이드라인은 구축과 검수 과정을 통해 지속적으로 개정되어야 함.
- 개정 전과 개정 후 어떤 것이 변화하였는지 비교하여 볼 수 있도록 버전 관리가 되는 것이 가장 좋음.
- 버전별로 작성자와 개정일을 기입해두는 것이 관리에 도움이 됨.
4) 가이드라인 작성 도구
- Google Docs
- Notion
- 워드 및 한글
- 레이블링 에이전시에서 제공하는 도구
- 위키
5) 가이드라인 작성 시 유의 사항
- 가이드라인의 유형별 특성을 이해하고 그에 알맞는 정보를 작성한다.
- 작업자의 작업 이해도를 고려하여 작성한다.
- 작업자에게 공개해야 하는 필수 정보와 부가적인 정보가 무엇인지 사전에 고려한다.
- 가이드라인 구성 요소의 배치를 어떻게 할 지 고민한다.
- 튜토리얼 진행 식으로 할 경우
- 작업자의 가독성을 고려한다.
- 너무 많은 정보 X, 핵심 사항의 강조
2. 피어세션 정리
- 스몰톡
- 강의 일정 및 내용 질의응답
- 데이터 제작 스페셜 미션 계획
- 오피스아워에서 tagtog 사용법 수강
- 최종 프로젝트
- <팀 구분>
- <프로젝트 주제 및 데이터셋> 좁히기
'네이버 부스트캠프 > LEVEL-3' 카테고리의 다른 글
[부스트캠프][P-stage][WK15 / Day4,5] 관계 추출 (0) | 2021.11.12 |
---|---|
[부스트캠프][P-stage][WK15 / Day2] 자연어처리 데이터 소개 (0) | 2021.11.12 |
[부스트캠프][P-stage][WK15 / Day1] 데이터제작 Introduction (0) | 2021.11.12 |