1. 강의 내용

원시 데이터의 수집과 가공 (한지윤님)

1) 원시 데이터의 정의

과제를 해결하기 위해 특정 도메인, 장르, 주제 등에 대하여 조건에 맞춰 수집하였으나, 주석 단계를 거치지 않은 상태의 데이터
원하는 형태로 가공하기 이전의 데이터로 목적에 맞는 전처리 과정을 거쳐 가공이 되어야 활용할 수 있음

원시 텍스트 수집 시 검토 사항

원시 데이터 수집 절차 예시

원시 텍스트 데이터의 종류

원시 텍스트 데이터 사용역(장르)에 따른 분류

문어
- 신문기사, 소설, 수필, 논문, 잡지, 보고서 등
구어(음성 파일을 텍스트로 전사)
- 일상 대화, 연설, 강연
- 준구어 : 방송 대본, 영화 대본 등
웹
- SNS, 커뮤니티 게시판, 메신저 대화, 블로그, 이메일 등

원시 텍스트 데이터의 메타 정보

텍스트 외에 텍스트를 설명하는 정보
텍스트 ID, 이름, 저장 정보, 매체 정보, 주석 정보, 출처, 형태/구문 분석 정보 등을 사전에 정해진 양식에 맞춰 기록

2) 원시 데이터 수집 시 고려 사항

획득 가능성

획득이 불가능하거나 통제 불가능한 주기를 가지고 있다면 원시데이터의 정책에 의존하게 되므로 바람직하지 않음
획득이 용이하더라도 서비스 활용 측면에서 데이터를 활용하기 위해 가공 처리에 많은 비용이 드는 데이터는 선정하기 어려움.
직접 산출이 어려운 경우 획득 난이도 측면에서 트래픽량과 저장 처리 장치의 용량 등을 고려 대상, 획득 대상의 대안 필요.

데이터 균형과 다양성
개체의 다양성 , 목적 및 상황의 다양성 , 시간별, 종류별, 사람별, 지역별 다양성
신뢰성
데이터의 품질이 신뢰할 수 있는지 검토
법 제도 준수
개인정보 및 사생활 보호가 필요한 항목 획득 시, 개인정보보호법 등에 따라 적절한 법적, 기술적 절차를 거친 데이터를 활용하며, 그렇지 않은 데이터는 정제 과정에서 처리될 수 있도록 함
저작권
원시 데이터에 주석 작업을 하는 경우, 결과물은 2차적 저작물로 간주되며 라이센스는 원시 데이터를 따름

-> http://ccl.cckorea.org/

데이터 윤리

3) 원시 데이터 전처리

전처리 단계

추출 대상 확인
- 메타 정보
- 주석 대상 텍스트
  - 주석 대상 표현 포함 텍스트 여부
  - 텍스트 길이 범위
불필요 요소 제거 및 변환
- 개인정보 비식별화
- 비윤리적 표현 정제
정제 대상 확인
- 숫자, 외국어, 기호, 이모지
- 띄어쓰기, 맞춤법, 오탈자
- 개인 정보
- 문장 분리

말뭉치 정제 기준 예시

4) 원시 데이터의 가공 - 주석 도구

주석(annotation,ilabeling)

원시 데이터를 가공하여 원하는 정보를 부착하는 작업. 텍스트를 단순히 분류하여(긍부정, 주제) 해당 분류를 텍스트에 삽입하거나 개체명, 관계 정보 등의 정보를 문자열에 직접 주석할 수 있음.
주석 시에는 다양한 도구(tool)가 사용됨

주석 도구의 종류

구글 스프레드 시트
- 여러 명의 작업자 동시 작업 가능
- 작업과 동시에 저장
- 데이터 관리 용이
- csv 형식으로 export 가능
구글 폼
- 단순 분류 문제 등 복잡한 주석 도구가 필요하지 않은 경우에 적합.
- 결과를 구글 스프레드 시트로 확인할 수 있음.
- 작업자 모집에도 활용
Brat
- 오픈 소스 데이터 주석기
- 오래 전 발표 됨
Doccano
- NER, 감성분석, 기계 번역 등 주석 기능 제공
- 서버 또는 로컬에 설치하여 사용
- https://doccano.github.io/doccano/
Tagtog
- 웹 기반 주석 도구
- 다양한 형식 지원
- 무료 이용시 데이터 공개
- https://tagtog.net/
참고: https://aihub.or.kr/intro/guide

데이터 구축 작업 설계 (한지윤님)

1) 데이터 구축 프로세스

Natural Language Annotation for Machine Learning [Book]

데이터 구축 프로세스 정의 예시

도표로 정리, 흐름 파악
줄글로 정리, 세부 사항
표로 정리, 가독성

『인공지능 (AI) 학습용 데이터 품질관리 가이드라인 (v.1.0)』,
한국지능정보사회진흥원
『인공지능 (AI) 학습용 데이터셋 구축 안내서』, 한국지능정보사회진흥원

-> 기본적으로 전체 흐름도를 그린 후 줄글이냐 표 형식이냐를 정함

2) 데이터 주석

데이터 주석 유형 1 분류

문장 또는 텍스트에 대한 분류 레이블 주석하는 유형 : 감성 분석, 주제 분류, 자연어 추론 등
구축 난이도는 일반적으로 낮은 편

reference

데이터 주석 유형 2 특정 범위(span) 주석 - NER

텍스트의 일부를 선택하여 특정한 레이블을 주석하는 유형 – 개체명, 형태 분석 등

reference

데이터 주석 유형 2 특정 범위(span) 주석 – 형태 분석

텍스트의 일부를 선택하여 특정한 레이블을 주석하는 유형 – 개체명, 형태 분석 등
구축 난이도는 과제에 따라 다름 (스팬의 위치가 중요)

reference

데이터 주석 유형 3 대상 간 관계 주석 – 개체명 연결

대상 간 관계를 주석하는 유형 – 관계 추출, 개체명 연결, 구문 분석 등
두 단계에 걸쳐 구축 해야 하므로 구축 난이도는 높은 편

reference

데이터 주석 유형 3 대상 간 관계 주석 – 구문 분석

대상 간 관계를 주석하는 유형 – 관계 추출, 개체명 연결, 구문 분석 등
두 단계에 걸쳐 구축 해야 하므로 구축 난이도는 높은 편

reference

데이터 주석 유형 4 텍스트 생성 – 번역

주어진 텍스트에 대한 텍스트 또는 발화를 생성하는 유형 – 대화문, 번역, 요약 등

reference

데이터 주석 유형 5 그 외 – 복합 유형

앞선 유형의 데이터 구축 방식을 복합적으로 사용하여 다양한 정보를 주석하는 유형 (질의 응답, 슬롯필링 대화 등)

reference

3) 데이터 검수

가이드라인 정합성: 각 주석 절차 및 주석 내용이 가이드라인에 부합하는지 확인
데이터 형식: 메타 정보, 레이블, 텍스트 내용 등의 형식이 맞는지 확인
통계 정보: 메타 정보 및 레이블의 분포, 문장 길이, 단위 별 규모 확인
모델 성능 확인: 모델 학습을 통해 결과값 확인

오류 원인 분석

구축방법 측면의 오류 원인 : 모델·데이터의 대상 선정, 수집, 정제, 라벨링 등의 통제 미흡으로 인하여 구축 절차, 구조, 학습모델 측면의 다양한 오류 데이터 생성
가이드라인 측면의 오류 원인 : 구축 가이드라인의 불완전성, 미준수로 인하여 작업자간 서로 상이하게 작업을 수행하거나 데이터간 일관성 위배
데이터셋 측면의 오류 원인 : 데이터셋 설계의 부족, 구문정확성 위배, 데이터 구축 중복 등
학습모델 측면의 오류 원인 : 학습모델에 적합한 데이터 구축이 수행되지 않았거나, 잘못된 학습모델 선정으로 데이터 구축 방향이 잘못된 경우

데이터 검수 유형

데이터 평가

4) 데이터 구축 프로세스 설계 시 유의 사항

데이터 구축 기간은 넉넉하게 설정할 것
검수에 충분한 시간을 확보할 것
검수 내용을 어느 시점에 어떻게 반영할 것인가 하는 계획을 세울 것
품질 미달인 경우의 보완책을 마련할 것
작업 난이도에 따라 참여 인력을 산정하고, 참여 인력 모집 및 관리를 어떻게 할 것인지 고민할 것
각 단계별 작업의 주체를 고려할 것
각 단계별 검수 유형을 지정해둘 것
외부 인력 및 자원을 활용하는 경우 비용 산정을 위해 기본 단가 산정 기준을 잘 세울 것

참고 문헌

Natural Language Annotation for Machine Learning Book by Amber Stubbs and James Pustejovsky

데이터 구축 가이드라인 작성 기초 (한지윤님)

1) 가이드라인의 유형

목적에 따른 가이드라인

수집을 위한 가이드라인
주석을 위한 가이드라인
검수를 위한 가이드라인

제시 방식에 따른 가이드라인

문서형
화면 노출형 튜토리얼 형

문서형 가이드라인 예시

한국어 학습자 말뭉치 구축 가이드라인

튜토리얼 가이드라인 예시

https://www.cashmission.com/cashmission_guide/53

2) 가이드라인의 구성 요소

공동 가이드라인

데이터 구축 목적 정의
데이터 구축 시 고려 사항
사용 용어 정의

수집을 위한 가이드라인

데이터 수집 및 정제 작업
- 데이터 정의
- 수집 데이터 특성 분석
- 수집 데이터 정제 방식
- 수집 도구 및 정제 도구
- 수집 시 고려 사항

주석을 위한 가이드라인

데이터 주석 작업
- 데이터 특성 분류 체계
- 데이터 주석 방법 및 절차
- 데이터 주석 형식과 정의
- 데이터 주석 도구 사용법
- 데이터 주석 완료 후 관리 방법
- 반려 및 통과 기준

검수를 위한 가이드라인

데이터 검수 및 평가
- 검수 절차 정의
- 검수 방식
- 평가 지표
- 검수 결과 분석법
- 검수 결과 반영법

데이터 구축 목적 정의 예시

작업자들의 작업에 대한 이해도를 높여 더 높은 품질의 데이터를 만들 수 있도록 돕는 역할

『인공지능 (AI) 학습용 데이터 품질관리 가이드라인 (v.1.0)』,
한국지능정보사회진흥원
『인공지능 (AI) 학습용 데이터셋 구축 안내서』, 한국지능정보사회진흥원

데이터 구축 가이드라인 용어 정의

https://alt.qcri.org/semeval2016/task5/data/uploads/absa2016_annotationguidelines.pdf

데이터 수집 가이드라인 예

https://kcorpus.korean.go.kr/boardFileDownload.data?seq=63

데이터 체계 제시 예시

어떤 식으로 무엇을 주석해야는지 정해야 함
억양 단위에 따라 ?,.! 등을 붙여줌
https://kcorpus.korean.go.kr/boardFileDownload.data?seq=63
PTB의 체계
https://www.cis.upenn.edu/~bies/manuals/tagguide.pdf

데이터 구축 도구 사용법 예시

https://balsamiq.com/learn/articles/wireframe-annotations/

3) 가이드라인의 버전 관리

가이드라인은 구축과 검수 과정을 통해 지속적으로 개정되어야 함.
개정 전과 개정 후 어떤 것이 변화하였는지 비교하여 볼 수 있도록 버전 관리가 되는 것이 가장 좋음.
버전별로 작성자와 개정일을 기입해두는 것이 관리에 도움이 됨.

4) 가이드라인 작성 도구

Google Docs
Notion
워드 및 한글
레이블링 에이전시에서 제공하는 도구
위키

5) 가이드라인 작성 시 유의 사항

가이드라인의 유형별 특성을 이해하고 그에 알맞는 정보를 작성한다.
작업자의 작업 이해도를 고려하여 작성한다.
작업자에게 공개해야 하는 필수 정보와 부가적인 정보가 무엇인지 사전에 고려한다.
가이드라인 구성 요소의 배치를 어떻게 할 지 고민한다.
- 튜토리얼 진행 식으로 할 경우
작업자의 가독성을 고려한다.
- 너무 많은 정보 X, 핵심 사항의 강조

2. 피어세션 정리

스몰톡
강의 일정 및 내용 질의응답
데이터 제작 스페셜 미션 계획
- 오피스아워에서 tagtog 사용법 수강
최종 프로젝트
- <팀 구분>
- <프로젝트 주제 및 데이터셋> 좁히기

저작자표시 (새창열림)

'네이버 부스트캠프 > LEVEL-3' 카테고리의 다른 글

[부스트캠프][P-stage][WK15 / Day4,5] 관계 추출 (0)	2021.11.12
[부스트캠프][P-stage][WK15 / Day2] 자연어처리 데이터 소개 (0)	2021.11.12
[부스트캠프][P-stage][WK15 / Day1] 데이터제작 Introduction (0)	2021.11.12

1. 강의 내용

원시 데이터의 수집과 가공 (한지윤님)

1) 원시 데이터의 정의

원시 텍스트 수집 시 검토 사항

원시 데이터 수집 절차 예시

원시 텍스트 데이터의 종류

원시 텍스트 데이터의 메타 정보

2) 원시 데이터 수집 시 고려 사항

3) 원시 데이터 전처리

전처리 단계

말뭉치 정제 기준 예시

4) 원시 데이터의 가공 - 주석 도구

주석(annotation,ilabeling)

주석 도구의 종류

데이터 구축 작업 설계 (한지윤님)

1) 데이터 구축 프로세스

데이터 구축 프로세스 정의 예시

2) 데이터 주석

데이터 주석 유형 1 분류

데이터 주석 유형 2 특정 범위(span) 주석 - NER

데이터 주석 유형 2 특정 범위(span) 주석 – 형태 분석

데이터 주석 유형 3 대상 간 관계 주석 – 개체명 연결

데이터 주석 유형 3 대상 간 관계 주석 – 구문 분석

데이터 주석 유형 4 텍스트 생성 – 번역

데이터 주석 유형 5 그 외 – 복합 유형

3) 데이터 검수

오류 원인 분석

데이터 검수 유형

데이터 평가

4) 데이터 구축 프로세스 설계 시 유의 사항

참고 문헌

데이터 구축 가이드라인 작성 기초 (한지윤님)

1) 가이드라인의 유형

목적에 따른 가이드라인

제시 방식에 따른 가이드라인

문서형 가이드라인 예시

튜토리얼 가이드라인 예시

2) 가이드라인의 구성 요소

공동 가이드라인

수집을 위한 가이드라인

주석을 위한 가이드라인

검수를 위한 가이드라인

데이터 구축 목적 정의 예시

데이터 구축 가이드라인 용어 정의

데이터 수집 가이드라인 예

데이터 체계 제시 예시

데이터 구축 도구 사용법 예시

3) 가이드라인의 버전 관리

4) 가이드라인 작성 도구

5) 가이드라인 작성 시 유의 사항

2. 피어세션 정리

'네이버 부스트캠프 > LEVEL-3' 카테고리의 다른 글

티스토리툴바