네이버 부스트캠프/LEVEL-3

[부스트캠프][P-stage][WK15 / Day3] Dataset Construction

1. 강의 내용

원시 데이터의 수집과 가공 (한지윤님)

1) 원시 데이터의 정의

  • 과제를 해결하기 위해 특정 도메인, 장르, 주제 등에 대하여 조건에 맞춰 수집하였으나, 주석 단계를 거치지 않은 상태의 데이터
  • 원하는 형태로 가공하기 이전의 데이터로 목적에 맞는 전처리 과정을 거쳐 가공이 되어야 활용할 수 있음

원시 텍스트 수집 시 검토 사항

원시 데이터 수집 절차 예시

원시 텍스트 데이터의 종류

원시 텍스트 데이터 사용역(장르)에 따른 분류

  • 문어
    • 신문기사, 소설, 수필, 논문, 잡지, 보고서 등
  • 구어(음성 파일을 텍스트로 전사)
    • 일상 대화, 연설, 강연
    • 준구어 : 방송 대본, 영화 대본 등
    • SNS, 커뮤니티 게시판, 메신저 대화, 블로그, 이메일 등

원시 텍스트 데이터의 메타 정보

  • 텍스트 외에 텍스트를 설명하는 정보
  • 텍스트 ID, 이름, 저장 정보, 매체 정보, 주석 정보, 출처, 형태/구문 분석 정보 등을 사전에 정해진 양식에 맞춰 기록

2) 원시 데이터 수집 시 고려 사항

  1. 획득 가능성
  • 획득이 불가능하거나 통제 불가능한 주기를 가지고 있다면 원시데이터의 정책에 의존하게 되므로 바람직하지 않음
  • 획득이 용이하더라도 서비스 활용 측면에서 데이터를 활용하기 위해 가공 처리에 많은 비용이 드는 데이터는 선정하기 어려움.
  • 직접 산출이 어려운 경우 획득 난이도 측면에서 트래픽량과 저장 처리 장치의 용량 등을 고려 대상, 획득 대상의 대안 필요.
  1. 데이터 균형과 다양성
    개체의 다양성 , 목적 및 상황의 다양성 , 시간별, 종류별, 사람별, 지역별 다양성
  2. 신뢰성
    데이터의 품질이 신뢰할 수 있는지 검토
  3. 법 제도 준수
    개인정보 및 사생활 보호가 필요한 항목 획득 시, 개인정보보호법 등에 따라 적절한 법적, 기술적 절차를 거친 데이터를 활용하며, 그렇지 않은 데이터는 정제 과정에서 처리될 수 있도록 함
  4. 저작권
    원시 데이터에 주석 작업을 하는 경우, 결과물은 2차적 저작물로 간주되며 라이센스는 원시 데이터를 따름

-> http://ccl.cckorea.org/

  1. 데이터 윤리

3) 원시 데이터 전처리

전처리 단계

  1. 추출 대상 확인
    • 메타 정보
    • 주석 대상 텍스트
      • 주석 대상 표현 포함 텍스트 여부
      • 텍스트 길이 범위
  2. 불필요 요소 제거 및 변환
    • 개인정보 비식별화
    • 비윤리적 표현 정제
  3. 정제 대상 확인
    • 숫자, 외국어, 기호, 이모지
    • 띄어쓰기, 맞춤법, 오탈자
    • 개인 정보
    • 문장 분리

말뭉치 정제 기준 예시

4) 원시 데이터의 가공 - 주석 도구

주석(annotation,ilabeling)

  • 원시 데이터를 가공하여 원하는 정보를 부착하는 작업. 텍스트를 단순히 분류하여(긍부정, 주제) 해당 분류를 텍스트에 삽입하거나 개체명, 관계 정보 등의 정보를 문자열에 직접 주석할 수 있음.
  • 주석 시에는 다양한 도구(tool)가 사용됨

주석 도구의 종류

  • 구글 스프레드 시트
    • 여러 명의 작업자 동시 작업 가능
    • 작업과 동시에 저장
    • 데이터 관리 용이
    • csv 형식으로 export 가능
  • 구글 폼
    • 단순 분류 문제 등 복잡한 주석 도구가 필요하지 않은 경우에 적합.
    • 결과를 구글 스프레드 시트로 확인할 수 있음.
    • 작업자 모집에도 활용
  • Brat
    • 오픈 소스 데이터 주석기
    • 오래 전 발표 됨
  • Doccano
  • Tagtog
    • 웹 기반 주석 도구
    • 다양한 형식 지원
    • 무료 이용시 데이터 공개
    • https://tagtog.net/
  • 참고: https://aihub.or.kr/intro/guide

데이터 구축 작업 설계 (한지윤님)

1) 데이터 구축 프로세스

Natural Language Annotation for Machine Learning [Book]

데이터 구축 프로세스 정의 예시

  • 도표로 정리, 흐름 파악
  • 줄글로 정리, 세부 사항
  • 표로 정리, 가독성

『인공지능 (AI) 학습용 데이터 품질관리 가이드라인 (v.1.0)』,
한국지능정보사회진흥원

『인공지능 (AI) 학습용 데이터셋 구축 안내서』, 한국지능정보사회진흥원

-> 기본적으로 전체 흐름도를 그린 후 줄글이냐 표 형식이냐를 정함

2) 데이터 주석

데이터 주석 유형 1 분류

  • 문장 또는 텍스트에 대한 분류 레이블 주석하는 유형 : 감성 분석, 주제 분류, 자연어 추론 등
  • 구축 난이도는 일반적으로 낮은 편

    reference

데이터 주석 유형 2 특정 범위(span) 주석 - NER

  • 텍스트의 일부를 선택하여 특정한 레이블을 주석하는 유형 – 개체명, 형태 분석 등

    reference

데이터 주석 유형 2 특정 범위(span) 주석 – 형태 분석

  • 텍스트의 일부를 선택하여 특정한 레이블을 주석하는 유형 – 개체명, 형태 분석 등
  • 구축 난이도는 과제에 따라 다름 (스팬의 위치가 중요)

    reference

데이터 주석 유형 3 대상 간 관계 주석 – 개체명 연결

  • 대상 간 관계를 주석하는 유형 – 관계 추출, 개체명 연결, 구문 분석 등
  • 두 단계에 걸쳐 구축 해야 하므로 구축 난이도는 높은 편

    reference

데이터 주석 유형 3 대상 간 관계 주석 – 구문 분석

대상 간 관계를 주석하는 유형 – 관계 추출, 개체명 연결, 구문 분석 등
두 단계에 걸쳐 구축 해야 하므로 구축 난이도는 높은 편


reference

데이터 주석 유형 4 텍스트 생성 – 번역

주어진 텍스트에 대한 텍스트 또는 발화를 생성하는 유형 – 대화문, 번역, 요약 등


reference

데이터 주석 유형 5 그 외 – 복합 유형

앞선 유형의 데이터 구축 방식을 복합적으로 사용하여 다양한 정보를 주석하는 유형 (질의 응답, 슬롯필링 대화 등)


reference

3) 데이터 검수

  • 가이드라인 정합성: 각 주석 절차 및 주석 내용이 가이드라인에 부합하는지 확인
  • 데이터 형식: 메타 정보, 레이블, 텍스트 내용 등의 형식이 맞는지 확인
  • 통계 정보: 메타 정보 및 레이블의 분포, 문장 길이, 단위 별 규모 확인
  • 모델 성능 확인: 모델 학습을 통해 결과값 확인

오류 원인 분석

  • 구축방법 측면의 오류 원인 : 모델·데이터의 대상 선정, 수집, 정제, 라벨링 등의 통제 미흡으로 인하여 구축 절차, 구조, 학습모델 측면의 다양한 오류 데이터 생성
  • 가이드라인 측면의 오류 원인 : 구축 가이드라인의 불완전성, 미준수로 인하여 작업자간 서로 상이하게 작업을 수행하거나 데이터간 일관성 위배
  • 데이터셋 측면의 오류 원인 : 데이터셋 설계의 부족, 구문정확성 위배, 데이터 구축 중복 등
  • 학습모델 측면의 오류 원인 : 학습모델에 적합한 데이터 구축이 수행되지 않았거나, 잘못된 학습모델 선정으로 데이터 구축 방향이 잘못된 경우

데이터 검수 유형

데이터 평가

4) 데이터 구축 프로세스 설계 시 유의 사항

  • 데이터 구축 기간은 넉넉하게 설정할 것
  • 검수에 충분한 시간을 확보할 것
  • 검수 내용을 어느 시점에 어떻게 반영할 것인가 하는 계획을 세울 것
  • 품질 미달인 경우의 보완책을 마련할 것
  • 작업 난이도에 따라 참여 인력을 산정하고, 참여 인력 모집 및 관리를 어떻게 할 것인지 고민할 것
  • 각 단계별 작업의 주체를 고려할 것
  • 각 단계별 검수 유형을 지정해둘 것
  • 외부 인력 및 자원을 활용하는 경우 비용 산정을 위해 기본 단가 산정 기준을 잘 세울 것

참고 문헌

Natural Language Annotation for Machine Learning Book by Amber Stubbs and James Pustejovsky


데이터 구축 가이드라인 작성 기초 (한지윤님)

1) 가이드라인의 유형

목적에 따른 가이드라인

  • 수집을 위한 가이드라인
  • 주석을 위한 가이드라인
  • 검수를 위한 가이드라인

제시 방식에 따른 가이드라인

  • 문서형
  • 화면 노출형 튜토리얼 형

문서형 가이드라인 예시

  • 한국어 학습자 말뭉치 구축 가이드라인

튜토리얼 가이드라인 예시

2) 가이드라인의 구성 요소

공동 가이드라인

  • 데이터 구축 목적 정의
  • 데이터 구축 시 고려 사항
  • 사용 용어 정의

수집을 위한 가이드라인

  • 데이터 수집 및 정제 작업
    • 데이터 정의
    • 수집 데이터 특성 분석
    • 수집 데이터 정제 방식
    • 수집 도구 및 정제 도구
    • 수집 시 고려 사항

주석을 위한 가이드라인

  • 데이터 주석 작업
    • 데이터 특성 분류 체계
    • 데이터 주석 방법 및 절차
    • 데이터 주석 형식과 정의
    • 데이터 주석 도구 사용법
    • 데이터 주석 완료 후 관리 방법
    • 반려 및 통과 기준

검수를 위한 가이드라인

  • 데이터 검수 및 평가
    • 검수 절차 정의
    • 검수 방식
    • 평가 지표
    • 검수 결과 분석법
    • 검수 결과 반영법

데이터 구축 목적 정의 예시

데이터 구축 가이드라인 용어 정의

데이터 수집 가이드라인 예

데이터 체계 제시 예시

데이터 구축 도구 사용법 예시

3) 가이드라인의 버전 관리

  • 가이드라인은 구축과 검수 과정을 통해 지속적으로 개정되어야 함.
  • 개정 전과 개정 후 어떤 것이 변화하였는지 비교하여 볼 수 있도록 버전 관리가 되는 것이 가장 좋음.
  • 버전별로 작성자와 개정일을 기입해두는 것이 관리에 도움이 됨.

4) 가이드라인 작성 도구

  • Google Docs
  • Notion
  • 워드 및 한글
  • 레이블링 에이전시에서 제공하는 도구
  • 위키

5) 가이드라인 작성 시 유의 사항

  • 가이드라인의 유형별 특성을 이해하고 그에 알맞는 정보를 작성한다.
  • 작업자의 작업 이해도를 고려하여 작성한다.
  • 작업자에게 공개해야 하는 필수 정보와 부가적인 정보가 무엇인지 사전에 고려한다.
  • 가이드라인 구성 요소의 배치를 어떻게 할 지 고민한다.
    • 튜토리얼 진행 식으로 할 경우
  • 작업자의 가독성을 고려한다.
    • 너무 많은 정보 X, 핵심 사항의 강조

2. 피어세션 정리

  • 스몰톡
  • 강의 일정 및 내용 질의응답
  • 데이터 제작 스페셜 미션 계획
    • 오피스아워에서 tagtog 사용법 수강
  • 최종 프로젝트
    • <팀 구분>
    • <프로젝트 주제 및 데이터셋> 좁히기