전체 글

전체 글

    [부스트캠프][P-stage][WK15 / Day4,5] 관계 추출

    1. 강의 내용 관계 추출 과제의 이해 (한지윤님) 1) 관계 추출 관련 과제의 개요 개체명 인식 & 관계 추출의 이해 관계 추출 관련 과제의 이해 - NER 개체명(Entity) 인식 (NER,Named Entity Recognition) 개체명이란 인명,(지명,(기관명 등과 같은 고유명사나 명사구를 의미.(개체명 인식 태스크는 문장을 분석 대상으로 삼아서 문장에 출현한 개체명의 경계를 인식하고,(각 개체명에 해당하는 태그를 주석함. KLUE에서는 국제적인 기준에서 가장 널리 알려진 CoNLL 2003의 태그 체계 및 Stanford NER을 바탕으로 국내 TTA(표준 지침의 주석 가이드라인에 따라 데이터를 구축함. PS(사람),(LC(지역),(OG(기관),(DT(날짜),(TI(시간),(QT(수량) S..

    [부스트캠프][P-stage][WK15 / Day3] Dataset Construction

    1. 강의 내용 원시 데이터의 수집과 가공 (한지윤님) 1) 원시 데이터의 정의 과제를 해결하기 위해 특정 도메인, 장르, 주제 등에 대하여 조건에 맞춰 수집하였으나, 주석 단계를 거치지 않은 상태의 데이터 원하는 형태로 가공하기 이전의 데이터로 목적에 맞는 전처리 과정을 거쳐 가공이 되어야 활용할 수 있음 원시 텍스트 수집 시 검토 사항 원시 데이터 수집 절차 예시 원시 텍스트 데이터의 종류 원시 텍스트 데이터 사용역(장르)에 따른 분류 문어 신문기사, 소설, 수필, 논문, 잡지, 보고서 등 구어(음성 파일을 텍스트로 전사) 일상 대화, 연설, 강연 준구어 : 방송 대본, 영화 대본 등 웹 SNS, 커뮤니티 게시판, 메신저 대화, 블로그, 이메일 등 원시 텍스트 데이터의 메타 정보 텍스트 외에 텍스트를..

    [부스트캠프][P-stage][WK15 / Day2] 자연어처리 데이터 소개

    1. 강의 내용 자연어처리 데이터 소개 1 (한지윤님) 1) 국내 언어 데이터의 구축 프로젝트 2) 21세기 세종 계획과 모두의 말뭉치 21세기 세종 계획 '21세기 세종계획'은 1997년에 그 계획이 수립되었고 이듬해인 1998년부터 2007년까지 10년 동안 시행된 한국의 국어 정보화 중장기 발전 계획(홍윤표, 2009) 총 2억 어절의 자료 구축, 공개 XML 형식, 언어정보나눔터 누리집을 통해 배포하다 중단 후 DVD로만 배포 모두의 말뭉치 인공지능의 한국어 처리 능력 향상에 필수적인 한국어 학습 자료 공개 플랫폼. '21세기 세종계획'에 비해 일상 대화, 메신저, 웹 문서 등 구어체 자료의 비중을 높임. 다층위 주석 말뭉치 포함(형태, 구문, 어휘 의미, 의미역, 개체명, 상호 참조 등) JSO..

    [부스트캠프][P-stage][WK15 / Day1] 데이터제작 Introduction

    1. 강의 내용 자연어처리 데이터 기초 (한지윤님) 1) 인공지능 개발을 위한 데이터 데이터의 종류 인공지능 기술의 발전 벤치마크 2) 데이터 관련 용어 정리 텍스트 (text) 주석, 번역, 서문 및 부록 따위에 대한 본문이나 원문 『언어』문장보다 더 큰 문법 단위. 문장이 모여서 이루어진 한 덩어리의 글을 이른다. 말뭉치 (corpus, plural corpora) 말뭉치(이상섭, 1988) : 어떤 기준으로든 한 덩어리로 볼 수 있는 말의 뭉치(한 저작자의 저작 전부, 특정 분야 저작 전체) 텍스트 아카이브 text archive vs 말뭉치 corpus(selected, structured, designed) 데이터 (data) 『정보·통신』컴퓨터가 처리할 수 있는 문자, 숫자, 소리, 그림 따위..

    [부스트캠프][P-stage][WK11 / Day49,50] MRC 3

    1. 강의 내용 Scaling up with FAISS (서민준 교수님) 1) Passage Retrieval and Similarity Search MIPS(Maximum Inner Product Search) 주어진 질문(query) 벡터 q에 대해 Passage 벡터 v들 중 가장 질문과 관련된 벡터를 찾아야함 -> 여기서 관련성은 내적(inner product)이 가장 큰 것 4, 5 강에서는 brute-force(exhaustive) search 방식의 검색을 사용했는데, 이때 저장해둔 모든 Sparse/Dense 임베딩에 대해 일일히 내적값을 계산하여 가장 값이 큰 passage를 추출했습니다. 하지만 이 방식은 passage의 개수가 많아질수록 비효율적이게 됩니다. 실제로 검색해야할 데이터는..