![전체 글](https://t1.daumcdn.net/tistory_admin/static/manage/images/r3/default_L.png)
전체 글
[부스트캠프][WK07 / Day34] 7주차 NLP Transformer 이후 연구 동향 정리
NLP Transformer 이후 연구 동향 Transformer Transformer 이전의 문제점: Long-Term Dependency Gradient Vanishing and Exploding 해결방안: 👍 RNN 구조를 사용하지 않고 Attention만을 사용하여 학습 RNN 구조가 아닌 아키텍쳐에서 Attention을 사용하기 위해 Self Attention을 고안 결과: Language Model의 Game Changer... 이후 나오는 모델들은 대부분(전부) Transformer의 구조를 응용한다. GPT 1 GPT-1 | ( 참고1 , 참고2 ) 이전의 문제점: Unlabeled 텍스트 데이터는 풍부한 반면, Labeled 데이터는 매우 적은 문제 → supervised learning..
[부스트캠프][WK07 / Day33] Self-supervised Pre-training Models 2
1. 강의 내용 Advanced Self-supervised Pre-training Models (주재걸 교수님) 1) GPT-2 모델 구조는 GPT-1과 크게 다를 바 없고 단지 transformer layer를 많이 쌓고 다음 단어를 예측하는 task입니다. 또한 데이터의 양과 질을 모두 높였습니다. GPT-2는 자연어 처리의 대부분의 문제가 QA로 해결된다는 주장을 한 논문 The Natural Language Decathlon: Multitask Learning as Question Answering에서 영감을 받았습니다. GPT-2의 데이터셋은 Reddit이라는 사이트에서 3개 이상의 좋아요를 받은 글들에 대해 외부 링크의 글을 포함해 수집했습니다. 전처리는 BERT에서의 wordpiece와 비..
[논문리뷰] ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators 간단 리뷰
ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators Kevin Clark, Minh-Thang Luong, Quoc V. Le, Christopher D. Manning https://openreview.net/forum?id=r1xMH1BtvB ELECTRA 논문에 대해 간단하게 요약한 리뷰입니다. 3줄 요약 기존의 MLM에서 전체 데이터의 15%만 loss를 계산하고 학습하는 등의 방식이 비효율적이기 때문에 전체 데이터를 학습하도록 하면 훨씬 효율적으로 학습할 수 있음 MLM과 달리 MASK 토큰 자리에 대체 단어를 생성하고 전체 단어가 original인지 corrupted token인지 예측하는 replaced t..
[부스트캠프][WK07 / Day32] Self-supervised Pre-training Models 1
1. 강의 내용 Self-supervised Pre-training Models (주재걸 교수님) 1) GPT-1 GPT-1은 , , $와 같은 special token을 적용해 다양한 자연어처리 task를 동시에 커버할 수 있는 통합된 모델을 제안합니다. [출처][https://blog.openai.com/language-unsupervised/] 위의 그림을 보면 Text & Position Embedding을 거친 후, self-attention block을 12개 쌓은 구조를 가집니다. 이 모델은 두 task를 가지는데, Text Prediction은 첫 단어부터 순차적으로 다음 단어를 예측하는 Language modeling task입니다. Text Classifier는 Extract토큰이 문장..
[부스트캠프][WK07 / Day31] Transformer (2)
1. 강의 내용 Transformer (2) (주재걸 교수님) 1) Multi-Head Attention attention module에 Q, K, V를 Linear($W_Q, W_K, W_V$)를 거쳐 입력으로 입력으로 넣게 되는데, 여기서 서로 다른 버전의 attention의 개수 만큼 서로 다른 encoding vector가 나오고, 해당 vector들을 concat 하면 Multi-Head Attention이 나옵니다. 여기서 동일한 시퀀스 정보가 주어졌을 때, 동일한 query word에 대해서 여러가지 다양한 측면의 데이터를 필요로 할 수 있으며 이럴때 하나의 attention으로는 모든 정보를 담을 수 없으므로 서로 다른 정보를 병렬적으로 뽑고 그 정보들을 합치는 형태로 구성하게 됩니다. [..
[부스트캠프][WK07 / Day30] Transformer (1)
1. 강의 내용 Transformer (1) (주재걸 교수님) 1) Transformer Transformer는 attention만을 사용해서 구현한 Sequence to Sequence 형태의 모델구조를 가지고 있습니다. RNN을 사용할 시 RNN 구조를 통해 Sequence 데이터를 인코딩해 주는데, Long-Term Dependecy가 발생하여 이를 해결하기 위해 동일한 시퀀스에 대해 정방향으로 인코딩한 값과 역방향으로 인코딩한 값을 concat하는 Bi-directional RNN 구조를 사용함으로써 앞뒤 문맥을 모두 고려하여 Encoding vector를 만들어주게 됩니다. Transformer에서 Encoding vector를 만들어주는 과정을 아래와 같습니다. [출처][http://jalam..
[부스트캠프][WK06 / Day29] Beam Search and BLEU score
1. 강의 내용 Beam Search and BLEU score (주재걸 교수님) 1) Beam Search Beam Search는 자연어 생성 모델에서 Test time에서 보다 좋은 품질의 생성 결과를 얻을 수 있도록 하는 기법입니다. Greedy decoding Greedy decoding은 Decoding 시 해당 time step에서 가장 높은 확률을 가지는 단어 하나를 선택하는 방법으로, 만약 나중에 단어를 잘못 생성한 사실을 깨달아도 예측값을 고정해 두었기 때문에 뒤로 돌아갈 수 없어 최적의 예측값을 내어주지 못하게 됩니다. Exhaustive search 입력문장을 x, 출력문장을 y라고 했을 때 x가 주어졌을 때 y에 대한 동시사건 확률분포로 출력된 모든 단어를 고려하는 방법입니다. 이것..
[부스트캠프][WK06 / Day28] Sequence to Sequence with Attention
1. 강의 내용 Sequence to Sequence with Attention (주재걸 교수님) 1) Sequence to Sequence Sequence to Sequence는 RNN의 구조 중 many to many에 해당됩니다. Sequence to Sequence는 Encoder와 Decoder로 구성되어 있는데, Encoder는 입력 문장을 읽어내는 RNN 모델이며, Decoder는 출력 문장을 순차적으로 단어 하나씩 생성하는 모델입니다. Encoder와 Decoder는 파라미터를 공유하지 않습니다. 여기서 Encoder의 마지막 time step의 hidden state vector는 Decoder의 $h_0$로 사용됩니다. 단어별로 문장을 생성하는 task에서 start token ()을 ..