transformer
[부스트캠프][WK07 / Day31] Transformer (2)
1. 강의 내용 Transformer (2) (주재걸 교수님) 1) Multi-Head Attention attention module에 Q, K, V를 Linear(WQ,WK,WV)를 거쳐 입력으로 입력으로 넣게 되는데, 여기서 서로 다른 버전의 attention의 개수 만큼 서로 다른 encoding vector가 나오고, 해당 vector들을 concat 하면 Multi-Head Attention이 나옵니다. 여기서 동일한 시퀀스 정보가 주어졌을 때, 동일한 query word에 대해서 여러가지 다양한 측면의 데이터를 필요로 할 수 있으며 이럴때 하나의 attention으로는 모든 정보를 담을 수 없으므로 서로 다른 정보를 병렬적으로 뽑고 그 정보들을 합치는 형태로 구성하게 됩니다. [..
[부스트캠프][WK07 / Day30] Transformer (1)
1. 강의 내용 Transformer (1) (주재걸 교수님) 1) Transformer Transformer는 attention만을 사용해서 구현한 Sequence to Sequence 형태의 모델구조를 가지고 있습니다. RNN을 사용할 시 RNN 구조를 통해 Sequence 데이터를 인코딩해 주는데, Long-Term Dependecy가 발생하여 이를 해결하기 위해 동일한 시퀀스에 대해 정방향으로 인코딩한 값과 역방향으로 인코딩한 값을 concat하는 Bi-directional RNN 구조를 사용함으로써 앞뒤 문맥을 모두 고려하여 Encoding vector를 만들어주게 됩니다. Transformer에서 Encoding vector를 만들어주는 과정을 아래와 같습니다. [출처][http://jalam..
[부스트캠프][WK02 / Day9] Recurrent Neural Networks
1. 강의 내용 RNN (최성준 교수님) 1) Sequential Model Sequential data의 가장 큰 어려움은 정의상 길이가 언제 끝날지 몰라 받아야하는 입력의 차원을 알 수 없습니다. 그래서 fully connected layer나 CNN을 활용하지 못합니다. 입력이 가변적이어서 발생하는 문제를 해결하기위해 정보의 개수를 한정(AR(τ)) 시킵니다. τ 시점 전 까지만 입력으로 넣어주는 것으로 τ를 1로 하는 모델이 Markov model입니다. Markov model의 joint distribution을 표현하기 쉬워지는 장점이 있지만 1시점만 보기 때문에 많은 정보를 버리게 됩니다. Latent autoregressive model은 중간에 hidden st..