Masked Self-Attention

    [부스트캠프][WK07 / Day31] Transformer (2)

    1. 강의 내용 Transformer (2) (주재걸 교수님) 1) Multi-Head Attention attention module에 Q, K, V를 Linear($W_Q, W_K, W_V$)를 거쳐 입력으로 입력으로 넣게 되는데, 여기서 서로 다른 버전의 attention의 개수 만큼 서로 다른 encoding vector가 나오고, 해당 vector들을 concat 하면 Multi-Head Attention이 나옵니다. 여기서 동일한 시퀀스 정보가 주어졌을 때, 동일한 query word에 대해서 여러가지 다양한 측면의 데이터를 필요로 할 수 있으며 이럴때 하나의 attention으로는 모든 정보를 담을 수 없으므로 서로 다른 정보를 병렬적으로 뽑고 그 정보들을 합치는 형태로 구성하게 됩니다. [..