Scaled Dot-Product

    [부스트캠프][WK07 / Day30] Transformer (1)

    1. 강의 내용 Transformer (1) (주재걸 교수님) 1) Transformer Transformer는 attention만을 사용해서 구현한 Sequence to Sequence 형태의 모델구조를 가지고 있습니다. RNN을 사용할 시 RNN 구조를 통해 Sequence 데이터를 인코딩해 주는데, Long-Term Dependecy가 발생하여 이를 해결하기 위해 동일한 시퀀스에 대해 정방향으로 인코딩한 값과 역방향으로 인코딩한 값을 concat하는 Bi-directional RNN 구조를 사용함으로써 앞뒤 문맥을 모두 고려하여 Encoding vector를 만들어주게 됩니다. Transformer에서 Encoding vector를 만들어주는 과정을 아래와 같습니다. [출처][http://jalam..