[부스트캠프][WK07 / Day31] Transformer (2)

1. 강의 내용 Transformer (2) (주재걸 교수님) 1) Multi-Head Attention attention module에 Q, K, V를 Linear( $W_Q, W_K, W_V$ )를 거쳐 입력으로 입력으로 넣게 되는데, 여기서 서로 다른 버전의 attention의 개수 만큼 서로 다른 encoding vector가 나오고, 해당 vector들을 concat 하면 Multi-Head Attention이 나옵니다. 여기서 동일한 시퀀스 정보가 주어졌을 때, 동일한 query word에 대해서 여러가지 다양한 측면의 데이터를 필요로 할 수 있으며 이럴때 하나의 attention으로는 모든 정보를 담을 수 없으므로 서로 다른 정보를 병렬적으로 뽑고 그 정보들을 합치는 형태로 구성하게 됩니다. [..

→2021.09.15

네이버 부스트캠프/LEVEL-2

[부스트캠프][WK07 / Day30] Transformer (1)

1. 강의 내용 Transformer (1) (주재걸 교수님) 1) Transformer Transformer는 attention만을 사용해서 구현한 Sequence to Sequence 형태의 모델구조를 가지고 있습니다. RNN을 사용할 시 RNN 구조를 통해 Sequence 데이터를 인코딩해 주는데, Long-Term Dependecy가 발생하여 이를 해결하기 위해 동일한 시퀀스에 대해 정방향으로 인코딩한 값과 역방향으로 인코딩한 값을 concat하는 Bi-directional RNN 구조를 사용함으로써 앞뒤 문맥을 모두 고려하여 Encoding vector를 만들어주게 됩니다. Transformer에서 Encoding vector를 만들어주는 과정을 아래와 같습니다. [출처][http://jalam..

→2021.09.14

네이버 부스트캠프/LEVEL-1

[부스트캠프][WK02 / Day9] Recurrent Neural Networks

1. 강의 내용 RNN (최성준 교수님) 1) Sequential Model Sequential data의 가장 큰 어려움은 정의상 길이가 언제 끝날지 몰라 받아야하는 입력의 차원을 알 수 없습니다. 그래서 fully connected layer나 CNN을 활용하지 못합니다. 입력이 가변적이어서 발생하는 문제를 해결하기위해 정보의 개수를 한정( $AR(\tau$ )) 시킵니다. $\tau$ 시점 전 까지만 입력으로 넣어주는 것으로 $\tau$ 를 1로 하는 모델이 Markov model입니다. Markov model의 joint distribution을 표현하기 쉬워지는 장점이 있지만 1시점만 보기 때문에 많은 정보를 버리게 됩니다. Latent autoregressive model은 중간에 hidden st..

→2021.08.12

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

transformer

[부스트캠프][WK07 / Day31] Transformer (2)

[부스트캠프][WK07 / Day30] Transformer (1)

[부스트캠프][WK02 / Day9] Recurrent Neural Networks

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역