본문 바로가기
반응형

인공지능/기초5

LSTM & GRU LSTM (Long Short Term Memory)LSTM은 Hochreiter & Schmidhuber (1997)  에서 처음 소개되었다. RNN에서 발생할 수 있는 Vanishing Gradient Problem을 해결하기 위해 Cell gate를 활용한다. 이는 장기기억 즉, 과거의 먼 시점의 input을 기억할 수 있도록 한다.RNN은 총 2개의 input, hidden state $h_{t-1}$ 과 현재 시점의 input $X_t$ 를 활용하지만LSTM은 이전 시점에서 오는 hidden state $h_{t-1}$ , Cell state $C_{t-1}$ 그리고 현재 시점의 input $X_t$ 총 3개를 Input으로 활용한다. LSTM의 단게별 설명Forget gate layerInpu.. 2024. 5. 7.
(Scaled) Dot-Product Attention 좌측의 사진을 보면, 이전 글에서 설명한 Sequence-to-sequence와 같은 구조를 가지고 가는 것을 알 수 있다. 하지만, RNN(또는 LSTM)을 사용하게 되면 발생하는 Vanishing Gradient Problem이 발생할 수 밖에 없다. 만약, Encoder의 첫 Input이 영향을 크게 줘야한다면 영향을 주기 어렵다는 뜻이 된다. 이를 해결하기 위해, 좌측의 사진처럼 Encoder Section의 값을 모두 검토하는 방식을 채택하게 된다.단계별 분석Step1. Attention score 구하기하지만 $score(s_{t}, h_{i}) = s_{t}^{T}h_{i}$$s_t$ : t 시점 decoder 셀의 hidden state$h_i$ : i 시점 encoder 셀의 hidden.. 2024. 4. 28.
Sequence-to-sequence(seq2seq) & Teacher-forcing 기본 개념RNN(LSTM)으로 이루어진 인코더와 디코더를 가지는 구조. 논문 상에서는 번역을 위해 사용.코드로 구현 시 인코더와 디코더는 같은 형태를 가짐(같은 계층 수와 해당 계층 내에 같은 크기의 hidden size) 모델 구조주요 수식$(x_1 , ..., x_{T})$ : Input sequence$(y_1 , ..., y_{T'})$ : Input sequence에 해당하는 Output sequence(Input sequence와 같은 길이가 아닐 수 있음)$v$ : input sequence의 마지막 input으로 부터 나온 마지막 hidden state 값 추가적으로 설명하면,input sequence를 인코딩해서 hidden state로 넘겨준다.해당 hidden state의 값을 활용하.. 2024. 4. 27.
Applications of RNNs RNN의 종류 그림 예시 One-to-one 전통적인 신경망 One-to-many 음악 생성, 이미지 자막달기(image captioning) Many-to-one 문장 분류, 영상 분류 Many-to-many 개체명 인식 Many-to-many 번역기 Reference : [1] Afshine Amidi, Shervine Amidi, "CS 230 - Deep Learning", https://stanford.edu/~shervine/teaching/cs-230/cheatsheet-recurrent-neural-networks 2024. 3. 23.
Recurrent Neural Network RNN? 이전의 hidden state를 가지면서 이전 출력을 입력으로 사용가능하도록 하는 신경망(이전 시점을 고려) 관련 수식 1. hidden state : $$ a^{} = g_1\left(W_{aa}a ^{t-1} + W_{ax}x^{t}+b_a \right) $$ 2. output state : $$ y^{} = g_{2}\left ( W_{ya}a^{} + b_y \right )$$ RNN의 내부 장점(Advantages) 단점(Cons) 임의의 길이의 입력 처리 가능 입력 크기에 따라 모델 크기가 증가하지 않음 과거 정보를 활용하여 계산 가중치는 시간 축 상에서 공유 계산 속도가 느림 오래 전 정보에 대한 접근이 어려움 현재 상태에 대한 향후 입력을 고려할 수 없음 Loss function .. 2024. 3. 23.
반응형