보호되어 있는 글입니다.
보호되어 있는 글입니다.

논문: https://arxiv.org/abs/2011.13456 An Image is Worth 16x16 Words: Transformers for Image Recognition at ScaleWhile the Transformer architecture has become the de-facto standard for natural language processing tasks, its applications to computer vision remain limited. In vision, attention is either applied in conjunction with convolutional networks, or used to reparxiv.orgSMLD와 DDPM을 score-base..

논문: https://arxiv.org/abs/2006.11239 Diffusion model은 데이터에 여러 step에 걸쳐 random noise를 추가해 noise data를 만들고, 그 역방향으로 가는 확률분포를 학습해서 데이터를 생성하고자한다. Forward(Diffusion) process Data distribution인 q에서 sample된 x0들이 있을 때 gaussian distribution의 noise를 T step 동안 추가하며 x1, x2, ..., xT를 생성하는 forward process의 분포는 아래와 같이 정의된다.이렇게 표시할 수 있는 이유는 diffusion model의 확률분포는 바로 전 상태에만 영향을 받는 markov chain의 성질을 갖기 때문이다.이때 ..

논문: https://arxiv.org/abs/2010.11929v2 NLP에서 널리 쓰이는 transformer를 vision task에 direct하게 적용하여 좋은 성과를 얻은 논문 0. Abstraction transformer 구조는 NLP 분야에서는 de-facto standard이지만, CV 분야에서는 convolution과 함께 사용되거나 convolution을 대체해서 사용하는 등 convolution 구조를 유지한 채 함께 사용되는 정도로만 활용되었었다. 하지만 본 논문에서는 convolution을 완전히 배제하고 transformer 구조에 바로 image를 집어넣는 방식을 보인다. 특히, 대용량의 dataset으로 pre-train한 뒤 상대적으로 작은 dataset(ImageNet..

논문: https://arxiv.org/abs/1706.03762v7 NLP 분야에서 sequential 처리의 비효율을 없앤 구조를 제안한다. 향후 vision 분야에도 접목되어 지금(2024년)까지도 다양한 변형으로 활용되고 있는 transformer를 제시한 논문이다. 0. Abstraction RNN, CNN 구조를 사용하던 기존의 transduction(번역 등) model이 아닌, 오로지 attention mechanism만을 활용한 구조를 제안한다. sequence의 serial 처리가 아닌 한번에 병렬 처리할 수 있게 하여 학습시간을 크게 감소 시켰다. 1. Introduction RNN, LSTM, GRMM 과 같은 recurrent model은 sequence의 token의 positi..

논문: https://arxiv.org/abs/1608.06993 Shortcut connection을 활용한 연구로 CVPR2017에서 best paper로 선정된 논문이다. 0. Abstract 최근에 ResNet 등의 연구를 통해 shortcut layer를 통해 모델을 더 깊고 정확하게 만들 수 있다는 것을 알게됐다. 본 논문에서는 모든 layer를 연결하는(L개의 layer 있다면 마지막 transition layer까지 L+1개의 layer를 모두 이어 L(L+1)/2 개의 connection을 생성) dense network 구조를 제안한다. 이런 구조를 통해 아래 세 가지 advantage를 얻을 수 있다. Vanishing gradient problem 완화 Feature propagat..

논문: https://arxiv.org/abs/1512.03385 Deep Residual Learning for Image Recognition Deeper neural networks are more difficult to train. We present a residual learning framework to ease the training of networks that are substantially deeper than those used previously. We explicitly reformulate the layers as learning residual functions with arxiv.org Microsoft에서 발표한 residual(잔차) 학습을 활용한 ResNet 논문에 대..