보호되어 있는 글입니다.
보호되어 있는 글입니다.

논문: https://arxiv.org/abs/2011.13456 An Image is Worth 16x16 Words: Transformers for Image Recognition at ScaleWhile the Transformer architecture has become the de-facto standard for natural language processing tasks, its applications to computer vision remain limited. In vision, attention is either applied in conjunction with convolutional networks, or used to reparxiv.orgSMLD와 DDPM을 score-base..

논문: https://arxiv.org/abs/2006.11239 Diffusion model은 데이터에 여러 step에 걸쳐 random noise를 추가해 noise data를 만들고, 그 역방향으로 가는 확률분포를 학습해서 데이터를 생성하고자한다. Forward(Diffusion) process Data distribution인 q에서 sample된 x0들이 있을 때 gaussian distribution의 noise를 T step 동안 추가하며 x1, x2, ..., xT를 생성하는 forward process의 분포는 아래와 같이 정의된다.이렇게 표시할 수 있는 이유는 diffusion model의 확률분포는 바로 전 상태에만 영향을 받는 markov chain의 성질을 갖기 때문이다.이때 ..

논문: https://arxiv.org/abs/2010.11929v2 NLP에서 널리 쓰이는 transformer를 vision task에 direct하게 적용하여 좋은 성과를 얻은 논문 0. Abstraction transformer 구조는 NLP 분야에서는 de-facto standard이지만, CV 분야에서는 convolution과 함께 사용되거나 convolution을 대체해서 사용하는 등 convolution 구조를 유지한 채 함께 사용되는 정도로만 활용되었었다. 하지만 본 논문에서는 convolution을 완전히 배제하고 transformer 구조에 바로 image를 집어넣는 방식을 보인다. 특히, 대용량의 dataset으로 pre-train한 뒤 상대적으로 작은 dataset(ImageNet..

논문: https://arxiv.org/abs/1706.03762v7 NLP 분야에서 sequential 처리의 비효율을 없앤 구조를 제안한다. 향후 vision 분야에도 접목되어 지금(2024년)까지도 다양한 변형으로 활용되고 있는 transformer를 제시한 논문이다. 0. Abstraction RNN, CNN 구조를 사용하던 기존의 transduction(번역 등) model이 아닌, 오로지 attention mechanism만을 활용한 구조를 제안한다. sequence의 serial 처리가 아닌 한번에 병렬 처리할 수 있게 하여 학습시간을 크게 감소 시켰다. 1. Introduction RNN, LSTM, GRMM 과 같은 recurrent model은 sequence의 token의 positi..

논문: https://arxiv.org/abs/1608.06993 Shortcut connection을 활용한 연구로 CVPR2017에서 best paper로 선정된 논문이다. 0. Abstract 최근에 ResNet 등의 연구를 통해 shortcut layer를 통해 모델을 더 깊고 정확하게 만들 수 있다는 것을 알게됐다. 본 논문에서는 모든 layer를 연결하는(L개의 layer 있다면 마지막 transition layer까지 L+1개의 layer를 모두 이어 L(L+1)/2 개의 connection을 생성) dense network 구조를 제안한다. 이런 구조를 통해 아래 세 가지 advantage를 얻을 수 있다. Vanishing gradient problem 완화 Feature propagat..

논문: https://arxiv.org/abs/1512.03385 Deep Residual Learning for Image Recognition Deeper neural networks are more difficult to train. We present a residual learning framework to ease the training of networks that are substantially deeper than those used previously. We explicitly reformulate the layers as learning residual functions with arxiv.org Microsoft에서 발표한 residual(잔차) 학습을 활용한 ResNet 논문에 대..
Data search를 위한 filter를 최적하기 위해 시도했던 내용을 정리한다. filter는 Mui의 Select component를 base로 만들어져 있으며 천개 정도의 menu item을 갖는다. menu popup을 여는데 약 2초 정도가 걸렸고 performance를 돌렸을 때 menu item들이 추가되며 render/commit 둘 다 많은 시간이 소요되는 것을 확인할 수 있었다. 1. 미리 DOM tree에 달아놓고 container의 css만 변경하여 popup을 연다. search filter가 render될 때 모든 item을 미리 함게 render 해놓고 items의 container를 display none으로 둔다. click event가 발생하면 item을 추가하는 것이 ..

1. use requestAnimationFrame for visual changes than setTimeout or setInterval 1-1. How to animate 브라우저는 보통 60FPS를 지원한다. 즉 1초에 60개의 frame을 찍어낼 수 있는데 이는 약 16ms(1000/60) 안에 하나의 frame을 찍어내야 한다는 말이다. 만약 하나의 frame을 찍는데 16ms가 넘어가게되면 그 다음 frame이 drop되고 FPS가 낮아져 사용자는 화면이 끊겨보인다고 느끼게된다. 애니메이션을 구현할 떄 주로 css의 transform이나 translate 등을 사용하지만 보다 복잡한 구현의 경우에는 JS를 사용하기도 한다. 이 경우에 사용할 수 있는 방법으로 두 가지가 있는데 1. setTi..