Transformer
구조가 자연어 처리 분야에서 사실상(de-facto) 기준이 되어가지만 해당 방법은 컴퓨터 비전 분야에서는 한계가 있다.
비전 분야에서 attention 방법은 기존 컨볼루션 네트워크와 함께 사용되거나 특정 부분을 교체함으로 활용된지만 이는 전체적인 구조를 유지한채 사용된다. 우리의 방법은 CNN 네트워크와 결합이 필요없으며 연속적인 이미지 패치를 직접적으로 transformer에 활용하여 이미지 분류 task에서 좋은 성능을 보여준다. 대용량의 데이터로 사전 학습한 이후 이를 중 소량의 벤치마크 데이터셋에 대한 task 실험을 했을 경우 좋은 성능을 보여 주었다.
VIT 모델은 기존 최신의 CNN 네트워크 보다 적은량의 컴퓨팅 소스를 소모한다
Self-attention 방법에 기반한 구조인 Transformer가 자연어 처리 분야에서 기본 모델로 선택되어왔다. 지배적인 방법은 큰 text 구문을 통해서 사전학습을 한 이후 특정 분야의 작은 데이터셋에 파인 튜닝 하는 방법이 있다.
Transformer의 효율적인 연산과 확장성으로 인해서 전례없는 사이즈의 모델이 학습 가능해졌다. (100B 파라미터)
모델과 데이터의 크기를 늘려감에도 성능 포화의 모습은 아직 보이지 않는다 (사이즈를 늘릴 수록 성능이 향상되고 있다)
하지만 컴퓨터 비전 분야에서는 아직 CNN 구조가 여전히 지배적이다. 자연어 분야의 성공에 영감을 받아서 다양한 작업들이 CNN과 self-attention의 구조를 결합하려는 시도가 있었는데 해당 방법들은 CNN 전체구조의 일부분을 교체함으로 진행되었다. 해당 방법들은 이론적으로는 효율적일 수 있지만 특수한 attention 패턴을 활용하기 때문에 최신 GPU 하드웨어에서는 아직 효과적으로 확장적이지 않다. 따라서 큰 사이즈 이미지 인식에서는 전통적인 ResNet 구조가 여전히 Sota를 찍고 있다.
Transformer의 잔연어 처리 분야에서의 성공에 영감을 받아서 우리는 이미지에 대해서 직접적으로 Transformer를 적용하는 방법에 대해서 실험을 했다. 이를 수행하기위해서 우리는 이미지를 여러 패치로 나누었으며 이를 일련의 선형 임베딩을 통해서 Transformer의 input으로 사용하였다. 이미지 패치는 자연어 처리의 단어 token과 같은 방법으로 활용된다. 우리는 해당 모델을 지도 학습으로 이미지 분류에 학습을 진행하였다.
강력한 정규화 없이 중간 사이즈의 데이터 셋을 학습시킬 경우 Resnet보다 조금 낮은 정확도를 보였다. 이는 실망스러운 결과로 보일 수 있다 : Transformer는 등가성 및 지역성과 같이 CNN 고유의 귀납적 편향 중 일부가 결여되어 부족한 데이터로 학습할 경우 일반화가 잘 이루어 지지 않을 수 있다.