:
최근 CNN(conv 기반의 모델)과 ViT (어텐션 기반의 모델)이 비전 분야에서 매우 많이 활용되고 있다. 물론 이 두 모델은 충분히 좋은 성능을 보이고 있지만 본 논문에서 제안하고 싶은 지점은 이러한 방법이 필요한가? 이다 (즉, 쉽게 말해서 현재의 conv와 attention 기반이 굳이 비전 분야에서 필요한 필수 요소인지 질문을 던지는 논문이다)
본 논문에서는 위의 두 방법 대신에 새로운 방법을 제안한다
이러한 방법은 MLP-Mixer
라고 부르는데 이는 2가지 종류의 Layer로 구성되어있다.
이미지의 patch에 대해서 독립적으로 연산을 수행하는 MLP - mixing per location features
모든 patch에 대해서 mix하는 MLP - mixing spatial information
우리는 이러한 두가지의 구성요소로 모델을 만들었고 일반적 큰 데이터셋으로 학습을 하였을 때 SOTA 모델과 비슷한 성능을 보여주었다.
본 논문은 SOTA 모델을 제안하기 보다는 조금더 연구가 진행되었으면 좋을것 같은 구조를 제안한다.
비전 분야의 역사를 보면 큰 데이터섯과 더 많은 계산 능력을 통해서 발전되어 왔다. CNN 기반의 모델이 비전 분야의 사실상 기본으로 발전해왔으며 최근에는 attention 기반의 VIT 모델이 SOTA를 달성하였다. 또한 VIT 모델은 지속해서 손수 구성하는 시각적 특징과 inductive bias를 모델에서 제거함으로써 순수 데이터에 의존하는 모델이 되었다. (즉, 모델 구조를 이리저리 수정하기 보다 데이터로 부터 모델을 구성하는 구조로 - 더 많은 데이터에 기반하는 모델로 변화 했다는 것을 의미한다.)
본 논문에서는 MLP-Mixer를 제안하는데 이는 Conv와 attention을 활용하지 않은 대체 모델이다.