0. 들어가며

최근 MAE 논문과 BEVT , Beit논문을 읽으면서 self-supervised learning 학습의 방법중 Masking modeling을 통한 (정확히 말하자면 Mask Auto Encoder) 표현 학습 방법에 관심이 생겼다.

특히, MAE 에서 단순히 랜덤 마스킹을 사용한것에 반에서 Beit에서는 Block wise masking 방법을 활용하는데 이 부분에 대해서 자세히 알고 싶어졌고 추가적 여러 Masking 방법에 대해서 정리하면 좋을 것 같아서 해당 글을 작성하게 되었다.

여러 Masking 방법들을 살펴보기 전에 간단하게 왜 Masking을 하는가에 대한 정리가 필요할 것이다.

2017년 Attention All You Need 라는 논문이 발표가 된 이후 Transformer 라는 괴물은 NLP 분야에서 이전 모든 구조를 파괴해버리는 성과를 달성하게 된다. 이후 Google에서 2018년에 BERT라는 방법을 발표하게 되었는데 해당 모델은 입력 문장에 특정한 부분을 Masking하고 해당 Masking된 부분을 복원하는 방법을 통해서 표현을 학습하는 방법을 활용하였다.

Untitled

해당 방법의 장점은 무엇일까? 바로 많은 양의 데이터로 학습이 가능하다는 것이다.

우리가 supervised learning(지도학습) 으로 모델을 학습할 때 큰 장벽으로 마주치는 것은 labeling 되어진 데이터셋을 만들어 내는데 많은 양의 시간과 자본이 소모된다는 것이다.

하지만 위 Masking modeling 방법을 활용하면 label 이 없는 데이터셋이더라도 단순히 입력 문장을 복원하는 방법으로 모델을 학습할 수 있게 되었다.

따라서 해당 방법의 등장이후 (self-supervised learning 방법론으로 불림) 인터넷 상의 대규모 corpus로 부터 모델 학습이 가능해졌고 이는 이후에 등장하는 LLM (Large language model)의 등장으로 이어졌다.

이러한 성공에 영향을 받아서 CV (Computer Vision) 에서도 해당 방법을 적용하려는 시도 들이 있었다. BeitMAE 같은 모델들이 해당 방법들을 CV분야에 적용한 대표적인 모델이라고 할 수 있다.

Untitled

Untitled

(왼 MAE, 오 Beit)

해당 모델들은 주어지는 원본 이미지에서 일부분의 픽셀을 masking 하여 이를 복원하는 방법을 통해서 이미지의 표현을 학습하는 self-supervised 을 활용하였다.