이미지 분류의 개요

1. 용어

목표 : Robust한 Image Classifier를 만들고 싶다!
- Robustness : 외부 환경에 굴하지 않고 안정적으로 기기가 동작하는 것
Image Classification 을 공부해야 하는 이유
- 유용하다. 상업적인 가치가 크다.
- 이미지 분류기를 다른 작업을 위해 사용할 수 있다. (building block for other vision tasks)
  - Object Detection : 이미지가 주어졌을 때, 객체가 있는 네모박스를 아웃풋을 주는 것
  - Image Captioning : 그림과 단어가 같이 주어지고, 이미지를 설명하는 문장을 만들어내는 것
  - Playing Go : 알파고

MNIST
- ${(x_i,y_i)}^{50k}_{i=1}$, $x_i \in R^{28 \times 28}$, $y_i \in {0, 1, \dotsc, 9}$
- 새로운 방법론을 테스트할 때 많이 사용한다. (첫 실험)
- Deep Learning 이 아닌 Shallow Machine Learning 기법인 Random Forest 조차 좋은 성능을 낸다.
CIFAR10
- ${(x_i,y_i)}^{50k}_{i=1}$, $x_i \in R^{32 \times 32 \times 3}$, $y_i \in {0, 1, \dotsc, 9}$
- 로컬 컴퓨터로 돌릴 수 있을 정도의 적당한 크기
CIFAR100
- ${(x_i,y_i)}^{50k}_{i=1}$, $x_i \in R^{32 \times 32 \times 3}$, $y_i \in {0, 1, \dotsc, 99}$
- 20 superclasses with 5 classes each : class 간에 계층구조가 있음
  < 큰 규모 >
ImageNet (자주 사용하는 버전)
- ${(x_i,y_i)}^{50k}_{i=1}$, $x_i \in R^{256 \times 256 \times 3}$, $y_i \in {0, 1, \dotsc, 999}$
- GPU 여러 개의 환경에서 하루 이틀은 학습시켜야하는 크기
- 방법론들을 비교할 때 벤치마크 데이터셋으로 많이 쓰임
- Performance metric : 상위 5개 중에 정답이 들어있으면 맞춘걸로
MIT Places
- ${(x_i,y_i)}^{8M}_{i=1}$, $x_i \in R^{256 \times 256 \times 3}$, $y_i \in {0, 1, \dotsc, 365}$
Omniglot
- ${(x_i,y_i)}^{32k}_{i=1}$, $x_i \in R^{256 \times 256 \times 3}$, $y_i \in {0, 1, \dotsc, 1622}$
- 샘플 사이즈가 적은 데이터셋으로 테스트하기 위해 사용
  < 이 외 >
캐글
AI 바우처, AI 공공데이터