Motivation
- Top CNN operation
- RCNN은 Selective Search를 통해 대략 2000개의 candidnate bounding box를 만듬
- 2000개의 candidnate bounding box를 CNN을 입력하게되면 하나의 이미지를 학습하거 detection을 하는데 많은 시간이 소요됨
→ 실시간이 불가능함

- Distortion by warping
- RCNN은 candidnate bounding box내의 Feature를 뽑아내기 위해 AlexNEt을 사용
- candidnate bounding box가 227 x 227 size로 wapping이 됨
- Wapping과정에서 이미지 왜곡 현상이 발생

- crop을 적용하면 crop된 구역만 CNN을 통과시키기 때문에, 전체 이미지 정보가 손실이 발생
→ 위 그림만 보더라도 자동차 사진을 입력 크기로 맞춰주기 위해 자동차가 잘려나간 것을 확인할 수 있음