논문으로 시작하는 딥러닝 - Image Detection 방법론

Notice

Recent Posts

Recent Comments

Link

« 2026/06 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

Tags more

Archives

Today

Total

관리 메뉴

펭로그

논문으로 시작하는 딥러닝 - Image Detection 방법론 본문

Study/Computer Vision

논문으로 시작하는 딥러닝 - Image Detection 방법론

노랑펭귄 2018. 7. 29. 13:36

강의 링크 : https://www.edwith.org/deeplearningchoi

* 본 포스팅은 위의 강의를 보고 요약 정리한 내용입니다.

1. R-CNN

논문 :
https://github.com/sjchoi86/dl_tutorials_10weeks/blob/master/papers/Rich%20feature%20hierarchies%20for%20accurate%20object%20detection%20and%20semantic%20segmentation.pdf

- CNN에서 fully connected layer 때문에 입력 이미지가 항상 고정된 사이즈를 필요로 하는 문제를 해결하기 위해 R-CNN에서는 여러 다른 사이즈를 갖는 bounding box를 샘플로 사용

- 딥러닝과 상관 없이 물체가 있을 것 같은 공간에 region proposals을 해줌 (시간 오래 걸림)

- CPU로 처리시 이미지 1장당 1분 이상 소요

- 지정된 region을 pre-trained CNN을 사용하여 feature를 뽑아 linear SVMs로 분류

- 종횡비를 전혀 고려하지 않고 crop이나 warp를 통해 동일한 크기의 fixed size image로 바꾼후 CNN 처리

Selective search 알고리즘을 사용한 예시) 다양한 bounding box를 잡았어도 원하는 물체를 detection 하지 못하면 아무 의미 없는 알고리즘

2000개의 region proposals를 뽑고 227*227로 resize 후 CNN을 이용하여 4,096 벡터를 뽑고 SVMs로 분류

GPU를 사용해도 한 장당 처리속도가 느린편

하나의 bounding box를 중심점, 종횡비(ratio), width, height을 얼만큼 바꿔야지 ground truth의 bounding box와 일치하는지 측정가능

이미지 안에 큰 물체만 잡는 등 성능이 좋지 못함

2. SPPnet (Spatial Pyramid Pooling)

논문 :
https://github.com/sjchoi86/dl_tutorials_10weeks/blob/master/papers/Spatial%20Pyramid%20Pooling%20in%20Deep%20Convolutional%20Networks%20for%20Visual%20Recognition.pdf

R-CNN에서 2000개의 bounding box를 각각 CNN으로 처리하였다면 SPPnet에선 1회만 CNN 처리 후 나온 convolutional feature map에서 해당하는 영역에 있는 정보만 가져옴

Crop/warp으로 왜곡이나 정보 손실이 발생하는 부분을 원본에서 conv layer를 먼저 추출하는 방법을 통해 보완 (최대 100배 정도 시간 단축 가능)

Convolutional layers에서 뽑힌 bounding box의 종횡비나 사이즈에 관계 없이 영역을 동일한 사이즈로 나눠 평균 값을 구해서 fixed-length representation을 찾아서 fully-connected layer로 넘겨주는게 SPPnet에서의 pooling 방법, 4*4 / 2*2 / 1*1 등으로 pooling한 결과를 합쳐서 출력

[R-CNN과 SPPNet의 차이]

- R-CNN은 이미지 영역에서 feature 추출하여 모든 Region proposal 마다 CNN을 돌려 성능이 매우 느림

- SPPNet은 crop/warp을 하지 않고 바로 conv layers를 구해서 feature Map 내부에서 일부 영역을 취해서 feature를 추출

3. Fast R-CNN

논문 :
https://github.com/sjchoi86/dl_tutorials_10weeks/blob/master/papers/Fast%20R-CNN.pdf