CS231n 11강. Detection and Segmentation

Stanfoard CS231n 2017 11강을 요약한 글입니다. Object Detection, Segmentation, Localization, Classification 등의 개념에 대해 나옵니다

Computer Vision Tasks

No objects, just pixels
Input : Image
Output : decision of a category for every pixel(픽셀별로 어떤 카테고리에 속하는지 알려줌)
픽셀이 어떤 것을 나타내는지 알려주지만, 개별에 대해선 분류할 수 없음(2개 이상의 물체를 같은 것으로 인식) 추후 instance segmentation에서 이 문제를 해결할 예정입니다
Semantic Segmentation은 classification을 통해 진행될 수 있습니다.
Sliding Window Approach
- 잘려진 patch마다 어떤 class인지 유추
- 이 방법은 computation이 비싼 방법이고 중복되는 patch 사이에서 공유된 feature를 재사용하지 않습니다
Fully Convolutional
- 3x3 filter를 사용해 이미지 크기를 유지하며 convolution에 넣음
- 한번에 모든 픽셀을 예측할 수 있도록 설계
- Output : \(C \times H \times W\)의 Tensor
- 그러나 원본 이미지를 그대로 convolution하는 것은 비싼 연산
Fully Convolutional with downsampling and upsampling
- max pooling 또는 strided convolution을 통해 downsampling
- unpooling을 통해 upsampling

Computer Vision의 핵심 Task
Multiple Object
Output : Bounding Box(around the region of label), label
딥러닝을 활용한 이후부터 점점 성능이 좋아지고 있음
Localization과의 차이점은 동일한 종류의 물체가 여러 개 있다면 Object Detection은 모두 잡음(Localization은 1개로 취급)
Sliding Window Approach
- 다른 모양의 crop에서 물체인지 배경인지 분류
- 거대하고 많은 crop이 필요한데, 이게 비싼 연산
Region Proposals
- Selective Search 방법으로 물체가 있을만한 Region을 1000~2000개 생성
- CPU에서 연산

ConvNet을 통해 나온 feature map에서 RoIs를 찾음
RoI Pooling
- Fully Connected Layer는 Fixed size input이 필요한데, RoI Pooling이 작업을 수행
Fast R-CNN은 여전히 Bottleneck을 보유

카일스쿨 유튜브 채널을 만들었습니다. 데이터 분석, 커리어에 대한 내용을 공유드릴 예정입니다.

PM을 위한 데이터 리터러시 강의를 만들었습니다. 문제 정의, 지표, 실험 설계, 문화 만들기, 로그 설계, 회고 등을 담은 강의입니다

이 글이 도움이 되셨거나 의견이 있으시면 댓글 남겨주셔요.