ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • YOLO(You Only Look Once) - 논문 리뷰 (Introduction)
    논문 리뷰/YOLO(You Only Look Once) 2023. 7. 23. 23:22

    원문 : https://arxiv.org/pdf/1506.02640.pdf

    1. Introduction

      인간은 이미지를 보고 이미지에 어떤 객체가 있는지, 어디에 있는지, 어떻게 상호작용하는 지 즉시 알 수 있다.

      인간의 시각 시스템은 빠르고 정확하여 의식하지 않고도 운전과 같은 복잡한 작업을 수행할 수 있다.

      객체 감지(Object Detection)을 위한 빠르고 정확한 알고리즘을 통해 컴퓨터는 특수 센서 없이 자동차를 운전할 수 있고,  보조 장치가 실시간 장면 정보를 사용자(사람 등)에게 전달할 수 있으며, 범용 반응형 로봇 시스템의 가능성을 열 수 있습니다.

     

      현재의 감지 시스템은 분류기를 용도 변경하여 감지를 수행한다.

      객체를 감지하기 위해 이러한 시스템은 해당 객체에 대한 분류기(classifier)를 사용하여 테스트 이미지의 다양한 위치와 크기에서 평가한다.

      DPM(Deformable Parts Models)과 같은 시스템은 분류기가 전체 이미지에 걸쳐 균일한 간격으로 실행되는 슬라이딩 윈도우(Sliding Window) 접근 방식을 사용한다.

     

      R-CNN과 같은 최신 접근 방식은 영역 제안 방법을 사용하여 먼저 이미지에서 잠재적인 경계 상자를 생성한 다음 이러한 제안된 상자에서 분류기를 실행( 여러개의 경계 상자 생성 - 이를 분류기로 나눔)

      분류 이후 후처리를 적용하여 경계 상자를 다듬고 중복 감지를 제거(IoU)하며 장면의 다른 객체를 기반으로 상자를 다시 채점한다.

      이러한 복잡한 파이프라인은 느리고 최적화하기 어려움이 존재한다. ( 개별 구성 요소를 개별적으로 교육해야 하기 때문)

     

      본 논문에서는 객체 감지를 이미지 픽셀에서 경계 상자 좌표 및 클래스 확률(객체의 정확도)에 이르기까지 단일 회귀 문제(one-stage)로 재구성한다.

      이미지에서 YOLO(You Only Look Once) 시스템을 사용하여 어떤 물체가 있고 어디에 있는지 예측함

     

      YOLO는 매우 간단한 모델이다. 

      단일 합성곱 네트워크(Convolution Network)는 여러 경계 상자와 해당 상자에 대한 클래스 확률을 동시에 예측한다.

      YOLO는 전체 이미지를 학습하고 감지 성능을 직접 최적화한다.

      이 통합 모델은 기존의 물체 감지 방법에 비해 몇가지 이점이 존재함.

        첫째

    YOLO는 매우 빠르다. 

    - 탐지(Detection)을 회귀 문제(Regression Problem)로 프레임화하기에 복잡한 파이프라인이 필요하지 않는다.

    - 탐지를 예측하기 위해 테스트 시간에 새 이미지에서 신경망을 실행하기만 하면 된다.

    - 본 논문의 GPU(Titan X)에서 일괄 처리 없이 초당 45 프레임으로 실행되며 빠른 버전(경량화 모델)은 150fps이상으로 실행된다. 즉 25ms 미만의 대기 시간으로 스트리밍 비디오를 실시간으로 처리할 수 있다.

    - 또한 YOLO는 다른 실시간 시스템의 평균적으로 평균 정밀도의 두 배 이상을 달성한다.

     

        둘째

    YOLO는 예측할 때 이미지에 대해 전체적으로 추론한다.

    - 슬라이딩 윈도우 및 영역 제안 기반 기술과 달리 YOLO는 교육 및 테스트 시간 동안 전체 이미지를 보기 때문에 클래스에 대한 정보와 모양 뿐 아니라 주변 정보까지 학습하여 인코딩한다.

    - 상위 감지 방법인 Fast R-CNN은 이미지의 배경에 반점이나 노이즈를 객체로 인식하는 배경 오류(Background Error)가 나타난다.

    - YOLO는 Fast R-CNN에 비해 배경 오류 수를 절반 미만으로 만든다. 

     

        셋째

    YOLO는 일반화 가능한 표현을 학습한다.

    - 자연 이미지에 대한 학습을 받고 예술 작품에 대해 테스트할 때 YOLO는 DPM과 R-CNN같은 최고의 감지 방법보다 훨씬 뛰어난다.

    - YOLO는 매우 일반화 가능하기 때문에 새로운 도메인이나 예상치 못한 입력 등이 적용될 때 고장(Error)의 가능성이 적다.

     

    YOLO는 여전히 정확도 면에서 최첨단 탐지 시스템에 뒤처져 있다.

    이미지에서 객체를 빠르게 식별할 수 있지만 일부 객체(작은 객체) 등을 정교하게 탐지하는 데 어려움을 겪는다.

    실험에서 이러한 장단점을 더 자세히 조사한다.

     

    참조글

    YOLO 참조

    - https://bkshin.tistory.com/entry/%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0-YOLOYou-Only-Look-Once

     

    논문 리뷰 - YOLO(You Only Look Once) 톺아보기

    본 글은 YOLO 논문 전체를 번역 및 설명해놓은 글입니다. 크게 중요하지 않은 부분을 제외하고는 대부분의 글을 번역했고 필요하다면 부가적인 설명도 추가했습니다. 내용이 긴 섹션 끝에는 요약

    bkshin.tistory.com

    분류기(Classifier).

    - https://blog.naver.com/mooncir/220319922789 

     

    Classifier 란 무엇인가?

    예전에 회사 내에서 간단한 세미나 형식으로 발표하면서 만들었던 자료 분류(classification)가 무엇인지, ...

    blog.naver.com

    DPM

    - https://89douner.tistory.com/82

     

    4. DPM (Deformable Part Model)

    안녕하세요~ 이번글에서는 RCNN을 배우기전에 존재한 object detection 모델에 대해서 알아보도록 할게요~이러한 개념들을 이해하고 있어야 RCNN이 등장한 Motivation에 대해서 이해하실 수 있어요. 그래

    89douner.tistory.com

     

Designed by Tistory.