Retrieval-Driven Re-labeling for Zero-training Object Detection
- Authors
- 이영민; 고병하; 이정호; 김동환
- Issue Date
- 2025-02-06
- Publisher
- 한국방송·미디어공학회
- Citation
- 제 37회 영상처리 및 이해에 관한 워크샵 (37th Workshop on Image Processing and Image Understanding)
- Abstract
- 본 연구는 사전 학습된 비전-언어 모델과 이미지 검색 기법을 결합하여, 특정 도메인에 대한 fine-tuning 과정 없이도 새로운 객체나 세밀한 카테고리를 정교하게 탐지할 수 있는 Zero-training Object Detection 시스 템을 제안한다. 본 시스템은 Text-Guided Region Proposal(TGRP) 와 Image Retrieval based Re-labeling(IRR) , 두 가지 모듈로 구성되며, 입력 이미지와 텍스트가 TGRP 모듈과 IRR 모듈을 거쳐 탐지 결과를 도출하는 과정 으로 진행된다. TGRP 모듈은 텍스트 프롬프트에 해당되는 객체를 탐지하는 Open-Vocabulary Object Detection(OVD) 모델의 zero-shot 탐지 성능을 활용하여 이미지 내 목표 객체들의 영역을 탐지한다. 이후, IRR 모듈은 해당 객체 영역들에 대한 새로운 구체적인 수준의 레이블을 데이터베이스로부터 검색하여 각 객체들에 재지정한다. 제안된 시스템은 detection 모델의 classification 성능에 의존하는 대신 image retrieval 을 활용함으로써 이미지 내 객체들을 더 세밀하게 구분할 수 있다. 이와 같은 여러 객체들에 대한 인스턴스 단위로 구분되는 탐지 성능을 평가하기 위하여 유사한 시각적 특징을 보이는 카테고리들을 포함하는 스낵 데이터셋을 구축하였고, 이를 통해 Zero-training Object Detection 시스템의 성능을 평가하였다. 본 시스템은 현재 가장 높은 성능을 보이는 OVD 모델들을 뛰어넘는 성능을 보였고, fine-tuning 과정을 거친 대표적인 detection 모델들에 대해서도 경쟁할만한 성능을 기록했다.
- URI
- https://pubs.kist.re.kr/handle/201004/153890
- Appears in Collections:
- KIST Conference Paper > 2025
- Export
- RIS (EndNote)
- XLS (Excel)
- XML
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.