Full metadata record

DC Field Value Language
dc.contributor.author이영민-
dc.contributor.author고병하-
dc.contributor.author이정호-
dc.contributor.author김동환-
dc.date.accessioned2025-12-29T02:30:28Z-
dc.date.available2025-12-29T02:30:28Z-
dc.date.created2025-11-17-
dc.date.issued2025-02-06-
dc.identifier.urihttps://pubs.kist.re.kr/handle/201004/153890-
dc.description.abstract본 연구는 사전 학습된 비전-언어 모델과 이미지 검색 기법을 결합하여, 특정 도메인에 대한 fine-tuning 과정 없이도 새로운 객체나 세밀한 카테고리를 정교하게 탐지할 수 있는 Zero-training Object Detection 시스 템을 제안한다. 본 시스템은 Text-Guided Region Proposal(TGRP) 와 Image Retrieval based Re-labeling(IRR) , 두 가지 모듈로 구성되며, 입력 이미지와 텍스트가 TGRP 모듈과 IRR 모듈을 거쳐 탐지 결과를 도출하는 과정 으로 진행된다. TGRP 모듈은 텍스트 프롬프트에 해당되는 객체를 탐지하는 Open-Vocabulary Object Detection(OVD) 모델의 zero-shot 탐지 성능을 활용하여 이미지 내 목표 객체들의 영역을 탐지한다. 이후, IRR 모듈은 해당 객체 영역들에 대한 새로운 구체적인 수준의 레이블을 데이터베이스로부터 검색하여 각 객체들에 재지정한다. 제안된 시스템은 detection 모델의 classification 성능에 의존하는 대신 image retrieval 을 활용함으로써 이미지 내 객체들을 더 세밀하게 구분할 수 있다. 이와 같은 여러 객체들에 대한 인스턴스 단위로 구분되는 탐지 성능을 평가하기 위하여 유사한 시각적 특징을 보이는 카테고리들을 포함하는 스낵 데이터셋을 구축하였고, 이를 통해 Zero-training Object Detection 시스템의 성능을 평가하였다. 본 시스템은 현재 가장 높은 성능을 보이는 OVD 모델들을 뛰어넘는 성능을 보였고, fine-tuning 과정을 거친 대표적인 detection 모델들에 대해서도 경쟁할만한 성능을 기록했다.-
dc.languageKorean-
dc.publisher한국방송·미디어공학회-
dc.titleRetrieval-Driven Re-labeling for Zero-training Object Detection-
dc.typeConference-
dc.description.journalClass2-
dc.identifier.bibliographicCitation제 37회 영상처리 및 이해에 관한 워크샵 (37th Workshop on Image Processing and Image Understanding)-
dc.citation.title제 37회 영상처리 및 이해에 관한 워크샵 (37th Workshop on Image Processing and Image Understanding)-
dc.citation.conferencePlaceKO-
dc.citation.conferencePlace제주-
dc.citation.conferenceDate2025-02-05-
dc.relation.isPartOf제 37회 영상처리 및 이해에 관한 워크샵 (37th Workshop on Image Processing and Image Understanding)-

qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE