<?xml version="1.0" encoding="utf-8" standalone="no"?>
<dublin_core schema="dc">
<dcvalue element="contributor" qualifier="author">Lee,&#x20;Jeong&#x20;Ryong</dcvalue>
<dcvalue element="contributor" qualifier="author">Shin,&#x20;Yejee</dcvalue>
<dcvalue element="contributor" qualifier="author">Son,&#x20;Geonhui</dcvalue>
<dcvalue element="contributor" qualifier="author">Hwang,&#x20;Dosik</dcvalue>
<dcvalue element="date" qualifier="accessioned">2026-01-02T07:00:16Z</dcvalue>
<dcvalue element="date" qualifier="available">2026-01-02T07:00:16Z</dcvalue>
<dcvalue element="date" qualifier="created">2025-12-23</dcvalue>
<dcvalue element="date" qualifier="issued">2025-06</dcvalue>
<dcvalue element="identifier" qualifier="issn">1063-6919</dcvalue>
<dcvalue element="identifier" qualifier="uri">https:&#x2F;&#x2F;pubs.kist.re.kr&#x2F;handle&#x2F;201004&#x2F;153948</dcvalue>
<dcvalue element="description" qualifier="abstract">The&#x20;modality&#x20;gap&#x20;between&#x20;vision&#x20;and&#x20;text&#x20;embeddings&#x20;in&#x20;CLIP&#x20;presents&#x20;a&#x20;significant&#x20;challenge&#x20;for&#x20;zero-shot&#x20;image&#x20;captioning,&#x20;limiting&#x20;effective&#x20;cross-modal&#x20;representation.&#x20;Traditional&#x20;approaches,&#x20;such&#x20;as&#x20;noise&#x20;injection&#x20;and&#x20;memory-based&#x20;similarity&#x20;matching,&#x20;attempt&#x20;to&#x20;address&#x20;this&#x20;gap,&#x20;yet&#x20;these&#x20;methods&#x20;either&#x20;rely&#x20;on&#x20;indirect&#x20;alignment&#x20;or&#x20;relatively&#x20;naive&#x20;solutions&#x20;with&#x20;heavy&#x20;computation.&#x20;Diffusion&#x20;Bridge&#x20;introduces&#x20;a&#x20;novel&#x20;approach&#x20;to&#x20;directly&#x20;reduce&#x20;this&#x20;modality&#x20;gap&#x20;by&#x20;leveraging&#x20;Denoising&#x20;Diffusion&#x20;Probabilistic&#x20;Models&#x20;(DDPM),&#x20;trained&#x20;exclusively&#x20;on&#x20;text&#x20;embeddings&#x20;to&#x20;model&#x20;their&#x20;distribution.&#x20;Our&#x20;approach&#x20;is&#x20;motivated&#x20;by&#x20;the&#x20;observation&#x20;that,&#x20;while&#x20;paired&#x20;vision&#x20;and&#x20;text&#x20;embeddings&#x20;are&#x20;relatively&#x20;close,&#x20;a&#x20;modality&#x20;gap&#x20;still&#x20;exists&#x20;due&#x20;to&#x20;stable&#x20;regions&#x20;created&#x20;by&#x20;the&#x20;contrastive&#x20;loss.&#x20;This&#x20;gap&#x20;can&#x20;be&#x20;interpreted&#x20;as&#x20;noise&#x20;in&#x20;cross-modal&#x20;mappings,&#x20;which&#x20;we&#x20;approximate&#x20;as&#x20;Gaussian&#x20;noise.&#x20;To&#x20;bridge&#x20;this&#x20;gap,&#x20;we&#x20;employ&#x20;a&#x20;reverse&#x20;diffusion&#x20;process,&#x20;where&#x20;image&#x20;embeddings&#x20;are&#x20;strategically&#x20;introduced&#x20;at&#x20;an&#x20;intermediate&#x20;step&#x20;in&#x20;the&#x20;reverse&#x20;process,&#x20;allowing&#x20;them&#x20;to&#x20;be&#x20;refined&#x20;progressively&#x20;toward&#x20;the&#x20;text&#x20;embedding&#x20;distribution.&#x20;This&#x20;process&#x20;transforms&#x20;vision&#x20;embeddings&#x20;into&#x20;text-like&#x20;representations&#x20;closely&#x20;aligned&#x20;with&#x20;paired&#x20;text&#x20;embeddings,&#x20;effectively&#x20;minimizing&#x20;discrepancies&#x20;between&#x20;modalities.&#x20;Experimental&#x20;results&#x20;demonstrate&#x20;that&#x20;these&#x20;text-like&#x20;vision&#x20;embeddings&#x20;significantly&#x20;enhance&#x20;alignment&#x20;with&#x20;their&#x20;paired&#x20;text&#x20;embeddings,&#x20;leading&#x20;to&#x20;improved&#x20;zero-shot&#x20;captioning&#x20;performance&#x20;on&#x20;MSCOCO&#x20;and&#x20;Flickr30K.&#x20;Diffusion&#x20;Bridge&#x20;achieves&#x20;competitive&#x20;results&#x20;without&#x20;reliance&#x20;on&#x20;memory&#x20;banks&#x20;or&#x20;entity-driven&#x20;methods,&#x20;offering&#x20;a&#x20;novel&#x20;pathway&#x20;for&#x20;cross-modal&#x20;alignment&#x20;and&#x20;opening&#x20;new&#x20;possibilities&#x20;for&#x20;the&#x20;application&#x20;of&#x20;diffusion&#x20;models&#x20;in&#x20;multi-modal&#x20;tasks.&#x20;The&#x20;source&#x20;code&#x20;is&#x20;available&#x20;at:&#x20;https:&#x2F;&#x2F;github.com&#x2F;mongeoroo&#x2F;diffusion-bridge</dcvalue>
<dcvalue element="language" qualifier="none">English</dcvalue>
<dcvalue element="publisher" qualifier="none">IEEE&#x20;COMPUTER&#x20;SOC</dcvalue>
<dcvalue element="title" qualifier="none">Diffusion&#x20;Bridge:&#x20;Leveraging&#x20;Diffusion&#x20;Model&#x20;to&#x20;Reduce&#x20;the&#x20;Modality&#x20;Gap&#x20;Between&#x20;Text&#x20;and&#x20;Vision&#x20;for&#x20;Zero-Shot&#x20;Image&#x20;Captioning</dcvalue>
<dcvalue element="type" qualifier="none">Conference</dcvalue>
<dcvalue element="identifier" qualifier="doi">10.1109&#x2F;CVPR52734.2025.00383</dcvalue>
<dcvalue element="description" qualifier="journalClass">1</dcvalue>
<dcvalue element="identifier" qualifier="bibliographicCitation">2025&#x20;Conference&#x20;on&#x20;Computer&#x20;Vision&#x20;and&#x20;Pattern&#x20;Recognition-CVPR-Annual,&#x20;pp.4050&#x20;-&#x20;4059</dcvalue>
<dcvalue element="citation" qualifier="title">2025&#x20;Conference&#x20;on&#x20;Computer&#x20;Vision&#x20;and&#x20;Pattern&#x20;Recognition-CVPR-Annual</dcvalue>
<dcvalue element="citation" qualifier="startPage">4050</dcvalue>
<dcvalue element="citation" qualifier="endPage">4059</dcvalue>
<dcvalue element="citation" qualifier="conferencePlace">US</dcvalue>
<dcvalue element="citation" qualifier="conferencePlace">Nashville,&#x20;TN</dcvalue>
<dcvalue element="citation" qualifier="conferenceDate">2025-06-10</dcvalue>
<dcvalue element="relation" qualifier="isPartOf">2025&#x20;IEEE&#x2F;CVF&#x20;CONFERENCE&#x20;ON&#x20;COMPUTER&#x20;VISION&#x20;AND&#x20;PATTERN&#x20;RECOGNITION,&#x20;CVPR</dcvalue>
<dcvalue element="identifier" qualifier="wosid">001562507804044</dcvalue>
</dublin_core>
