<?xml version="1.0" encoding="utf-8" standalone="no"?>
<dublin_core schema="dc">
<dcvalue element="contributor" qualifier="author">Park,&#x20;Jungin</dcvalue>
<dcvalue element="contributor" qualifier="author">Lee,&#x20;Jiyoung</dcvalue>
<dcvalue element="contributor" qualifier="author">Sohn,&#x20;Kwanghoon</dcvalue>
<dcvalue element="date" qualifier="accessioned">2024-01-12T02:46:03Z</dcvalue>
<dcvalue element="date" qualifier="available">2024-01-12T02:46:03Z</dcvalue>
<dcvalue element="date" qualifier="created">2023-11-17</dcvalue>
<dcvalue element="date" qualifier="issued">2023-06</dcvalue>
<dcvalue element="identifier" qualifier="issn">1063-6919</dcvalue>
<dcvalue element="identifier" qualifier="uri">https:&#x2F;&#x2F;pubs.kist.re.kr&#x2F;handle&#x2F;201004&#x2F;76431</dcvalue>
<dcvalue element="description" qualifier="abstract">In&#x20;this&#x20;paper,&#x20;we&#x20;efficiently&#x20;transfer&#x20;the&#x20;surpassing&#x20;representation&#x20;power&#x20;of&#x20;the&#x20;vision&#x20;foundation&#x20;models,&#x20;such&#x20;as&#x20;ViT&#x20;and&#x20;Swin,&#x20;for&#x20;video&#x20;understanding&#x20;with&#x20;only&#x20;a&#x20;few&#x20;trainable&#x20;parameters.&#x20;Previous&#x20;adaptation&#x20;methods&#x20;have&#x20;simultaneously&#x20;considered&#x20;spatial&#x20;and&#x20;temporal&#x20;modeling&#x20;with&#x20;a&#x20;unified&#x20;learnable&#x20;module&#x20;but&#x20;still&#x20;suffered&#x20;from&#x20;fully&#x20;leveraging&#x20;the&#x20;representative&#x20;capabilities&#x20;of&#x20;image&#x20;transformers.&#x20;We&#x20;argue&#x20;that&#x20;the&#x20;popular&#x20;dual-path&#x20;(two-stream)&#x20;architecture&#x20;in&#x20;video&#x20;models&#x20;can&#x20;mitigate&#x20;this&#x20;problem.&#x20;We&#x20;propose&#x20;a&#x20;novel&#x20;DUALPATH&#x20;adaptation&#x20;separated&#x20;into&#x20;spatial&#x20;and&#x20;temporal&#x20;adaptation&#x20;paths,&#x20;where&#x20;a&#x20;lightweight&#x20;bottleneck&#x20;adapter&#x20;is&#x20;employed&#x20;in&#x20;each&#x20;transformer&#x20;block.&#x20;Especially&#x20;for&#x20;temporal&#x20;dynamic&#x20;modeling,&#x20;we&#x20;incorporate&#x20;consecutive&#x20;frames&#x20;into&#x20;a&#x20;grid-like&#x20;frameset&#x20;to&#x20;precisely&#x20;imitate&#x20;vision&#x20;transformers&amp;apos;&#x20;capability&#x20;that&#x20;extrapolates&#x20;relationships&#x20;between&#x20;tokens.&#x20;In&#x20;addition,&#x20;we&#x20;extensively&#x20;investigate&#x20;the&#x20;multiple&#x20;baselines&#x20;from&#x20;a&#x20;unified&#x20;perspective&#x20;in&#x20;video&#x20;understanding&#x20;and&#x20;compare&#x20;them&#x20;with&#x20;DUALPATH.&#x20;Experimental&#x20;results&#x20;on&#x20;four&#x20;action&#x20;recognition&#x20;benchmarks&#x20;prove&#x20;that&#x20;pretrained&#x20;image&#x20;transformers&#x20;with&#x20;DUALPATH&#x20;can&#x20;be&#x20;effectively&#x20;generalized&#x20;beyond&#x20;the&#x20;data&#x20;domain.</dcvalue>
<dcvalue element="language" qualifier="none">English</dcvalue>
<dcvalue element="publisher" qualifier="none">IEEE&#x20;COMPUTER&#x20;SOC</dcvalue>
<dcvalue element="title" qualifier="none">Dual-path&#x20;Adaptation&#x20;from&#x20;Image&#x20;to&#x20;Video&#x20;Transformers</dcvalue>
<dcvalue element="type" qualifier="none">Conference</dcvalue>
<dcvalue element="identifier" qualifier="doi">10.1109&#x2F;CVPR52729.2023.00219</dcvalue>
<dcvalue element="description" qualifier="journalClass">1</dcvalue>
<dcvalue element="identifier" qualifier="bibliographicCitation">IEEE&#x2F;CVF&#x20;Conference&#x20;on&#x20;Computer&#x20;Vision&#x20;and&#x20;Pattern&#x20;Recognition&#x20;(CVPR),&#x20;pp.2203&#x20;-&#x20;2213</dcvalue>
<dcvalue element="citation" qualifier="title">IEEE&#x2F;CVF&#x20;Conference&#x20;on&#x20;Computer&#x20;Vision&#x20;and&#x20;Pattern&#x20;Recognition&#x20;(CVPR)</dcvalue>
<dcvalue element="citation" qualifier="startPage">2203</dcvalue>
<dcvalue element="citation" qualifier="endPage">2213</dcvalue>
<dcvalue element="citation" qualifier="conferencePlace">US</dcvalue>
<dcvalue element="citation" qualifier="conferencePlace">Vancouver,&#x20;CANADA</dcvalue>
<dcvalue element="citation" qualifier="conferenceDate">2023-06-17</dcvalue>
<dcvalue element="relation" qualifier="isPartOf">2023&#x20;IEEE&#x2F;CVF&#x20;CONFERENCE&#x20;ON&#x20;COMPUTER&#x20;VISION&#x20;AND&#x20;PATTERN&#x20;RECOGNITION,&#x20;CVPR</dcvalue>
<dcvalue element="identifier" qualifier="wosid">001058542602052</dcvalue>
<dcvalue element="identifier" qualifier="scopusid">2-s2.0-85173910084</dcvalue>
</dublin_core>
