<?xml version="1.0" encoding="utf-8" standalone="no"?>
<dublin_core schema="dc">
<dcvalue element="contributor" qualifier="author">Park,&#x20;Jungin</dcvalue>
<dcvalue element="contributor" qualifier="author">Lee,&#x20;Jiyoung</dcvalue>
<dcvalue element="contributor" qualifier="author">Sohn,&#x20;Kwanghoon</dcvalue>
<dcvalue element="date" qualifier="accessioned">2026-02-25T00:30:27Z</dcvalue>
<dcvalue element="date" qualifier="available">2026-02-25T00:30:27Z</dcvalue>
<dcvalue element="date" qualifier="created">2026-02-03</dcvalue>
<dcvalue element="date" qualifier="issued">2025</dcvalue>
<dcvalue element="identifier" qualifier="issn">1063-6919</dcvalue>
<dcvalue element="identifier" qualifier="uri">https:&#x2F;&#x2F;pubs.kist.re.kr&#x2F;handle&#x2F;201004&#x2F;154355</dcvalue>
<dcvalue element="description" qualifier="abstract">View-invariant&#x20;representation&#x20;learning&#x20;from&#x20;egocentric&#x20;(first-person,&#x20;ego)&#x20;and&#x20;exocentric&#x20;(third-person,&#x20;exo)&#x20;videos&#x20;is&#x20;a&#x20;promising&#x20;approach&#x20;toward&#x20;generalizing&#x20;video&#x20;understanding&#x20;systems&#x20;across&#x20;multiple&#x20;viewpoints.&#x20;However,&#x20;this&#x20;area&#x20;has&#x20;been&#x20;underexplored&#x20;due&#x20;to&#x20;the&#x20;substantial&#x20;differences&#x20;in&#x20;perspective,&#x20;motion&#x20;patterns,&#x20;and&#x20;context&#x20;between&#x20;ego&#x20;and&#x20;exo&#x20;views.&#x20;In&#x20;this&#x20;paper,&#x20;we&#x20;propose&#x20;a&#x20;novel&#x20;masked&#x20;ego-exo&#x20;modeling&#x20;that&#x20;promotes&#x20;both&#x20;causal&#x20;temporal&#x20;dynamics&#x20;and&#x20;cross-view&#x20;alignment,&#x20;called&#x20;Bootstrap&#x20;Your&#x20;Own&#x20;Views&#x20;(BYOV),&#x20;for&#x20;fine-grained&#x20;view-invariant&#x20;video&#x20;representation&#x20;learning&#x20;from&#x20;unpaired&#x20;ego-exo&#x20;videos.&#x20;We&#x20;highlight&#x20;the&#x20;importance&#x20;of&#x20;capturing&#x20;the&#x20;compositional&#x20;nature&#x20;of&#x20;human&#x20;actions&#x20;as&#x20;a&#x20;basis&#x20;for&#x20;robust&#x20;cross-view&#x20;understanding.&#x20;Specifically,&#x20;self-view&#x20;masking&#x20;and&#x20;cross-view&#x20;masking&#x20;predictions&#x20;are&#x20;designed&#x20;to&#x20;learn&#x20;view-invariant&#x20;and&#x20;powerful&#x20;representations&#x20;concurrently.&#x20;Experimental&#x20;results&#x20;demonstrate&#x20;that&#x20;our&#x20;BYOV&#x20;significantly&#x20;surpasses&#x20;existing&#x20;approaches&#x20;with&#x20;notable&#x20;gains&#x20;across&#x20;all&#x20;metrics&#x20;in&#x20;four&#x20;downstream&#x20;ego-exo&#x20;video&#x20;tasks.&#x20;The&#x20;code&#x20;is&#x20;available&#x20;at&#x20;https:&#x2F;&#x2F;github.com&#x2F;park-&#x20;jungin&#x2F;byov.</dcvalue>
<dcvalue element="language" qualifier="none">English</dcvalue>
<dcvalue element="publisher" qualifier="none">IEEE&#x20;COMPUTER&#x20;SOC</dcvalue>
<dcvalue element="title" qualifier="none">Bootstrap&#x20;Your&#x20;Own&#x20;Views:&#x20;Masked&#x20;Ego-Exo&#x20;Modeling&#x20;for&#x20;Fine-grained&#x20;View-invariant&#x20;Video&#x20;Representations</dcvalue>
<dcvalue element="type" qualifier="none">Conference</dcvalue>
<dcvalue element="identifier" qualifier="doi">10.1109&#x2F;CVPR52734.2025.01275</dcvalue>
<dcvalue element="description" qualifier="journalClass">1</dcvalue>
<dcvalue element="identifier" qualifier="bibliographicCitation">2025&#x20;Conference&#x20;on&#x20;Computer&#x20;Vision&#x20;and&#x20;Pattern&#x20;Recognition-CVPR-Annual,&#x20;pp.13661&#x20;-&#x20;13670</dcvalue>
<dcvalue element="citation" qualifier="title">2025&#x20;Conference&#x20;on&#x20;Computer&#x20;Vision&#x20;and&#x20;Pattern&#x20;Recognition-CVPR-Annual</dcvalue>
<dcvalue element="citation" qualifier="startPage">13661</dcvalue>
<dcvalue element="citation" qualifier="endPage">13670</dcvalue>
<dcvalue element="citation" qualifier="conferencePlace">US</dcvalue>
<dcvalue element="citation" qualifier="conferencePlace">Nashville,&#x20;TN</dcvalue>
<dcvalue element="citation" qualifier="conferenceDate">2025-06-10</dcvalue>
<dcvalue element="relation" qualifier="isPartOf">2025&#x20;IEEE&#x2F;CVF&#x20;CONFERENCE&#x20;ON&#x20;COMPUTER&#x20;VISION&#x20;AND&#x20;PATTERN&#x20;RECOGNITION&#x20;(CVPR)</dcvalue>
<dcvalue element="identifier" qualifier="wosid">001601141700155</dcvalue>
<dcvalue element="identifier" qualifier="scopusid">2-s2.0-105017059544</dcvalue>
</dublin_core>
