<?xml version="1.0" encoding="utf-8" standalone="no"?>
<dublin_core schema="dc">
<dcvalue element="contributor" qualifier="author">Park,&#x20;Jungin</dcvalue>
<dcvalue element="contributor" qualifier="author">Lee,&#x20;Jiyoung</dcvalue>
<dcvalue element="contributor" qualifier="author">Sohn,&#x20;Kwanghoon</dcvalue>
<dcvalue element="date" qualifier="accessioned">2025-09-23T04:31:51Z</dcvalue>
<dcvalue element="date" qualifier="available">2025-09-23T04:31:51Z</dcvalue>
<dcvalue element="date" qualifier="created">2025-09-16</dcvalue>
<dcvalue element="date" qualifier="issued">2025-12</dcvalue>
<dcvalue element="identifier" qualifier="issn">0920-5691</dcvalue>
<dcvalue element="identifier" qualifier="uri">https:&#x2F;&#x2F;pubs.kist.re.kr&#x2F;handle&#x2F;201004&#x2F;153222</dcvalue>
<dcvalue element="description" qualifier="abstract">Video&#x20;summarization&#x20;aims&#x20;to&#x20;select&#x20;keyframes&#x20;that&#x20;are&#x20;visually&#x20;diverse&#x20;and&#x20;can&#x20;represent&#x20;the&#x20;whole&#x20;story&#x20;of&#x20;a&#x20;given&#x20;video.&#x20;Previous&#x20;approaches&#x20;have&#x20;focused&#x20;on&#x20;global&#x20;interlinkability&#x20;between&#x20;frames&#x20;in&#x20;a&#x20;video&#x20;by&#x20;temporal&#x20;modeling.&#x20;However,&#x20;fine-grained&#x20;visual&#x20;entities,&#x20;such&#x20;as&#x20;objects,&#x20;are&#x20;also&#x20;highly&#x20;related&#x20;to&#x20;the&#x20;main&#x20;content&#x20;of&#x20;the&#x20;video.&#x20;Moreover,&#x20;language-guided&#x20;video&#x20;summarization,&#x20;which&#x20;has&#x20;recently&#x20;been&#x20;studied,&#x20;requires&#x20;a&#x20;comprehensive&#x20;linguistic&#x20;understanding&#x20;of&#x20;complex&#x20;real-world&#x20;videos.&#x20;To&#x20;consider&#x20;how&#x20;all&#x20;the&#x20;objects&#x20;are&#x20;semantically&#x20;related&#x20;to&#x20;each&#x20;other,&#x20;this&#x20;paper&#x20;regards&#x20;video&#x20;summarization&#x20;as&#x20;a&#x20;language-guided&#x20;spatiotemporal&#x20;graph&#x20;modeling&#x20;problem.&#x20;We&#x20;present&#x20;recursive&#x20;spatiotemporal&#x20;graph&#x20;networks,&#x20;called&#x20;VideoGraph,&#x20;which&#x20;formulate&#x20;the&#x20;objects&#x20;and&#x20;frames&#x20;as&#x20;nodes&#x20;of&#x20;the&#x20;spatial&#x20;and&#x20;temporal&#x20;graphs,&#x20;respectively.&#x20;The&#x20;nodes&#x20;in&#x20;each&#x20;graph&#x20;are&#x20;connected&#x20;and&#x20;aggregated&#x20;with&#x20;graph&#x20;edges,&#x20;representing&#x20;the&#x20;semantic&#x20;relationships&#x20;between&#x20;the&#x20;nodes.&#x20;To&#x20;prevent&#x20;the&#x20;edges&#x20;from&#x20;being&#x20;configured&#x20;with&#x20;visual&#x20;similarity,&#x20;we&#x20;incorporate&#x20;language&#x20;queries&#x20;derived&#x20;from&#x20;the&#x20;video&#x20;into&#x20;the&#x20;graph&#x20;node&#x20;representations,&#x20;enabling&#x20;them&#x20;to&#x20;contain&#x20;semantic&#x20;knowledge.&#x20;In&#x20;addition,&#x20;we&#x20;adopt&#x20;a&#x20;recursive&#x20;strategy&#x20;to&#x20;refine&#x20;initial&#x20;graphs&#x20;and&#x20;correctly&#x20;classify&#x20;each&#x20;frame&#x20;node&#x20;as&#x20;a&#x20;keyframe.&#x20;In&#x20;our&#x20;experiments,&#x20;VideoGraph&#x20;achieves&#x20;state-of-the-art&#x20;performance&#x20;on&#x20;several&#x20;benchmarks&#x20;for&#x20;generic&#x20;and&#x20;query-focused&#x20;video&#x20;summarization&#x20;in&#x20;both&#x20;supervised&#x20;and&#x20;unsupervised&#x20;manners.&#x20;The&#x20;code&#x20;is&#x20;available&#x20;at&#x20;https:&#x2F;&#x2F;github.com&#x2F;park-jungin&#x2F;videograph.</dcvalue>
<dcvalue element="language" qualifier="none">English</dcvalue>
<dcvalue element="publisher" qualifier="none">SPRINGER</dcvalue>
<dcvalue element="title" qualifier="none">Language-guided&#x20;Recursive&#x20;Spatiotemporal&#x20;Graph&#x20;Modeling&#x20;for&#x20;Video&#x20;Summarization</dcvalue>
<dcvalue element="type" qualifier="none">Article</dcvalue>
<dcvalue element="identifier" qualifier="doi">10.1007&#x2F;s11263-025-02577-2</dcvalue>
<dcvalue element="description" qualifier="journalClass">1</dcvalue>
<dcvalue element="identifier" qualifier="bibliographicCitation">International&#x20;Journal&#x20;of&#x20;Computer&#x20;Vision,&#x20;v.133,&#x20;no.12,&#x20;pp.8617&#x20;-&#x20;8641</dcvalue>
<dcvalue element="citation" qualifier="title">International&#x20;Journal&#x20;of&#x20;Computer&#x20;Vision</dcvalue>
<dcvalue element="citation" qualifier="volume">133</dcvalue>
<dcvalue element="citation" qualifier="number">12</dcvalue>
<dcvalue element="citation" qualifier="startPage">8617</dcvalue>
<dcvalue element="citation" qualifier="endPage">8641</dcvalue>
<dcvalue element="description" qualifier="isOpenAccess">Y</dcvalue>
<dcvalue element="description" qualifier="journalRegisteredClass">scie</dcvalue>
<dcvalue element="description" qualifier="journalRegisteredClass">scopus</dcvalue>
<dcvalue element="identifier" qualifier="wosid">001564004800001</dcvalue>
<dcvalue element="relation" qualifier="journalWebOfScienceCategory">Computer&#x20;Science,&#x20;Artificial&#x20;Intelligence</dcvalue>
<dcvalue element="relation" qualifier="journalResearchArea">Computer&#x20;Science</dcvalue>
<dcvalue element="type" qualifier="docType">Article</dcvalue>
<dcvalue element="subject" qualifier="keywordAuthor">Language-guided&#x20;video&#x20;summarization</dcvalue>
<dcvalue element="subject" qualifier="keywordAuthor">Recursive&#x20;graph&#x20;refinement</dcvalue>
<dcvalue element="subject" qualifier="keywordAuthor">Spatiotemporal&#x20;graph&#x20;convolutional&#x20;networks</dcvalue>
</dublin_core>
