<?xml version="1.0" encoding="utf-8" standalone="no"?>
<dublin_core schema="dc">
<dcvalue element="contributor" qualifier="author">Lee,&#x20;Wonjun</dcvalue>
<dcvalue element="contributor" qualifier="author">Ham,&#x20;Bumsub</dcvalue>
<dcvalue element="contributor" qualifier="author">Kim,&#x20;Suhyun</dcvalue>
<dcvalue element="date" qualifier="accessioned">2025-09-02T03:00:20Z</dcvalue>
<dcvalue element="date" qualifier="available">2025-09-02T03:00:20Z</dcvalue>
<dcvalue element="date" qualifier="created">2025-08-26</dcvalue>
<dcvalue element="date" qualifier="issued">2025-02</dcvalue>
<dcvalue element="identifier" qualifier="issn">2159-5399</dcvalue>
<dcvalue element="identifier" qualifier="uri">https:&#x2F;&#x2F;pubs.kist.re.kr&#x2F;handle&#x2F;201004&#x2F;153098</dcvalue>
<dcvalue element="description" qualifier="abstract">In&#x20;vision&#x20;transformers,&#x20;position&#x20;embedding&#x20;(PE)&#x20;plays&#x20;a&#x20;crucial&#x20;role&#x20;in&#x20;capturing&#x20;the&#x20;order&#x20;of&#x20;tokens.&#x20;However,&#x20;in&#x20;vision&#x20;transformer&#x20;structures,&#x20;there&#x20;is&#x20;a&#x20;limitation&#x20;in&#x20;the&#x20;expressiveness&#x20;of&#x20;PE&#x20;due&#x20;to&#x20;the&#x20;structure&#x20;where&#x20;position&#x20;embedding&#x20;is&#x20;simply&#x20;added&#x20;to&#x20;the&#x20;token&#x20;embedding.&#x20;A&#x20;layer-wise&#x20;method&#x20;that&#x20;delivers&#x20;PE&#x20;to&#x20;each&#x20;layer&#x20;and&#x20;applies&#x20;independent&#x20;Layer&#x20;Normalizations&#x20;for&#x20;token&#x20;embedding&#x20;and&#x20;PE&#x20;has&#x20;been&#x20;adopted&#x20;to&#x20;overcome&#x20;this&#x20;limitation.&#x20;In&#x20;this&#x20;paper,&#x20;we&#x20;identify&#x20;the&#x20;conflicting&#x20;result&#x20;that&#x20;occurs&#x20;in&#x20;a&#x20;layer-wise&#x20;structure&#x20;when&#x20;using&#x20;the&#x20;global&#x20;average&#x20;pooling&#x20;(GAP)&#x20;method&#x20;instead&#x20;of&#x20;the&#x20;class&#x20;token.&#x20;To&#x20;overcome&#x20;this&#x20;problem,&#x20;we&#x20;propose&#x20;MPVG,&#x20;which&#x20;maximizes&#x20;the&#x20;effectiveness&#x20;of&#x20;PE&#x20;in&#x20;a&#x20;layer-wise&#x20;structure&#x20;with&#x20;GAP.&#x20;Specifically,&#x20;we&#x20;identify&#x20;that&#x20;PE&#x20;counterbalances&#x20;token&#x20;embedding&#x20;values&#x20;at&#x20;each&#x20;layer&#x20;in&#x20;a&#x20;layer-wise&#x20;structure.&#x20;Furthermore,&#x20;we&#x20;recognize&#x20;that&#x20;the&#x20;counterbalancing&#x20;role&#x20;of&#x20;PE&#x20;is&#x20;insufficient&#x20;in&#x20;the&#x20;layer-wise&#x20;structure,&#x20;and&#x20;we&#x20;address&#x20;this&#x20;by&#x20;maximizing&#x20;the&#x20;effectiveness&#x20;of&#x20;PE&#x20;through&#x20;MPVG.&#x20;Through&#x20;experiments,&#x20;we&#x20;demonstrate&#x20;that&#x20;PE&#x20;performs&#x20;a&#x20;counterbalancing&#x20;role&#x20;and&#x20;that&#x20;maintaining&#x20;this&#x20;counterbalancing&#x20;directionality&#x20;significantly&#x20;impacts&#x20;vision&#x20;transformers.&#x20;As&#x20;a&#x20;result,&#x20;the&#x20;experimental&#x20;results&#x20;show&#x20;that&#x20;MPVG&#x20;outperforms&#x20;existing&#x20;methods&#x20;across&#x20;vision&#x20;transformers&#x20;on&#x20;various&#x20;tasks.</dcvalue>
<dcvalue element="language" qualifier="none">English</dcvalue>
<dcvalue element="publisher" qualifier="none">ASSOC&#x20;ADVANCEMENT&#x20;ARTIFICIAL&#x20;INTELLIGENCE</dcvalue>
<dcvalue element="title" qualifier="none">Maximizing&#x20;the&#x20;Position&#x20;Embedding&#x20;for&#x20;Vision&#x20;Transformers&#x20;with&#x20;Global&#x20;Average&#x20;Pooling</dcvalue>
<dcvalue element="type" qualifier="none">Conference</dcvalue>
<dcvalue element="identifier" qualifier="doi">10.1609&#x2F;aaai.v39i17.33997</dcvalue>
<dcvalue element="description" qualifier="journalClass">1</dcvalue>
<dcvalue element="identifier" qualifier="bibliographicCitation">39th&#x20;AAAI&#x20;Conference&#x20;on&#x20;Artificial&#x20;Intelligence,&#x20;pp.18154&#x20;-&#x20;18162</dcvalue>
<dcvalue element="citation" qualifier="title">39th&#x20;AAAI&#x20;Conference&#x20;on&#x20;Artificial&#x20;Intelligence</dcvalue>
<dcvalue element="citation" qualifier="startPage">18154</dcvalue>
<dcvalue element="citation" qualifier="endPage">18162</dcvalue>
<dcvalue element="citation" qualifier="conferencePlace">US</dcvalue>
<dcvalue element="citation" qualifier="conferencePlace">Philadelphia,&#x20;PA</dcvalue>
<dcvalue element="citation" qualifier="conferenceDate">2025-02-25</dcvalue>
<dcvalue element="relation" qualifier="isPartOf">THIRTY-NINTH&#x20;AAAI&#x20;CONFERENCE&#x20;ON&#x20;ARTIFICIAL&#x20;INTELLIGENCE,&#x20;AAAI-25,&#x20;VOL&#x20;39&#x20;NO&#x20;17</dcvalue>
<dcvalue element="identifier" qualifier="wosid">001477527200072</dcvalue>
</dublin_core>
