<?xml version="1.0" encoding="utf-8" standalone="no"?>
<dublin_core schema="dc">
<dcvalue element="contributor" qualifier="author">Leem,&#x20;Saebom</dcvalue>
<dcvalue element="contributor" qualifier="author">Seo,&#x20;Hyunseok</dcvalue>
<dcvalue element="date" qualifier="accessioned">2024-09-19T02:30:08Z</dcvalue>
<dcvalue element="date" qualifier="available">2024-09-19T02:30:08Z</dcvalue>
<dcvalue element="date" qualifier="created">2024-09-19</dcvalue>
<dcvalue element="date" qualifier="issued">2024-02</dcvalue>
<dcvalue element="identifier" qualifier="issn">2159-5399</dcvalue>
<dcvalue element="identifier" qualifier="uri">https:&#x2F;&#x2F;pubs.kist.re.kr&#x2F;handle&#x2F;201004&#x2F;150630</dcvalue>
<dcvalue element="description" qualifier="abstract">Vision&#x20;Transformer(ViT)&#x20;is&#x20;one&#x20;of&#x20;the&#x20;most&#x20;widely&#x20;used&#x20;models&#x20;in&#x20;the&#x20;computer&#x20;vision&#x20;field&#x20;with&#x20;its&#x20;great&#x20;performance&#x20;on&#x20;various&#x20;tasks.&#x20;In&#x20;order&#x20;to&#x20;fully&#x20;utilize&#x20;the&#x20;ViT-based&#x20;architecture&#x20;in&#x20;various&#x20;applications,&#x20;proper&#x20;visualization&#x20;methods&#x20;with&#x20;a&#x20;decent&#x20;localization&#x20;performance&#x20;are&#x20;necessary,&#x20;but&#x20;these&#x20;methods&#x20;employed&#x20;in&#x20;CNN-based&#x20;models&#x20;are&#x20;still&#x20;not&#x20;available&#x20;in&#x20;ViT&#x20;due&#x20;to&#x20;its&#x20;unique&#x20;structure.&#x20;In&#x20;this&#x20;work,&#x20;we&#x20;propose&#x20;an&#x20;attention-guided&#x20;visualization&#x20;method&#x20;applied&#x20;to&#x20;ViT&#x20;that&#x20;provides&#x20;a&#x20;high-level&#x20;semantic&#x20;explanation&#x20;for&#x20;its&#x20;decision.&#x20;Our&#x20;method&#x20;selectively&#x20;aggregates&#x20;the&#x20;gradients&#x20;directly&#x20;propagated&#x20;from&#x20;the&#x20;classification&#x20;output&#x20;to&#x20;each&#x20;self-attention,&#x20;collecting&#x20;the&#x20;contribution&#x20;of&#x20;image&#x20;features&#x20;extracted&#x20;from&#x20;each&#x20;location&#x20;of&#x20;the&#x20;input&#x20;image.&#x20;These&#x20;gradients&#x20;are&#x20;additionally&#x20;guided&#x20;by&#x20;the&#x20;normalized&#x20;self-attention&#x20;scores,&#x20;which&#x20;are&#x20;the&#x20;pairwise&#x20;patch&#x20;correlation&#x20;scores.&#x20;They&#x20;are&#x20;used&#x20;to&#x20;supplement&#x20;the&#x20;gradients&#x20;on&#x20;the&#x20;patch-level&#x20;context&#x20;information&#x20;efficiently&#x20;detected&#x20;by&#x20;the&#x20;self-attention&#x20;mechanism.&#x20;This&#x20;approach&#x20;of&#x20;our&#x20;method&#x20;provides&#x20;elaborate&#x20;high-level&#x20;semantic&#x20;explanations&#x20;with&#x20;great&#x20;localization&#x20;performance&#x20;only&#x20;with&#x20;the&#x20;class&#x20;labels.&#x20;As&#x20;a&#x20;result,&#x20;our&#x20;method&#x20;outperforms&#x20;the&#x20;previous&#x20;leading&#x20;explainability&#x20;methods&#x20;of&#x20;ViT&#x20;in&#x20;the&#x20;weakly-supervised&#x20;localization&#x20;task&#x20;and&#x20;presents&#x20;great&#x20;capability&#x20;in&#x20;capturing&#x20;the&#x20;full&#x20;instances&#x20;of&#x20;the&#x20;target&#x20;class&#x20;object.&#x20;Meanwhile,&#x20;our&#x20;method&#x20;provides&#x20;a&#x20;visualization&#x20;that&#x20;faithfully&#x20;explains&#x20;the&#x20;model,&#x20;which&#x20;is&#x20;demonstrated&#x20;in&#x20;the&#x20;perturbation&#x20;comparison&#x20;test.</dcvalue>
<dcvalue element="language" qualifier="none">English</dcvalue>
<dcvalue element="publisher" qualifier="none">ASSOC&#x20;ADVANCEMENT&#x20;ARTIFICIAL&#x20;INTELLIGENCE</dcvalue>
<dcvalue element="title" qualifier="none">Attention&#x20;Guided&#x20;CAM:&#x20;Visual&#x20;Explanations&#x20;of&#x20;Vision&#x20;Transformer&#x20;Guided&#x20;by&#x20;Self-Attention</dcvalue>
<dcvalue element="type" qualifier="none">Conference</dcvalue>
<dcvalue element="identifier" qualifier="doi">10.1609&#x2F;aaai.v38i4.28077</dcvalue>
<dcvalue element="description" qualifier="journalClass">1</dcvalue>
<dcvalue element="identifier" qualifier="bibliographicCitation">38th&#x20;AAAI&#x20;Conference&#x20;on&#x20;Artificial&#x20;Intelligence&#x20;(AAAI)&#x20;&#x2F;&#x20;36th&#x20;Conference&#x20;on&#x20;Innovative&#x20;Applications&#x20;of&#x20;Artificial&#x20;Intelligence&#x20;&#x2F;&#x20;14th&#x20;Symposium&#x20;on&#x20;Educational&#x20;Advances&#x20;in&#x20;Artificial&#x20;Intelligence,&#x20;pp.2956&#x20;-&#x20;2964</dcvalue>
<dcvalue element="citation" qualifier="title">38th&#x20;AAAI&#x20;Conference&#x20;on&#x20;Artificial&#x20;Intelligence&#x20;(AAAI)&#x20;&#x2F;&#x20;36th&#x20;Conference&#x20;on&#x20;Innovative&#x20;Applications&#x20;of&#x20;Artificial&#x20;Intelligence&#x20;&#x2F;&#x20;14th&#x20;Symposium&#x20;on&#x20;Educational&#x20;Advances&#x20;in&#x20;Artificial&#x20;Intelligence</dcvalue>
<dcvalue element="citation" qualifier="startPage">2956</dcvalue>
<dcvalue element="citation" qualifier="endPage">2964</dcvalue>
<dcvalue element="citation" qualifier="conferencePlace">US</dcvalue>
<dcvalue element="citation" qualifier="conferencePlace">Vancouver,&#x20;CANADA</dcvalue>
<dcvalue element="citation" qualifier="conferenceDate">2024-02-20</dcvalue>
<dcvalue element="relation" qualifier="isPartOf">THIRTY-EIGHTH&#x20;AAAI&#x20;CONFERENCE&#x20;ON&#x20;ARTIFICIAL&#x20;INTELLIGENCE,&#x20;VOL&#x20;38&#x20;NO&#x20;4</dcvalue>
<dcvalue element="identifier" qualifier="wosid">001239884400009</dcvalue>
</dublin_core>
