<?xml version="1.0" encoding="utf-8" standalone="no"?>
<dublin_core schema="dc">
<dcvalue element="contributor" qualifier="author">Kim,&#x20;Hanjae</dcvalue>
<dcvalue element="contributor" qualifier="author">Lee,&#x20;Jiyoung</dcvalue>
<dcvalue element="contributor" qualifier="author">Park,&#x20;Seongheon</dcvalue>
<dcvalue element="contributor" qualifier="author">Sohn,&#x20;Kwanghoon</dcvalue>
<dcvalue element="date" qualifier="accessioned">2024-04-18T05:30:46Z</dcvalue>
<dcvalue element="date" qualifier="available">2024-04-18T05:30:46Z</dcvalue>
<dcvalue element="date" qualifier="created">2024-04-18</dcvalue>
<dcvalue element="date" qualifier="issued">2023-10</dcvalue>
<dcvalue element="identifier" qualifier="issn">1550-5499</dcvalue>
<dcvalue element="identifier" qualifier="uri">https:&#x2F;&#x2F;pubs.kist.re.kr&#x2F;handle&#x2F;201004&#x2F;149671</dcvalue>
<dcvalue element="description" qualifier="abstract">Compositional&#x20;zero-shot&#x20;learning&#x20;(CZSL)&#x20;aims&#x20;to&#x20;recognize&#x20;unseen&#x20;compositions&#x20;with&#x20;prior&#x20;knowledge&#x20;of&#x20;known&#x20;primitives&#x20;(attribute&#x20;and&#x20;object).&#x20;Previous&#x20;works&#x20;for&#x20;CZSL&#x20;often&#x20;suffer&#x20;from&#x20;grasping&#x20;the&#x20;contextuality&#x20;between&#x20;attribute&#x20;and&#x20;object,&#x20;as&#x20;well&#x20;as&#x20;the&#x20;discriminability&#x20;of&#x20;visual&#x20;features,&#x20;and&#x20;the&#x20;long-tailed&#x20;distribution&#x20;of&#x20;real-world&#x20;compositional&#x20;data.&#x20;We&#x20;propose&#x20;a&#x20;simple&#x20;and&#x20;scalable&#x20;framework&#x20;called&#x20;Composition&#x20;Transformer&#x20;(CoT)&#x20;to&#x20;address&#x20;these&#x20;issues.&#x20;CoT&#x20;employs&#x20;object&#x20;and&#x20;attribute&#x20;experts&#x20;in&#x20;distinctive&#x20;manners&#x20;to&#x20;generate&#x20;representative&#x20;embeddings,&#x20;using&#x20;the&#x20;visual&#x20;network&#x20;hierarchically.&#x20;The&#x20;object&#x20;expert&#x20;extracts&#x20;representative&#x20;object&#x20;embeddings&#x20;from&#x20;the&#x20;final&#x20;layer&#x20;in&#x20;a&#x20;bottom-up&#x20;manner,&#x20;while&#x20;the&#x20;attribute&#x20;expert&#x20;makes&#x20;attribute&#x20;embeddings&#x20;in&#x20;a&#x20;top-down&#x20;manner&#x20;with&#x20;a&#x20;proposed&#x20;object-guided&#x20;attention&#x20;module&#x20;that&#x20;models&#x20;contextuality&#x20;explicitly.&#x20;To&#x20;remedy&#x20;biased&#x20;prediction&#x20;caused&#x20;by&#x20;imbalanced&#x20;data&#x20;distribution,&#x20;we&#x20;develop&#x20;a&#x20;simple&#x20;minority&#x20;attribute&#x20;augmentation&#x20;(MAA)&#x20;that&#x20;synthesizes&#x20;virtual&#x20;samples&#x20;by&#x20;mixing&#x20;two&#x20;images&#x20;and&#x20;oversampling&#x20;minority&#x20;attribute&#x20;classes.&#x20;Our&#x20;method&#x20;achieves&#x20;SoTA&#x20;performance&#x20;on&#x20;several&#x20;benchmarks,&#x20;including&#x20;MIT-States,&#x20;C-GQA,&#x20;and&#x20;VAW-CZSL.&#x20;We&#x20;also&#x20;demonstrate&#x20;the&#x20;effectiveness&#x20;of&#x20;CoT&#x20;in&#x20;improving&#x20;visual&#x20;discrimination&#x20;and&#x20;addressing&#x20;the&#x20;model&#x20;bias&#x20;from&#x20;the&#x20;imbalanced&#x20;data&#x20;distribution.&#x20;The&#x20;code&#x20;is&#x20;available&#x20;at&#x20;https:&#x2F;&#x2F;github.com&#x2F;HanjaeKim98&#x2F;CoT.</dcvalue>
<dcvalue element="language" qualifier="none">English</dcvalue>
<dcvalue element="publisher" qualifier="none">IEEE&#x20;COMPUTER&#x20;SOC</dcvalue>
<dcvalue element="title" qualifier="none">Hierarchical&#x20;Visual&#x20;Primitive&#x20;Experts&#x20;for&#x20;Compositional&#x20;Zero-Shot&#x20;Learning</dcvalue>
<dcvalue element="type" qualifier="none">Conference</dcvalue>
<dcvalue element="identifier" qualifier="doi">10.1109&#x2F;ICCV51070.2023.00522</dcvalue>
<dcvalue element="description" qualifier="journalClass">1</dcvalue>
<dcvalue element="identifier" qualifier="bibliographicCitation">IEEE&#x2F;CVF&#x20;International&#x20;Conference&#x20;on&#x20;Computer&#x20;Vision&#x20;(ICCV),&#x20;pp.5652&#x20;-&#x20;5662</dcvalue>
<dcvalue element="citation" qualifier="title">IEEE&#x2F;CVF&#x20;International&#x20;Conference&#x20;on&#x20;Computer&#x20;Vision&#x20;(ICCV)</dcvalue>
<dcvalue element="citation" qualifier="startPage">5652</dcvalue>
<dcvalue element="citation" qualifier="endPage">5662</dcvalue>
<dcvalue element="citation" qualifier="conferencePlace">US</dcvalue>
<dcvalue element="citation" qualifier="conferencePlace">Paris,&#x20;FRANCE</dcvalue>
<dcvalue element="citation" qualifier="conferenceDate">2023-10-02</dcvalue>
<dcvalue element="relation" qualifier="isPartOf">2023&#x20;IEEE&#x2F;CVF&#x20;INTERNATIONAL&#x20;CONFERENCE&#x20;ON&#x20;COMPUTER&#x20;VISION,&#x20;ICCV</dcvalue>
<dcvalue element="identifier" qualifier="wosid">001159644305085</dcvalue>
<dcvalue element="identifier" qualifier="scopusid">2-s2.0-85179035883</dcvalue>
</dublin_core>
