<?xml version="1.0" encoding="utf-8" standalone="no"?>
<dublin_core schema="dc">
<dcvalue element="contributor" qualifier="author">박소희</dcvalue>
<dcvalue element="contributor" qualifier="author">권준구</dcvalue>
<dcvalue element="contributor" qualifier="author">조정희</dcvalue>
<dcvalue element="contributor" qualifier="author">박성식</dcvalue>
<dcvalue element="date" qualifier="accessioned">2025-09-05T02:30:11Z</dcvalue>
<dcvalue element="date" qualifier="available">2025-09-05T02:30:11Z</dcvalue>
<dcvalue element="date" qualifier="created">2025-09-05</dcvalue>
<dcvalue element="date" qualifier="issued">2025-08</dcvalue>
<dcvalue element="identifier" qualifier="issn">2383-6318</dcvalue>
<dcvalue element="identifier" qualifier="uri">https:&#x2F;&#x2F;pubs.kist.re.kr&#x2F;handle&#x2F;201004&#x2F;153127</dcvalue>
<dcvalue element="description" qualifier="abstract">Large&#x20;language&#x20;model&#x20;(LLM)&#x20;기반&#x20;생성형&#x20;인공지능은&#x20;인공지능을&#x20;넘어&#x20;일상&#x20;전반에&#x20;큰&#x20;영향을&#x20;미치고&#x20;있다.&#x20;하지만&#x20;LLM의&#x20;확산을&#x20;위해서는&#x20;추론&#x20;효율의&#x20;개선이&#x20;필수적이다.&#x20;특히&#x20;셀프&#x20;어텐션은높은&#x20;메모리&#x20;대역폭을&#x20;요구해&#x20;메모리&#x20;비용과&#x20;전력&#x20;소모&#x20;문제가&#x20;크다.&#x20;고비용의&#x20;HBM에&#x20;의존하는&#x20;동종&#x20;메모리&#x20;시스템은&#x20;확장성에서&#x20;한계가&#x20;있으며&#x20;이를&#x20;대체할&#x20;수&#x20;있는&#x20;효율적인&#x20;메모리&#x20;활용&#x20;전략이&#x20;요구된다.&#x20;본논문은&#x20;이를&#x20;해결하기&#x20;위해&#x20;트랜스포머&#x20;기반&#x20;LLM의&#x20;핵심&#x20;연산인&#x20;셀프&#x20;어텐션의&#x20;데이터&#x20;흐름에&#x20;주목하여HBM과&#x20;저비용의&#x20;DRAM을&#x20;결합한&#x20;이종&#x20;메모리&#x20;시스템을&#x20;활용해&#x20;비용&#x20;효율적인&#x20;셀프&#x20;어텐션&#x20;연산을&#x20;제안한다.&#x20;이를&#x20;셀프&#x20;어텐션에&#x20;적용한&#x20;결과,&#x20;HBM&#x20;단독&#x20;구성&#x20;대비&#x20;유사한&#x20;성능을&#x20;유지하면서도&#x20;메모리&#x20;비용을&#x20;절감할&#x20;수&#x20;있었다.&#x20;또한,&#x20;생성형&#x20;언어&#x20;모델의&#x20;KV&#x20;캐시&#x20;기반&#x20;auto-regressive&#x20;어텐션&#x20;구조에도&#x20;확장&#x20;적용해&#x20;다양한&#x20;추론&#x20;환경에서의&#x20;활용&#x20;가능성을&#x20;확인했다.</dcvalue>
<dcvalue element="language" qualifier="none">Korean</dcvalue>
<dcvalue element="publisher" qualifier="none">한국정보과학회</dcvalue>
<dcvalue element="title" qualifier="none">이종&#x20;메모리&#x20;시스템을&#x20;활용한&#x20;비용&#x20;효율적인&#x20;셀프&#x20;어텐션&#x20;연산</dcvalue>
<dcvalue element="title" qualifier="alternative">Cost-Efficient&#x20;Self-Attention&#x20;Computation&#x20;on&#x20;a&#x20;Heterogeneous&#x20;Memory&#x20;System</dcvalue>
<dcvalue element="type" qualifier="none">Article</dcvalue>
<dcvalue element="identifier" qualifier="doi">10.5626&#x2F;KTCP.2025.31.8.387</dcvalue>
<dcvalue element="description" qualifier="journalClass">2</dcvalue>
<dcvalue element="identifier" qualifier="bibliographicCitation">정보과학회&#x20;컴퓨팅의&#x20;실제&#x20;논문지,&#x20;v.31,&#x20;no.8,&#x20;pp.387&#x20;-&#x20;392</dcvalue>
<dcvalue element="citation" qualifier="title">정보과학회&#x20;컴퓨팅의&#x20;실제&#x20;논문지</dcvalue>
<dcvalue element="citation" qualifier="volume">31</dcvalue>
<dcvalue element="citation" qualifier="number">8</dcvalue>
<dcvalue element="citation" qualifier="startPage">387</dcvalue>
<dcvalue element="citation" qualifier="endPage">392</dcvalue>
<dcvalue element="description" qualifier="isOpenAccess">N</dcvalue>
<dcvalue element="description" qualifier="journalRegisteredClass">kci</dcvalue>
<dcvalue element="identifier" qualifier="kciid">ART003231885</dcvalue>
<dcvalue element="type" qualifier="docType">Y</dcvalue>
<dcvalue element="subject" qualifier="keywordAuthor">대규모&#x20;언어&#x20;모델</dcvalue>
<dcvalue element="subject" qualifier="keywordAuthor">트랜스포머&#x20;아키텍처</dcvalue>
<dcvalue element="subject" qualifier="keywordAuthor">셀프&#x20;어텐션&#x20;연산</dcvalue>
<dcvalue element="subject" qualifier="keywordAuthor">이종&#x20;메모리&#x20;시스템</dcvalue>
<dcvalue element="subject" qualifier="keywordAuthor">large&#x20;language&#x20;model</dcvalue>
<dcvalue element="subject" qualifier="keywordAuthor">transformer&#x20;architecture</dcvalue>
<dcvalue element="subject" qualifier="keywordAuthor">self-attention</dcvalue>
<dcvalue element="subject" qualifier="keywordAuthor">heterogeneous&#x20;memory&#x20;systems</dcvalue>
</dublin_core>
