Full metadata record
DC Field | Value | Language |
---|---|---|
dc.contributor.author | 박소희 | - |
dc.contributor.author | 권준구 | - |
dc.contributor.author | 조정희 | - |
dc.contributor.author | 박성식 | - |
dc.date.accessioned | 2025-09-05T02:30:11Z | - |
dc.date.available | 2025-09-05T02:30:11Z | - |
dc.date.created | 2025-09-05 | - |
dc.date.issued | 2025-08 | - |
dc.identifier.issn | 2383-6318 | - |
dc.identifier.uri | https://pubs.kist.re.kr/handle/201004/153127 | - |
dc.description.abstract | Large language model (LLM) 기반 생성형 인공지능은 인공지능을 넘어 일상 전반에 큰 영향을 미치고 있다. 하지만 LLM의 확산을 위해서는 추론 효율의 개선이 필수적이다. 특히 셀프 어텐션은높은 메모리 대역폭을 요구해 메모리 비용과 전력 소모 문제가 크다. 고비용의 HBM에 의존하는 동종 메모리 시스템은 확장성에서 한계가 있으며 이를 대체할 수 있는 효율적인 메모리 활용 전략이 요구된다. 본논문은 이를 해결하기 위해 트랜스포머 기반 LLM의 핵심 연산인 셀프 어텐션의 데이터 흐름에 주목하여HBM과 저비용의 DRAM을 결합한 이종 메모리 시스템을 활용해 비용 효율적인 셀프 어텐션 연산을 제안한다. 이를 셀프 어텐션에 적용한 결과, HBM 단독 구성 대비 유사한 성능을 유지하면서도 메모리 비용을 절감할 수 있었다. 또한, 생성형 언어 모델의 KV 캐시 기반 auto-regressive 어텐션 구조에도 확장 적용해 다양한 추론 환경에서의 활용 가능성을 확인했다. | - |
dc.language | Korean | - |
dc.publisher | 한국정보과학회 | - |
dc.title | 이종 메모리 시스템을 활용한 비용 효율적인 셀프 어텐션 연산 | - |
dc.title.alternative | Cost-Efficient Self-Attention Computation on a Heterogeneous Memory System | - |
dc.type | Article | - |
dc.identifier.doi | 10.5626/KTCP.2025.31.8.387 | - |
dc.description.journalClass | 2 | - |
dc.identifier.bibliographicCitation | 정보과학회 컴퓨팅의 실제 논문지, v.31, no.8, pp.387 - 392 | - |
dc.citation.title | 정보과학회 컴퓨팅의 실제 논문지 | - |
dc.citation.volume | 31 | - |
dc.citation.number | 8 | - |
dc.citation.startPage | 387 | - |
dc.citation.endPage | 392 | - |
dc.description.isOpenAccess | N | - |
dc.description.journalRegisteredClass | kci | - |
dc.identifier.kciid | ART003231885 | - |
dc.type.docType | Y | - |
dc.subject.keywordAuthor | 대규모 언어 모델 | - |
dc.subject.keywordAuthor | 트랜스포머 아키텍처 | - |
dc.subject.keywordAuthor | 셀프 어텐션 연산 | - |
dc.subject.keywordAuthor | 이종 메모리 시스템 | - |
dc.subject.keywordAuthor | large language model | - |
dc.subject.keywordAuthor | transformer architecture | - |
dc.subject.keywordAuthor | self-attention | - |
dc.subject.keywordAuthor | heterogeneous memory systems | - |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.