메뉴 여닫기
환경 설정 메뉴 여닫기
개인 메뉴 여닫기
로그인하지 않음
지금 편집한다면 당신의 IP 주소가 공개될 수 있습니다.
Ahn9807 (토론 | 기여)님의 2025년 3월 31일 (월) 03:45 판 (새 문서: 분류: Transformer model == 개요 == Autoregression모델에서, KV Cache는 전에 계산한 K값과 V값들을 캐싱하여, 현재 토큰을 계산하는데 필요한 중복되는 연산을 줄여서 생성 속도의 향상을 꾀하는 Caching모델이다. KV Cache는 대표적인 Computing & Memory trade-off를 이용한 방법이다. == 필요성 == 파일:KV_Cache.gif|프레임없음|600픽셀|가운데|https://medium.com/@joaolages/kv-caching-explained-2765...)
(차이) ← 이전 판 | 최신판 (차이) | 다음 판 → (차이)


개요

Autoregression모델에서, KV Cache는 전에 계산한 K값과 V값들을 캐싱하여, 현재 토큰을 계산하는데 필요한 중복되는 연산을 줄여서 생성 속도의 향상을 꾀하는 Caching모델이다. KV Cache는 대표적인 Computing & Memory trade-off를 이용한 방법이다.

필요성

https://medium.com/@joaolages/kv-caching-explained-276520203249
https://medium.com/@joaolages/kv-caching-explained-276520203249