개요
Autoregression모델에서, KV Cache는 전에 계산한 K값과 V값들을 캐싱하여, 현재 토큰을 계산하는데 필요한 중복되는 연산을 줄여서 생성 속도의 향상을 꾀하는 Caching모델이다. KV Cache는 대표적인 Computing & Memory trade-off를 이용한 방법이다.
필요성

Autoregression모델에서, KV Cache는 전에 계산한 K값과 V값들을 캐싱하여, 현재 토큰을 계산하는데 필요한 중복되는 연산을 줄여서 생성 속도의 향상을 꾀하는 Caching모델이다. KV Cache는 대표적인 Computing & Memory trade-off를 이용한 방법이다.