Progressive LLM Serving 환경에서 Stage 전환 시 발생하는 Prefill 오버헤드를 최소화하기 위한 **Split KV Caching** 기법을 제안합니다. 이 방법은 두 가지 핵심 최적화를 결합합니다: 1. **Split Cache**: Base 모델과 LoRA 어댑터의 KV cache를 분리 저장 2. **레이어별 선택적 재사용**: Stage 전환 시 이전 레이어가 동일한 경우에만 cache 재사용
Progressive LLM Serving 환경에서 Stage 전환 시 발생하는 Prefill 오버헤드를 최소화하기 위한 Split KV Caching 기법을 제안합니다. 이 방법은 두 가지 핵심 최적화를 결합합니다: