Skip to content

Feat: Split KV Cache 구현 #1

Description

@rinarina0429

Progressive LLM Serving 환경에서 Stage 전환 시 발생하는 Prefill 오버헤드를 최소화하기 위한 Split KV Caching 기법을 제안합니다. 이 방법은 두 가지 핵심 최적화를 결합합니다:

  1. Split Cache: Base 모델과 LoRA 어댑터의 KV cache를 분리 저장
  2. 레이어별 선택적 재사용: Stage 전환 시 이전 레이어가 동일한 경우에만 cache 재사용

Metadata

Metadata

Assignees

Labels

No labels
No labels

Type

No type
No fields configured for issues without a type.

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions