一、介绍
自动前缀缓存(Automatic Prefix Caching,简称 APC)缓存现有查询的 KV 缓存,以便新查询如果与现有查询共享相同的前缀,可以直接重用 KV 缓存,从而跳过共享部分的计算。
注意
有关 vLLM 如何实现 APC 的技术细节,请参阅此处。
二、在 vLLM 中启用 APC
在 vLLM 引擎中设置 enable_prefix_caching=True
以启用 APC。以下是一个示例:
import time
from vllm import LLM, SamplingParams