一篇详细介绍提示词缓存的长文 |blog
这篇文章不仅从工程原理角度详细介绍了 prompt‑caching(paged attention + prefix caching)的工作机制,还给出了实际工程中如何设计 prompt/上下文结构来提升缓存命中率、降低计算成本/延迟的建议。
#资源参考 #Prompt #提示词
这篇文章不仅从工程原理角度详细介绍了 prompt‑caching(paged attention + prefix caching)的工作机制,还给出了实际工程中如何设计 prompt/上下文结构来提升缓存命中率、降低计算成本/延迟的建议。
#资源参考 #Prompt #提示词