📢 转载信息

原文链接：https://machinelearningmastery.com/build-an-inference-cache-to-save-costs-in-high-traffic-llm-apps/

原文作者：Jason Brownlee

🚀 告警！高流量LLM应用正在吞噬你的预算？是时候引入推理缓存了！

如果你正在开发一个高流量的LLM（大型语言模型）应用，你可能很快就会遇到一个预算噩梦：持续攀升的推理成本。每次用户请求都需要调用LLM API，这累积起来是相当可观的开销。更糟糕的是，很多用户会输入相同或非常相似的提示（Prompt），导致你为重复的任务支付了多次费用。

本文将介绍一个关键的优化策略：构建一个推理缓存（Inference Cache）。通过缓存模型对特定输入的响应，你可以显著减少API调用次数，从而节省成本，并提升响应速度。

🤔 为什么需要推理缓存？

LLM的推理成本通常是按Token数量或调用次数计费的。在高流量应用中，用户行为往往具有高度的重复性。

成本节约：对于相同的输入，不必每次都重新运行昂贵的LLM推理。
速度提升：从缓存中获取响应比等待模型生成要快得多，极大地改善了用户体验。
负载减轻：减少了对外部LLM服务的请求压力。

🛠️ 如何构建一个简单的LLM推理缓存

一个推理缓存的核心思想非常简单：在调用LLM API之前，检查缓存中是否已经存在对该输入的响应。如果存在，则直接返回缓存结果；如果不存在，则执行推理，并将结果存入缓存后再返回。

1. 选择缓存存储

缓存的存储介质至关重要。对于实时性要求较高的应用，你需要一个快速的键值存储（Key-Value Store）。常用的选择包括：

Redis: 业界标准的内存数据结构存储，非常适合用作缓存。
Memcached: 另一个流行的、高性能的分布式内存缓存系统。

2. 缓存键（Key）的设计

缓存键必须唯一地代表用户的输入请求。对于LLM应用，输入通常是一个或多个Prompt字符串。为了确保一致性，你需要对Prompt进行标准化处理，然后再用作键。

标准化步骤建议：

清除空白：移除多余的空格、换行符和制表符。
小写化（可选）：如果你的模型对大小写不敏感，可以将所有文本转为小写。
标准化特殊字符：确保编码一致性。

假设我们使用Python和Redis库，一个简单的缓存逻辑如下所示：


import redis
import json

# 假设这是你的LLM调用函数
def call_llm_api(prompt):
    # 实际调用OpenAI, Anthropic或其他API的地方
    print(f"[API CALL] Calling LLM for prompt: {prompt[:30]}...")
    # 模拟LLM响应
    response = f"Response for: {prompt}"
    return response

class InferenceCache:
    def __init__(self, host='localhost', port=6379):
        # 连接到Redis
        self.redis_client = redis.StrictRedis(host=host, port=port, decode_responses=True)

    def _standardize_prompt(self, prompt):
        # 简单的标准化：移除空白并转换为哈希值作为键
        normalized = " ".join(prompt.split())
        # 为了防止过长的键，通常会使用Prompt的SHA256哈希值
        import hashlib
        return hashlib.sha256(normalized.encode('utf-8')).hexdigest()

    def get_response(self, prompt):
        cache_key = self._standardize_prompt(prompt)

        # 1. 检查缓存
        cached_response = self.redis_client.get(cache_key)
        
        if cached_response:
            print("[CACHE HIT] Returning cached result.")
            # 缓存中存储的是JSON格式的响应数据，需要解析
            try:
                return json.loads(cached_response)['response']
            except json.JSONDecodeError:
                # 降级处理，如果缓存数据损坏
                pass 

        # 2. 缓存未命中，执行推理
        print("[CACHE MISS] Performing actual LLM inference.")
        raw_response = call_llm_api(prompt)
        
        # 3. 存储到缓存
        # 建议设置过期时间（TTL）
        # 存储JSON格式，便于存储更复杂的元数据（如生成时间）
        data_to_store = json.dumps({'response': raw_response, 'generated_at': 'timestamp_placeholder'})
        # 缓存 1小时 (3600秒)
        self.redis_client.set(cache_key, data_to_store, ex=3600)

        return raw_response

# --- 使用示例 ---
if __name__ == "__main__":
    # 确保你本地运行了Redis服务
    # cache = InferenceCache()
    
    # 模拟第一次调用
    prompt1 = "Explain the concept of attention mechanisms in Transformers." 
    # response1 = cache.get_response(prompt1)
    # print(f"Response 1: {response1}\n")

    # 模拟第二次调用（相同Prompt）
    prompt2 = "Explain the concept of attention mechanisms in Transformers.  " # 注意末尾有多余空格
    # response2 = cache.get_response(prompt2)
    # print(f"Response 2: {response2}\n")

    # 模拟第三次调用（不同Prompt）
    prompt3 = "What is the role of positional embeddings?" 
    # response3 = cache.get_response(prompt3)
    # print(f"Response 3: {response3}\n")

    # 预期输出：
    # 第一次：[API CALL] ... [CACHE MISS] ...
    # 第二次：[CACHE HIT] ... (不会触发API CALL)
    # 第三次：[API CALL] ... [CACHE MISS] ...

上面的代码只是一个概念验证（PoC）。在生产环境中，你需要考虑更复杂的问题，例如如何处理不同的模型（Model ID）、如何管理缓存的过期策略（TTL，Time To Live）以及如何处理高并发写入。

⭐ 进阶考虑：缓存策略与失效

缓存过期时间（TTL）

LLM的响应可能会随时间推移而过时，或者模型本身可能会更新。设置合理的TTL至关重要：

静态知识：对于历史事实或定义，TTL可以设置得非常长（例如，几天或几周）。
时效性内容：对于涉及当前新闻、天气或最新代码的请求，TTL应该非常短（例如，几分钟），或者根本不缓存。

缓存失效（Cache Invalidation）

如果你的底层模型被更新，或者你希望强制所有用户重新获取最新答案，你需要一个机制来清除特定的缓存条目或清空整个缓存。

多模型和参数的缓存

如果你的应用调用了多个模型（如GPT-3.5 vs GPT-4）或使用了不同的参数（如temperature, max_tokens），那么你的缓存键必须包含这些信息，否则你可能会用GPT-3.5的结果错误地回复了GPT-4的请求。


# 示例：更复杂的键包含模型和参数
key_parts = [
    hashlib.sha256(prompt.encode('utf-8')).hexdigest(),
    model_id,
    str(temperature),
    str(max_tokens)
]
cache_key = ":".join(key_parts)

结论

对于任何预期拥有大量重复查询的LLM应用程序，集成一个推理缓存不再是“可选项”，而是“必需品”。它直接关系到应用的成本效率和用户体验。通过使用Redis等高性能存储和精心设计的标准化键，你可以构建一个健壮的系统，在不牺牲LLM能力的前提下，大幅降低运营开支。

实施缓存后，密切监控你的API调用量和延迟，你会看到立竿见影的效果。

Illustration of an inference cache system improving performance and saving costs for LLM applications.

🚀 想要体验更好更全面的AI调用？

欢迎使用青云聚合API，约为官网价格的十分之一，支持300+全球最新模型，以及全球各种生图生视频模型，无需翻墙高速稳定，小白也可以简单操作。

青云聚合API官网https://api.qingyuntop.top

支持全球最新300+模型：https://api.qingyuntop.top/pricing

详细的调用教程及文档：https://api.qingyuntop.top/about

目录CONTENT

提升高流量LLM应用性能：构建推理缓存以节省成本