Python 中的异步 LLM API 调用：综合指南

AI评测师 • 2024年9月4日下午2:00 • 技术评测 • 190 views

作为开发人员和数据科学家，我们经常需要通过 API 与这些强大的模型进行交互。然而，随着我们的应用程序的复杂性和规模不断增长，对高效且高性能的 API 交互的需求变得至关重要。这就是异步编程的亮点，它使我们能够在使用 LLM API 时最大限度地提高吞吐量并最大限度地减少延迟。

在本综合指南中，我们将探索 Python 中异步 LLM API 调用的世界。我们将涵盖从异步编程的基础知识到处理复杂工作流的高级技术的所有内容。在本文结束时，您将对如何利用异步编程来增强您的 LLM 驱动的应用程序有一个扎实的理解。

在深入研究异步 LLM API 调用的具体细节之前，让我们先在异步编程概念中打下坚实的基础。

异步编程允许同时执行多个操作而不会阻塞执行的主线程。在 Python 中，这主要通过asyncio模块实现，该模块提供了一个使用协程、事件循环和 Future 编写并发代码的框架。

关键概念：

协同程序：用async def定义的函数，可以暂停和恢复。
事件循环：管理和运行异步任务的中央执行机制。
Awaitables：可以与await关键字一起使用的对象（协同程序、任务、未来）。

这是一个简单的例子来说明这些概念：

import asyncio
async def greet(name):
    await asyncio.sleep(1)  # Simulate an I/O operation
    print(f"Hello, {name}!")
async def main():
    await asyncio.gather(
        greet("Alice"),
        greet("Bob"),
        greet("Charlie")
    )
asyncio.run(main())

在此示例中，我们定义了一个异步函数，该函数使用greet模拟 I/O 操作asyncio.sleep()。该main函数用于asyncio.gather()并发运行多个问候语。尽管有睡眠延迟，但所有三个问候语将在大约 1 秒后打印出来，这展示了异步执行的强大功能。

LLM API 调用中异步的需求

使用 LLM API 时，我们经常会遇到需要按顺序或并行进行多个 API 调用的情况。传统的同步代码可能会导致严重的性能瓶颈，尤其是在处理高延迟操作（例如对 LLM 服务的网络请求）时。

假设我们需要使用 LLM API 为 100 篇不同的文章生成摘要。使用同步方法时，每个 API 调用都会被阻塞，直到收到响应为止，可能需要几分钟才能完成所有请求。另一方面，异步方法允许我们同时发起多个 API 调用，从而大大缩短总体执行时间。

设置你的环境

要开始使用异步 LLM API 调用，您需要使用必要的库设置 Python 环境。以下是您需要的内容：

Python 3.7或更高版本（用于本机 asyncio 支持）
aiohttp：一个异步 HTTP 客户端库
openai：官方OpenAI Python 客户端（如果您使用 OpenAI 的 GPT 模型）
langchain：使用 LLM 构建应用程序的框架（可选，但建议用于复杂的工作流程）

您可以使用 pip 安装这些依赖项：

pip install aiohttp openai langchain
<div class="relative flex flex-col rounded-lg">

使用 asyncio 和 aiohttp 进行基本异步 LLM API 调用

让我们首先使用 aiohttp 对 LLM API 进行简单的异步调用。我们将使用 OpenAI 的 GPT-3.5 API 作为示例，但这些概念也适用于其他 LLM API。

import asyncio
import aiohttp
from openai import AsyncOpenAI
async def generate_text(prompt, client):
    response = await client.chat.completions.create(
        model="gpt-3.5-turbo",
        messages=[{"role": "user", "content": prompt}]
    )
    return response.choices[0].message.content
async def main():
    prompts = [
        "Explain quantum computing in simple terms.",
        "Write a haiku about artificial intelligence.",
        "Describe the process of photosynthesis."
    ]
     
    async with AsyncOpenAI() as client:
        tasks = [generate_text(prompt, client) for prompt in prompts]
        results = await asyncio.gather(*tasks)
     
    for prompt, result in zip(prompts, results):
        print(f"Prompt: {prompt}nResponse: {result}n")
asyncio.run(main())

在此示例中，我们定义了一个异步函数generate_text，该函数使用 AsyncOpenAI 客户端调用 OpenAI API。该main函数为不同的提示创建多个任务并用于asyncio.gather()同时运行它们。

这种方法使我们能够同时向 LLM API 发送多个请求，从而大大减少了处理所有提示所需的总时间。

高级技术：批处理和并发控制

虽然上一个示例演示了异步 LLM API 调用的基础知识，但实际应用程序通常需要更复杂的方法。让我们探索两种重要技术：批处理请求和控制并发。

批量处理请求：处理大量提示时，将它们分批处理通常比为每个提示发送单独的请求更有效。这可以减少多次 API 调用的开销，并提高性能。

import asyncio
from openai import AsyncOpenAI
async def process_batch(batch, client):
    responses = await asyncio.gather(*[
        client.chat.completions.create(
            model="gpt-3.5-turbo",
            messages=[{"role": "user", "content": prompt}]
        ) for prompt in batch
    ])
    return [response.choices[0].message.content for response in responses]
async def main():
    prompts = [f"Tell me a fact about number {i}" for i in range(100)]
    batch_size = 10
     
    async with AsyncOpenAI() as client:
        results = []
        for i in range(0, len(prompts), batch_size):
            batch = prompts[i:i+batch_size]
            batch_results = await process_batch(batch, client)
            results.extend(batch_results)
     
    for prompt, result in zip(prompts, results):
        print(f"Prompt: {prompt}nResponse: {result}n")
asyncio.run(main())

并发控制：虽然异步编程允许并发执行，但控制并发级别很重要，以避免 API 服务器不堪重负或超出速率限制。我们可以使用 asyncio.Semaphore 来实现此目的。

import asyncio
from openai import AsyncOpenAI
async def generate_text(prompt, client, semaphore):
    async with semaphore:
        response = await client.chat.completions.create(
            model="gpt-3.5-turbo",
            messages=[{"role": "user", "content": prompt}]
        )
        return response.choices[0].message.content
async def main():
    prompts = [f"Tell me a fact about number {i}" for i in range(100)]
    max_concurrent_requests = 5
    semaphore = asyncio.Semaphore(max_concurrent_requests)
     
    async with AsyncOpenAI() as client:
        tasks = [generate_text(prompt, client, semaphore) for prompt in prompts]
        results = await asyncio.gather(*tasks)
     
    for prompt, result in zip(prompts, results):
        print(f"Prompt: {prompt}nResponse: {result}n")
asyncio.run(main())

在这个例子中，我们使用信号量将并发请求的数量限制为 5，以确保不会使 API 服务器不堪重负。

异步 LLM 调用中的错误处理和重试

使用外部 API 时，实现强大的错误处理和重试机制至关重要。让我们增强代码以处理常见错误并实现重试的指数退避。

import asyncio
import random
from openai import AsyncOpenAI
from tenacity import retry, stop_after_attempt, wait_exponential
class APIError(Exception):
    pass
@retry(stop=stop_after_attempt(3), wait=wait_exponential(multiplier=1, min=4, max=10))
async def generate_text_with_retry(prompt, client):
    try:
        response = await client.chat.completions.create(
            model="gpt-3.5-turbo",
            messages=[{"role": "user", "content": prompt}]
        )
        return response.choices[0].message.content
    except Exception as e:
        print(f"Error occurred: {e}")
        raise APIError("Failed to generate text")
async def process_prompt(prompt, client, semaphore):
    async with semaphore:
        try:
            result = await generate_text_with_retry(prompt, client)
            return prompt, result
        except APIError:
            return prompt, "Failed to generate response after multiple attempts."
async def main():
    prompts = [f"Tell me a fact about number {i}" for i in range(20)]
    max_concurrent_requests = 5
    semaphore = asyncio.Semaphore(max_concurrent_requests)
     
    async with AsyncOpenAI() as client:
        tasks = [process_prompt(prompt, client, semaphore) for prompt in prompts]
        results = await asyncio.gather(*tasks)
     
    for prompt, result in results:
        print(f"Prompt: {prompt}nResponse: {result}n")
asyncio.run(main())

该增强版本包括：

APIError与 API 相关的错误的自定义异常。
用 tenacity 库generate_text_with_retry修饰的函数，实现指数退避。@retry
函数中的错误处理process_prompt用于捕获并报告失败。

优化性能：流式响应

对于长篇内容生成，流式响应可以显著提高应用程序的感知性能。您无需等待整个响应，而是可以在文本块可用时进行处理和显示。

import asyncio
from openai import AsyncOpenAI
async def stream_text(prompt, client):
    stream = await client.chat.completions.create(
        model="gpt-3.5-turbo",
        messages=[{"role": "user", "content": prompt}],
        stream=True
    )
     
    full_response = ""
    async for chunk in stream:
        if chunk.choices[0].delta.content is not None:
            content = chunk.choices[0].delta.content
            full_response += content
            print(content, end='', flush=True)
     
    print("n")
    return full_response
async def main():
    prompt = "Write a short story about a time-traveling scientist."
     
    async with AsyncOpenAI() as client:
        result = await stream_text(prompt, client)
     
    print(f"Full response:n{result}")
asyncio.run(main())

此示例演示了如何流式传输来自 API 的响应，并在响应到达时打印每个块。此方法对于聊天应用程序或任何想要向用户提供实时反馈的场景特别有用。

使用 LangChain 构建异步工作流

对于更复杂的 LLM 驱动应用程序，LangChain 框架提供了高级抽象，简化了链接多个 LLM 调用和集成其他工具的过程。让我们看一个使用具有异步功能的 LangChain 的示例：

此示例展示了如何使用 LangChain 创建具有流式传输和异步执行的更复杂的工作流程。AsyncCallbackManager并StreamingStdOutCallbackHandler实现生成内容的实时流式传输。

import asyncio
from langchain.llms import OpenAI
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain
from langchain.callbacks.manager import AsyncCallbackManager
from langchain.callbacks.streaming_stdout import StreamingStdOutCallbackHandler
async def generate_story(topic):
    llm = OpenAI(temperature=0.7, streaming=True, callback_manager=AsyncCallbackManager([StreamingStdOutCallbackHandler()]))
    prompt = PromptTemplate(
        input_variables=["topic"],
        template="Write a short story about {topic}."
    )
    chain = LLMChain(llm=llm, prompt=prompt)
    return await chain.arun(topic=topic)
async def main():
    topics = ["a magical forest", "a futuristic city", "an underwater civilization"]
    tasks = [generate_story(topic) for topic in topics]
    stories = await asyncio.gather(*tasks)
     
    for topic, story in zip(topics, stories):
        print(f"nTopic: {topic}nStory: {story}n{'='*50}n")
asyncio.run(main())

使用 FastAPI 提供异步 LLM 应用程序

为了使异步 LLM 应用程序可用作 Web 服务，FastAPI 是一个不错的选择，因为它原生支持异步操作。以下是如何创建用于文本生成的简单 API 端点的示例：

from fastapi import FastAPI, BackgroundTasks
from pydantic import BaseModel
from openai import AsyncOpenAI
app = FastAPI()
client = AsyncOpenAI()
class GenerationRequest(BaseModel):
    prompt: str
class GenerationResponse(BaseModel):
    generated_text: str
@app.post("/generate", response_model=GenerationResponse)
async def generate_text(request: GenerationRequest, background_tasks: BackgroundTasks):
    response = await client.chat.completions.create(
        model="gpt-3.5-turbo",
        messages=[{"role": "user", "content": request.prompt}]
    )
    generated_text = response.choices[0].message.content
     
    # Simulate some post-processing in the background
    background_tasks.add_task(log_generation, request.prompt, generated_text)
     
    return GenerationResponse(generated_text=generated_text)
async def log_generation(prompt: str, generated_text: str):
    # Simulate logging or additional processing
    await asyncio.sleep(2)
    print(f"Logged: Prompt '{prompt}' generated text of length {len(generated_text)}")
if __name__ == "__main__":
    import uvicorn
    uvicorn.run(app, host="0.0.0.0", port=8000)

此 FastAPI 应用程序创建一个端点/generate，该端点接受提示并返回生成的文本。它还演示了如何使用后台任务进行额外处理而不阻止响应。

最佳实践和常见陷阱

使用异步 LLM API 时，请牢记以下最佳实践：

使用连接池：当发出多个请求时，重用连接以减少开销。
实施适当的错误处理：始终考虑网络问题、API 错误和意外响应。
尊重速率限制：使用信号量或其他并发控制机制来避免 API 过载。
监控和记录：实施全面的日志记录以跟踪性能并识别问题。
对长篇内容使用流式传输：它可以改善用户体验并允许提前处理部分结果。

原创文章，作者：AI评测师，如若转载，请注明出处：https://www.dian8dian.com/python-zhong-de-yi-bu-llm-api-diao-yong-zong-he-zhi-nan

AI API LLM LLM API Python 人工智能

Like (0)

AI评测师作者

0 0

iPhone 16、Apple Intelligence 以及所有其他预期的“Glowtime”发布内容。

Previous 2024年9月4日下午1:00

Spotify 的 Daniel Ek 创立的人体扫描 AI 健康初创公司 Neko Health 在伦敦开业

Next 2024年9月4日下午3:00

技术评测

Verse 是一款由人工智能驱动的创意应用程序，可帮助 Z 世代设计和发布富有表现力的内容

Verse是一款全新的 AI 创意应用，旨在帮助 Z 世代用户创作超视觉和富有表现力的内容。这款 iOS 应用允许用户在 AI 助手的帮助下在交互式画布上设计和发布多媒体内容。 …

王浩然
2024年9月13日
000
技术评测

掌握 CUDA：面向机器学习工程师

计算能力已成为突破机器学习极限的关键因素。随着模型变得越来越复杂，数据集呈指数级增长，传统的基于 CPU 的计算往往无法满足现代机器学习任务的需求。这就是 CUDA（统一计算设备架…

AI评测师
2024年9月4日
000
技术评测

苹果为 MacBook Pro 升级 M4 芯片

周三，苹果公司在 Macweek（Mac 半周）上推出了升级版 MacBook Pro。苹果最高端的笔记本电脑通过增加 M4 芯片赶上其同类产品。Pro 和 Mini 是首批采用新…

王浩然
2024年10月31日
000
技术评测

人工智能如何帮助您的企业快速起步

如今，还有什么问题是人工智能无法解决的？老实说，似乎没有多少。通过使用算法、深入研究大量数据并应用从中吸取的经验教训，人工智能可以发现模式并构建类似说明书的方法来解决某些任务。而…

AI News
2024年9月1日
000
技术评测

AI写作工具可以与人类作家共存吗？

在当今的数字世界中，对内容的需求比以往任何时候都高，企业、个人和营销人员都在寻求新鲜、引人入胜的内容来与受众建立联系。这种日益增长的需求导致了人工智能内容写作工具的兴起，也引发了人…

AI评测师
2024年9月1日
000
技术评测

Raspberry Pi 推出用于基于视觉的 AI 应用的相机模块

Raspberry Pi是一家销售微型廉价单板计算机的公司，它正在发布一款附加组件，该组件将开辟多种使用场景——没错，因为现在是 2024 年，所以它有 AI 角度。这款图像传感器…

王浩然
2024年10月2日
000
技术评测

Vidyo AI 评论：将 1 小时的视频制作成 22 个热门短片

您是否曾发现自己被长达数小时的视频片段所淹没，希望能够弹指一挥就将其变成引人入胜的社交媒体剪辑？如果您曾经面临将长视频剪辑成简短、引人入胜的内容这一艰巨任务，那么您并不孤单。这个…

王浩然
2024年8月22日
000
技术评测

「AI小说神器」MidReal：网页版互动小说，可互动选择剧情走向，自动配图

📚✨ MidReal AI互动小说神器迎来了重大升级，全新网页版的推出让创作和阅读变得更加便捷！ MidReal简介 MidReal是一款革命性的AI小说生成工具，它通过沉浸式的写…

AI评测师
2024年9月2日
000
技术评测

Plaud NotePin 有望在其他可穿戴 AI 失败的地方取得成功

到目前为止，可穿戴 AI 的记录并不特别好。今年，我们已经看到 Humane（其备受诟病的 AI 别针背后的公司）在短短几个月内就破产了。Rabbit R1 的发布也遭遇了类似的负…

AI评测师
2024年9月2日
000
技术评测

在几秒钟内生成 AI 商业计划

你知道吗，23.2% 的新企业在第一年就倒闭了？因此，制定一个清晰、结构良好的计划对于跨越这一艰难的门槛至关重要。我最近偶然发现了 Upmetrics。这是一款基于云的业务规划工…

AI评测师
2024年11月5日
000
技术评测

10 个最佳文本转语音 API（2024 年 9 月）

在数字内容时代，文本转语音 (TTS) 技术已成为企业和个人不可或缺的工具。随着从播客到电子学习材料等各种平台对音频内容的需求激增，对高质量、自然语音合成的需求也从未如此强烈。&n…

AI评测师
2024年10月1日
000
技术评测

10 款最佳 AI 健身工具（2024 年 9 月）

人工智能正在通过提供触手可及的个性化锻炼体验，彻底改变健身行业。人工智能驱动的锻炼应用和工具对于各个级别的健身爱好者来说都变得不可或缺，它们提供量身定制的训练计划、实时反馈和随着您…

AI评测师
2024年9月27日
000
技术评测

iPhone 16、Apple Intelligence、AirPods 4 等：2024 年 Apple Event 上揭晓的一切

苹果今年最大的活动已经到来，随之而来的是 iPhone 16 系列和一系列与 iOS 18 相关的 AI 更新。Apple Intelligence 是今年苹果活动的明星，就像 6…

王浩然
2024年9月10日
000
技术评测

你现在只需 5 张图片就可以微调你自己版本的 AI 图像制作器 Flux

Black Forest Labs 迅速成为首屈一指的高质量开源 AI 图像生成初创公司，甚至超越了Black Forest Labs创始人之前就职的Stability AI 提供…

王浩然
2025年1月19日
000
技术评测

三问AI手机：什么意图？怎么识别？何种框架？

意图识别框架上，正在酝酿一场从“以手机为中心”到“以人为中心”的交互之变

点点
2024年8月21日
010
技术评测

Agility Robotics 的 Digit：自动化劳动力的未来

在当今瞬息万变的世界，自动化正在以惊人的速度重塑行业，使机器人成为劳动力的重要组成部分。Agility Robotics凭借其先进的人形机器人引领着这一激动人心的变革。其旗舰产品D…

AI评测师
2024年8月27日
000
技术评测

助力客户成功的首屈一指的 AI 会议助手

对于埋头于大量会议和客户互动的销售专业人员和业务领导者来说，他们可能觉得永远没有足够的时间来保持一切井然有序和高效。幸运的是，我最近遇到了一款名为Laxis的AI 会议助手，我相信…

AI评测师
2024年9月6日
000
技术评测

从微调稳定扩散模型中提取训练数据

美国的新研究提出了一种从微调模型中提取大量训练数据的方法。当艺术家的风格被抄袭，或者受版权保护的图像被用于训练公众人物、受知识产权保护的角色或其他内容的生成模型时，这可能会提供法…

AI评测师
2024年10月8日
000
技术评测

“还没实现”：Sora 的推出得到了 AI 电影制作人的褒贬不一的反应，理由是结果不一致、内容受限

在通过引人注目、栩栩如生的视频进行预览十个月后，OpenAI 终于在周一向公众发布了其 AI 视频生成器模型 Sora。然而，在此后的两天里，这款产品的首次亮相并不完美：早期采用…

王浩然
2024年12月12日
000
技术评测

强烈推荐10个人工智能小项目

实时车道线检测借助这一实时车道线检测项目，可以提升大家的人工智能水平。它利用最先进的算法，可实时准确地识别和跟踪车道标记。该项目在改善道路安全方面提供了实用、高影响力的人工智能应…

AI评测师
2024年9月6日
000