vLLM

作者收录于 vllm ai

2023-10-02 约 987 字预计阅读 2 分钟

vLLM代码结构分析

1. 整体架构

vLLM是一个高效的大语言模型推理框架，专注于提高LLM服务的吞吐量和降低延迟。根据代码分析，vLLM有两个主要架构版本：V0和V1，其中V1是更新的架构，提供了更好的模块化和可扩展性。

2. 核心模块划分

2.1 引擎模块 (Engine)

引擎模块是vLLM的核心，负责协调整个推理过程。

V0架构

V0架构主要包含以下文件：

vllm/engine/llm_engine.py: 核心引擎实现，处理批量推理
vllm/engine/async_llm_engine.py: 异步引擎实现，用于在线服务
LLMEngine类是V0架构的核心组件，负责：

V1架构

V1架构提供了更好的模块化设计：

vllm/v1/engine/core.py: 核心引擎实现，在单独进程中运行
vllm/v1/engine/async_llm.py: 异步客户端接口
vllm/v1/engine/core_client.py: 与核心引擎通信的客户端

EngineCore类是V1架构的核心：

V1架构的AsyncLLM提供了与V0架构类似的接口，但内部实现不同：

2.2 调度模块 (Scheduler)

调度模块负责决定每次迭代中处理哪些请求，管理资源和请求优先级。

vllm/core/scheduler.py: 实现了调度算法
vllm/v1/core/sched/scheduler.py: V1架构的调度器实现

调度器主要功能包括：

确定每次迭代的令牌预算
调度运行中的序列
调度等待中的序列（预填充）
在需要时交换序列

2.3 执行模块 (Executor/Worker)

执行模块负责模型执行和GPU资源管理。

V0架构

vllm/worker/worker.py: 负责初始化模型和GPU资源
vllm/worker/model_runner.py: 执行模型前向传递

V1架构

vllm/v1/worker/gpu_worker.py: V1架构的Worker实现
vllm/v1/worker/gpu_model_runner.py: V1架构的ModelRunner实现

执行模块实现了多种优化技术：

CUDA Graphs: 捕获和重放计算图以加速执行
混合精度: 支持各种精度格式(FP16, BF16, FP8)
内核融合: 融合操作以提高GPU利用率
Flash Attention: 使用优化的注意力实现
多种注意力后端: 支持FlashAttention, XFormers, FlashInfer等

2.4 内存管理模块

内存管理模块实现了专门的技术来高效处理KV缓存，这是LLM推理中的主要瓶颈。

vllm/worker/cache_engine.py: 缓存引擎实现
vllm/v1/kv_cache_interface.py: V1架构的KV缓存接口

核心技术是Paged Attention，它将KV缓存视为非连续内存块，将逻辑序列位置映射到物理内存位置，实现更高效的内存利用，减少内存碎片，支持动态序列长度。

2.5 分布式执行模块

vLLM支持通过多种并行策略在多个GPU和节点上分布式执行。

vllm/executor/executor_base.py: 执行器基类
vllm/executor/ray_distributed_executor.py: 基于Ray的分布式执行器
vllm/executor/mp_distributed_executor.py: 基于多进程的分布式执行器

支持的并行策略包括：

张量并行(Tensor Parallelism): 水平拆分模型层
流水线并行(Pipeline Parallelism): 垂直拆分模型(按层)
数据并行(Data Parallelism): 跨设备复制模型

2.6 输入/输出处理模块

vllm/inputs/: 输入处理相关代码
vllm/outputs/: 输出处理相关代码
vllm/engine/output_processor/: 输出处理器实现

这些模块负责：

输入标记化和预处理
输出解码和后处理
流式输出管理

目录

vLLM

vLLM代码结构分析

1. 整体架构

2. 核心模块划分

2.1 引擎模块 (Engine)

V0架构

V1架构

2.2 调度模块 (Scheduler)

2.3 执行模块 (Executor/Worker)

V0架构

V1架构

2.4 内存管理模块

2.5 分布式执行模块

2.6 输入/输出处理模块