AI 框架全景,可以理解为支撑人工智能从数据处理、模型开发、训练调优,到部署应用的全生命周期软件工具集合。随着大模型时代的到来,框架的边界也在急速扩展。
我们可以将整个 AI 框架生态分为六大领域,它们共同构成现代 AI 开发的工具箱。
这是最核心的战场,决定了开发者如何定义、训练和调试模型。
PyTorch (Meta)
地位:当前学术研究和工业界的事实标准,市占率超 80%。
核心特点:动态计算图、Pythonic 风格、庞大的社区生态(TorchVision、TorchAudio、TorchRec 等)。Torch.compile 和 TorchDynamo 正为其补上编译优化的短板。
定位:研究、原型开发、绝大多数中小规模训练的首选。
TensorFlow / Keras (Google)
地位:工业部署领域仍有大量存量资产,尤其在生产流水线(TFX)和端侧(TFLite)部署上。
核心特点:静态图起家,生态完整但略显沉重。Keras 3 已成为多后端前端,可同时运行在 TensorFlow、JAX、PyTorch 之上,意义重大。
定位:成熟的端到端工业生产线、需要多后端支持的场景。
JAX (Google)
地位:新一代框架的思想领袖,几乎所有大模型标杆(如 GPT 系列早期、PaLM、Stable Diffusion 等)都采用了 JAX 作为核心工具。
核心特点:函数式、可组合的函数变换(jit、vmap、pmap、grad),天然适配 TPU 和高性能计算,能写出极其干净高效的代码。
定位:前沿研究、大规模分布式训练、对性能极致追求的场景。学习曲线较陡。
国产框架双雄
PaddlePaddle (百度):国产化要求场景下的主力。工业特色模型库(OCR、NLP)丰富,与产业结合紧密。
MindSpore (华为):原生支持昇腾 NPU,采用“可微分编程”理念。致力于从框架层面实现自动并行,是国产算力生态的关键一环。
中国初创之光
OneFlow:以“静态调度、流式执行”的独到架构追求极致并行效率,后被光年之外收购,团队核心成员加入大模型创业浪潮,其架构思想影响深远。
深度神经网络并非万能,表格数据、推荐系统前处理等场景依然是梯度提升和传统算法的天下。
Scikit-learn:经典机器学习算法(SVM、随机森林、逻辑回归等)的统一界面,数据预处理、特征工程的标准工具箱。
梯度提升三剑客:结构化数据上的预测王者。
XGBoost:速度快、效果好,无数 Kaggle 比赛冠军的选择。
LightGBM (微软):基于直方图的算法,对类别特征支持好,内存占用低。
CatBoost (Yandex):对类别特征全自动处理,防止过拟合能力强。
AutoML 自动化框架
NNI (微软)、Ray Tune:超参数搜索和模型结构搜索。
AutoGluon (AWS):几行代码实现多模态数据的自动建模、融合与部署,傻瓜化程度极高。
当单机单卡无法容纳模型和优化器状态时,以下框架成为必选项。
DeepSpeed (微软)
大模型训练的标配。核心是 ZeRO(零冗余优化器),将模型状态(参数、梯度、优化器)分片到集群所有设备上,几乎实现了线性扩展。
包含 ZeRO-Offload(将部分数据卸载到 CPU 内存)和 ZeRO-Infinity(卸载到 NVMe 硬盘)等极致优化。
Megatron-LM (NVIDIA)
极致追求单卡和集群算力效率的模型并行实现。提供了张量并行、流水线并行的标准实现。
通常与 DeepSpeed 结合使用,构成“3D 并行”的王炸组合:Megatron 负责模型切分,DeepSpeed 负责状态分片。
Colossal-AI (潞晨科技)
提供多维并行、异构内存管理等完整方案,目标是降低大模型训练门槛。其在长序列(如 LLM 长上下文微调)训练上有突出优势。
PyTorch 原生分布式
FSDP (全分片数据并行):PyTorch 官方的 ZeRO-3 等价实现,正快速成熟。
torch.distributed:提供了 DistributedDataParallel (DDP) 等底层通信原语。
将训练好的庞然大物压缩、优化,然后以低延迟、高吞吐的方式提供服务。
编译器与运行时
ONNX Runtime:行业标准的模型交换格式和跨平台高性能推理引擎,支持几乎所有硬件。
TensorRT (NVIDIA):针对 NVIDIA GPU 的极致推理加速器,通过层融合、精度量化(FP8/INT4)、内核自动调优等手段榨干硬件性能。
OpenVINO (Intel):优化在 Intel CPU/GPU/VPU 上的推理,是英特尔生态的核心。
Apache TVM:端到端的自动调优编译器,可针对 ARM、RISC-V 等各种边缘侧硬件生成高效代码。
大模型服务系统
vLLM:通过 PagedAttention 技术,像操作系统管理虚拟内存一样管理 KV 缓存,显存利用率提升数倍,几乎消灭了碎片化,是当下最流行的开源大模型服务框架。
TensorRT-LLM:将 TensorRT 的优化能力原生化地引入 LLM 推理,是追求极致性能(尤其在 NVIDIA 硬件上)的首选。
SGLang:新兴框架,采用 RadixAttention、结构化生成等设计,将 LLM 调用视为一种编程语言,性能强劲,交互灵活。
这是大模型时代爆炸式增长的新层级。它们不训练模型,而是通过调用、编排、增强模型,构建复杂应用。
模型库与中控
Hugging Face Transformers:模型互通的事实标准。它不是一个框架,而是一个 API 标准库,让数万个预训练模型可以按一个统一的方式调用和微调。
Llamaindex:专注于增强 LLM 与私有数据(文档、数据库、API)的交互,是 RAG(检索增强生成)流程搭建的瑞士军刀。
LangChain:LLM 应用编排的先行者,通过“链”和“智能体”的抽象,让开发者可以用搭积木的方式将提示、模型、记忆、工具组合起来。
智能体与低代码应用平台
AutoGPT / MetaGPT / AutoGen (微软):探索多智能体协作的框架,让多个 AI 扮演不同角色(产品经理、架构师、工程师)共同完成任务。
Dify:国产开源的 LLM 应用可视化搭建平台,集成了 BaaS 思想,大大降低了构建 AI 原生应用的门槛。
Semantic Kernel (微软):与 LangChain 类似的企业级编排 SDK,深度集成 Microsoft 生态。
数据处理:Spark 和 Ray 是处理 TB/PB 级非结构化数据(文本、图片、视频)的分布式引擎。Ray Data 正在成为 AI 数据加载和预处理的标准流式处理库。
向量数据库:如 Milvus, Pinecone, Chroma, Weaviate,是支撑 RAG 场景中高效相似性搜索的专用基础设施。
评估与可观测性:
LM-Evaluation-Harness:标准化评测各种开源 LLM 的能力。
DeepEval / RAGAS:专门评估 RAG 系统和 LLM 输出的质量(忠实度、相关性)。
Weights & Biases (W&B) / MLflow:实验追踪、模型注册和全生命周期管理。
入门与科研:PyTorch + HuggingFace + Scikit-learn
训练千亿大模型:Megatron-DeepSpeed + PyTorch
部署高性能服务:vLLM / TensorRT-LLM
构建 RAG 应用:LangChain/Llamaindex + Milvus + vLLM
国产化全栈:MindSpore/PaddlePaddle + 昇腾/昆仑芯 + 自有推理框架
框架的终极目标是降低试错成本、释放算力潜能。现在的大全景,已经是从裸金属到应用的完整光谱,选择比单纯“哪个更好”更重要,关键看切入的层次和场景。

微信扫码加好友
全部评论