主流大语言模型有哪些

433人浏览 / 0人评论 / 添加收藏

当前大语言模型市场，大致形成了闭源与开源两大阵营分庭抗礼的格局。简单来说，闭源模型通常是追求极致性能的“全能冠军”，而开源模型则是兼顾性价比与灵活性的“定制利器”。下面为你梳理了截至2026年6月的主流模型概览。

🌍 主流大语言模型全景概览

国际顶流 (闭源)

Claude Opus 4.7：Anthropic开发，顶尖的代码能力，适合复杂编程与长文档分析。SWE-bench 达 87.6%；百万上下文。

GPT-5.5：OpenAI开发，Agent（智能体）生态完善，在多Agent协作场景表现出色。Terminal-Bench 2.0 得分 82.7%。

Gemini 3.1 Pro：Google开发，推理与科学问答能力强，适合需要严谨逻辑的场合。GPQA 得分 94.3%。

Grok 4.20：xAI开发，擅长多Agent辩论，抗“幻觉”能力强，适合需要高可靠性的场景。AA-Omniscience 得分 78%。

国产主力 (闭源)

Qwen3.7-Max：阿里开发，全能Agent基座，支持 35 小时以上长周期任务，跨框架适配强。AA基准 57 分。

DeepSeek V4 Pro：深度求索开发，性价比之王（约$0.87/百万Token），代码/数学能力突出。AA Index 得分 58.6。

GLM-5.1：智谱华章开发，性价比高，国内主流应用，编程能力出众。

Hy3 Preview：腾讯开发，Token调用量高，应用广泛。

开源/开放模型

DeepSeek V4 Flash：国产代表，全球最便宜的模型之一（仅约$0.07/百万Token），基于MIT协议。

Qwen系列：阿里开发，高性能版本开放权重，MIT协议，1M上下文。SWE-bench 80.4%。

Kimi K2.6：月之暗面开发，支持256K上下文，专注于长文本和Agent任务，MIT协议。SWE-bench 80.2%。

Llama 4系列：Meta开发，Llama 4 Scout支持1000万Token上下文，适合超长文档处理。

Mistral Large 3：欧洲最强，Apache 2.0协议，675B/41B参数。

其他值得关注的模型

MiniMax abab：MiniMax（国产），擅长文本批量处理与分类，性价比高。

Cohere Command R+：Cohere开发，专为RAG优化的模型，检索增强生成能力强。

Microsoft Phi-4：微软开发，轻量模型，适合本地部署的边缘计算场景。

Nemotron 3 Ultra：英伟达开发，英伟达最强开源，但与国产顶级开源模型仍有差距。

主流模型的核心阵营与定位：

🥇 闭源模型阵营：追求极致性能与体验

闭源模型通过API提供服务，用户无法获取底层代码或权重。它们更像是“高端软件即服务”，目标是实现最顶尖的性能和最好的用户体验。

国际顶流 (GPT, Claude, Gemini)：经过数年迭代，生态成熟。以Claude Opus 4.7在编程领域的领先和GPT-5.5智能体生态的完善为代表，继续引领技术前沿。

国产主力 (文心一言, 通义千问, 混元等)：凭借对中文语境的深度优化和高性价比，在中文市场形成巨大优势。例如DeepSeek V4 Pro的成本仅为OpenAI模型的几十分之一，极大降低了企业和开发者的使用门槛。

🛠️ 开源模型阵营：拥抱开放与定制自由

开源模型则提供了模型权重、核心代码乃至训练数据，允许开发者和企业在本地或自有服务器上自由部署、修改甚至商用。它强调的是技术透明、数据安全和定制自由。

代表模型：如Llama 4、Qwen（开源版）、DeepSeek-V4、Mistral等。

核心优势：解决了闭源模型在数据隐私、长期成本和灵活性方面的根本问题。据估算，其使用成本仅为顶级闭源模型的4到10分之一。例如，一些国产开源模型的SWE-bench得分已逼近甚至超越部分国际闭源模型。

🎯 场景选型参考：如何选择适合你的模型？

了解了整体格局后，在具体选型时可以参考以下框架：

主要能力需求	⭐ 推荐模型	选型理由
🚀 复杂编程与架构设计	Claude Opus 4.7、DeepSeek V4 Pro	代码能力最强，Claude适合大型项目，DeepSeek性价比高。
💡 科学研究与数学推理	Qwen3.7-Max、Gemini 3.1 Pro	数学推理与多学科知识能力突出。
💬 大规模智能体编排	GPT-5.5、Grok 4.20	Agent生态完善，在多任务协同、任务拆解上表现稳定。
💰 成本极度敏感	DeepSeek V4 Flash、GLM-5.1	DeepSeek V4 Flash价格全球最低，GLM-5.1兼具性能与低成本的平衡。
🔒 数据隐私与垂直领域	Llama 4、Qwen系列（开源版）	本地化部署确保数据安全，可针对垂直任务进行深度微调。
🌐 多语言与跨文化任务	Qwen3.7-Max、Mistral Large 3	Qwen多语言能力顶尖，Mistral对欧洲语言场景更优化。
📄 超长文档处理	Llama 4 Scout、Kimi K2.6	Llama 4 Scout支持1000万Token上下文，Kimi K2.6的长文本是其核心定位。
🖼️ 图文多模态理解	Gemini 3.1 Pro、GPT-5.5	支持图文输入，在多模态理解和跨模态生成任务上表现稳定。

需要注意的是，不同排名榜单的侧重点各异。例如，Artificial Analysis的榜单衡量模型综合能力，而SWE-bench则更聚焦于编程能力。

💎 总结

选择大模型，本质上是在“极致性能”、“性价比”和“可控性”之间寻找平衡点。

追求无忧体验和最强性能，高预算的商业闭源API是首选。

注重数据安全、成本控制和长期灵活性，开源模型是更契合你需求的路。

主流大语言模型

以下是主流大语言模型的官网与 API 文档地址整理：

模型名称	所属公司/组织	官网	API文档地址
GPT系列 (GPT-5.2/GPT-4o)	OpenAI	https://openai.com/	https://platform.openai.com/docs/api-reference
Claude系列 (Opus 4.6/Sonnet 4.5)	Anthropic	https://www.anthropic.com/	https://docs.anthropic.com/claude/reference/getting-started-with-the-api
Gemini系列 (Gemini 3 Pro/Flash)	Google	https://deepmind.google/technologies/gemini/	https://docs.gemini.com/rest-api/
通义千问 (Qwen 3.0系列)	阿里巴巴	https://www.qianwen.com/	https://help.aliyun.com/zh/dashscope/developer-reference/api-details
文心一言 (ERNIE 5.0系列)	百度	https://yiyan.baidu.com/	https://qianfan.cloud.baidu.com/docs/
智谱清言 (GLM-4.7系列)	智谱AI	https://chatglm.cn/	https://open.bigmodel.cn/dev/api
Kimi (Moonshot K2.5系列)	月之暗面	https://kimi.moonshot.cn/	https://platform.moonshot.cn/docs/api/chat
讯飞星火大模型	科大讯飞	https://xinghuo.xfyun.cn/	https://www.xfyun.cn/doc/spark/Web.html
DeepSeek系列	DeepSeek	https://www.deepseek.com/	https://api-docs.deepseek.com/
Llama系列 (Llama 3.1/Llama 4)	Meta	https://www.llama.com/	https://www.llama.com/docs/overview/
Grok系列 (Grok 4.1)	xAI	https://x.ai/	https://docs.x.ai/overview
MiniMax (M2.1系列)	MiniMax	https://www.minimaxi.com/	https://api.minimax.chat/docs/api/
百川智能 (Baichuan 3系列)	百川智能	https://www.baichuan-ai.com/	https://platform.baichuan-ai.com/docs/api
Ollama (本地部署模型)	Ollama	https://ollama.com/	https://github.com/ollama/ollama/blob/main/docs/api.md
豆包大模型	字节跳动	https://www.doubao.com/	https://www.volcengine.com/docs/82379/1399008?lang=zh

全部评论

搜索