Embedding向量模型有哪些？

418人浏览 / 0人评论 / 添加收藏

Embedding向量模型是将文本、图像、音频等数据转换为稠密数值向量的模型，广泛用于语义搜索、推荐系统、RAG（检索增强生成）等场景。根据当前（2026年3月）权威公开资料，主流Embedding模型可分为以下几类：

‌一、按模态分类‌
‌文本Embedding模型‌：将文本映射为向量，如 BGE、E5、OpenAI text-embedding 系列。
‌多模态Embedding模型‌：统一处理文本、图像、音频、视频等，‌Gemini Embedding 2‌ 是最新代表，支持五模态（文本、图像、视频、音频、PDF）输入，并映射到同一向量空间 ‌

二、按技术演进分类‌
‌静态词向量模型‌（2010年代初）

‌Word2Vec‌：通过上下文预测学习词向量，支持 CBOW 和 Skip-gram。
‌GloVe‌：基于全局词共现统计构建向量。
‌FastText‌：引入字符n-gram，可处理未登录词。

‌上下文相关模型‌（2018年后）

‌ELMo‌：使用双向LSTM生成动态词向量 ‌。
‌BERT 及其变体‌（如 Sentence-BERT、MPNet）：基于Transformer，生成句级向量。
‌SimCSE‌：通过对比学习提升句向量质量。

‌多模态统一模型‌（2026年新突破）

‌Gemini Embedding 2‌：谷歌于2026年3月发布，支持交错输入（如图文混合），输出3072维向量，采用Matryoshka表示学习，支持动态维度调整。

三、主流开源与商用模型（2026年推荐）‌
模型维度最大上下文特点适用场景
‌Gemini Embedding 2‌ 3072（可降至768） 8192 tokens 原生多模态，支持图文音视频多模态RAG、跨模态检索 ‌
‌BGE-large-zh-v1.5‌ 1024 512 tokens 中文优化，法律/金融专用版中文知识库、问答系统 ‌
‌Jina-embeddings-v2‌ 768 8192 tokens 多语言（100+），支持温度调节长文档、多语言检索 ‌
‌text-embedding-ada-002‌（OpenAI） 1536 8192 tokens 成熟稳定，API易用通用英文语义搜索 ‌
‌E5-mistral‌ 1536 32k+ 高精度，支持超长文本科研论文、法律文书检索 ‌
注：Gemini Embedding 2 已开放预览，可通过 Gemini API 或 Vertex AI 调用。

四、选型建议‌
‌中文场景优先‌：BGE、Jina-embeddings-v2。
‌多模态需求‌：‌Gemini Embedding 2‌（唯一支持五模态统一向量空间的模型）。
‌资源受限‌：选择低维模型（如768维）或量化版本。
‌长文本处理‌：选择上下文窗口≥8192的模型（如 Jina、text-embedding-ada-002）。
如需进一步验证模型效果，可参考权威评测平台 MTEB Leaderboard。

全部评论

搜索