Embedding向量模型是将文本、图像、音频等数据转换为稠密数值向量的模型,广泛用于语义搜索、推荐系统、RAG(检索增强生成)等场景。根据当前(2026年3月)权威公开资料,主流Embedding模型可分为以下几类:
一、按模态分类
文本Embedding模型:将文本映射为向量,如 BGE、E5、OpenAI text-embedding 系列。
多模态Embedding模型:统一处理文本、图像、音频、视频等,Gemini Embedding 2 是最新代表,支持五模态(文本、图像、视频、音频、PDF)输入,并映射到同一向量空间
二、按技术演进分类
静态词向量模型(2010年代初)
Word2Vec:通过上下文预测学习词向量,支持 CBOW 和 Skip-gram。
GloVe:基于全局词共现统计构建向量。
FastText:引入字符n-gram,可处理未登录词。
上下文相关模型(2018年后)
ELMo:使用双向LSTM生成动态词向量 。
BERT 及其变体(如 Sentence-BERT、MPNet):基于Transformer,生成句级向量。
SimCSE:通过对比学习提升句向量质量。
多模态统一模型(2026年新突破)
Gemini Embedding 2:谷歌于2026年3月发布,支持交错输入(如图文混合),输出3072维向量,采用Matryoshka表示学习,支持动态维度调整。
三、主流开源与商用模型(2026年推荐)
模型 维度 最大上下文 特点 适用场景
Gemini Embedding 2 3072(可降至768) 8192 tokens 原生多模态,支持图文音视频 多模态RAG、跨模态检索
BGE-large-zh-v1.5 1024 512 tokens 中文优化,法律/金融专用版 中文知识库、问答系统
Jina-embeddings-v2 768 8192 tokens 多语言(100+),支持温度调节 长文档、多语言检索
text-embedding-ada-002(OpenAI) 1536 8192 tokens 成熟稳定,API易用 通用英文语义搜索
E5-mistral 1536 32k+ 高精度,支持超长文本 科研论文、法律文书检索
注:Gemini Embedding 2 已开放预览,可通过 Gemini API 或 Vertex AI 调用。
四、选型建议
中文场景优先:BGE、Jina-embeddings-v2。
多模态需求:Gemini Embedding 2(唯一支持五模态统一向量空间的模型)。
资源受限:选择低维模型(如768维)或量化版本。
长文本处理:选择上下文窗口≥8192的模型(如 Jina、text-embedding-ada-002)。
如需进一步验证模型效果,可参考权威评测平台 MTEB Leaderboard。

全部评论