3月10日,Google发布Gemini Embedding 2嵌入模型,原生支持文本、图片、视频、音频和PDF五种模态输入,并将其映射至同一向量空间。该模型基于Gemini基础架构,所有模态共享Transformer网络,在中间层即实现跨模态语义交互,区别于CLIP等依赖后期对齐的方案。
模型默认输出3,072维向量,采用Matryoshka Representation Learning(MRL)技术,使语义信息按重要性分层分布:前768维已涵盖核心语义,后续维度逐步补充细节。用户可指定output_dimensionality参数动态调整维度,支持两阶段检索——首阶段用低维向量快速粗筛,次阶段用全维向量精排,兼顾速度与精度。
上下文窗口扩大至8,192 token,较上一代2,048 token显著提升,有利于RAG场景中保留完整语义片段。模型支持task_type参数,明确区分RETRIEVAL_QUERY、RETRIEVAL_DOCUMENT、CLASSIFICATION等8类任务,针对不同用途优化向量数学属性,直接影响检索命中率。
基准测试显示,Gemini Embedding 2在MTEB(Massive Text Embedding Benchmark)中全面超越前代,尤其在跨模态检索任务中准确率提升明显;同时缓解“领域漂移”问题,在法律、医学、代码等专业领域零样本场景下保持更高稳定性。
迁移需注意三点:必须全量重新索引;相似度阈值需经A/B测试重新校准;推荐渐进式切量路径——先建影子索引,再按5%→20%→50%→100%分步导流,新索引稳定运行一周后方可下线旧系统。
该模型以gemini-embedding-2-preview名称开放预览,可通过Gemini API及Vertex AI调用。LangChain、LlamaIndex、Haystack、Weaviate、Qdrant、ChromaDB等主流框架与向量数据库已完成集成,并提供Colab可运行交互式Notebook。
Gemini Embedding 2标志着嵌入模型正从文本专用工具演进为统一多模态语义表示层。其交错输入(interleaved input)能力允许单次请求同时处理图文、音视频及文字说明并生成融合向量,简化原有需多个独立模型拼接的复杂管线。对电商商品理解、教育视频课程检索、医疗影像报告分析等实际业务场景具有直接应用价值。

全部评论