Google发布Gemini Embedding 2：五模态统一向量嵌入模型

320人浏览 / 0人评论 / 添加收藏

3月10日，Google发布Gemini Embedding 2嵌入模型，原生支持文本、图片、视频、音频和PDF五种模态输入，并将其映射至同一向量空间。该模型基于Gemini基础架构，所有模态共享Transformer网络，在中间层即实现跨模态语义交互，区别于CLIP等依赖后期对齐的方案。

模型默认输出3,072维向量，采用Matryoshka Representation Learning（MRL）技术，使语义信息按重要性分层分布：前768维已涵盖核心语义，后续维度逐步补充细节。用户可指定output_dimensionality参数动态调整维度，支持两阶段检索——首阶段用低维向量快速粗筛，次阶段用全维向量精排，兼顾速度与精度。

上下文窗口扩大至8,192 token，较上一代2,048 token显著提升，有利于RAG场景中保留完整语义片段。模型支持task_type参数，明确区分RETRIEVAL_QUERY、RETRIEVAL_DOCUMENT、CLASSIFICATION等8类任务，针对不同用途优化向量数学属性，直接影响检索命中率。

基准测试显示，Gemini Embedding 2在MTEB（Massive Text Embedding Benchmark）中全面超越前代，尤其在跨模态检索任务中准确率提升明显；同时缓解“领域漂移”问题，在法律、医学、代码等专业领域零样本场景下保持更高稳定性。

迁移需注意三点：必须全量重新索引；相似度阈值需经A/B测试重新校准；推荐渐进式切量路径——先建影子索引，再按5%→20%→50%→100%分步导流，新索引稳定运行一周后方可下线旧系统。

该模型以gemini-embedding-2-preview名称开放预览，可通过Gemini API及Vertex AI调用。LangChain、LlamaIndex、Haystack、Weaviate、Qdrant、ChromaDB等主流框架与向量数据库已完成集成，并提供Colab可运行交互式Notebook。

Gemini Embedding 2标志着嵌入模型正从文本专用工具演进为统一多模态语义表示层。其交错输入（interleaved input）能力允许单次请求同时处理图文、音视频及文字说明并生成融合向量，简化原有需多个独立模型拼接的复杂管线。对电商商品理解、教育视频课程检索、医疗影像报告分析等实际业务场景具有直接应用价值。

全部评论

搜索