从文本到多模态，Embedding模型实用攻略

我们把 OpenAI 的 text-embedding-3-small 当作主要测试对象来跑了一轮基线对比，测完之后又把阿里和腾讯的新方案也拉进来做第二轮比拼，准备完整评估吞吐、延迟和花的钱。选型这事儿先放一边再看，得把所有细节拆开来逐条比。

先把要测的东西拆成小项：检索准确率、向量维度、打分延迟、内存占用、批处理吞吐、向量压缩后精度损失和授权成本。数据用的是真实业务样本，既有长文本也有短文本，既覆盖行业术语，也有问答对和各种召回场景，目的是让结果尽量贴近线上真实情况。测评步骤不复杂但狠认真：把同一批数据分别丢给不同模型，先做向量化，再进向量库检索，记录 top-k 命中率、平均查询延迟和模型推理时间，同时统计各模型占用的显存和磁盘空间。数据集这块下了功夫，额外加了几类专门语料，看看模型在垂直领域里表现出啥差别。

社区里常见的通用模型在多数场景下表现稳，但一碰医疗、法律这种专业文本，许多细节词被漏掉。为了解这个问题，我们单独跑了领域测试，拿 BioBERT、LegalBERT 这类专用模型去对照。结果也挺直观：专用模型在专有术语、缩写和长句子语义上更敏感，像是带了放大镜；通用模型在延迟和跨场景泛化上更省心，更容易一套模型顶多个场景用。但是如果要在垂直行业深挖，得准备把专用模型按需调用，路由策略要设计好。

从文本到多模态，Embedding模型实用攻略

候选名单里有 text-embedding-3-small（1536 维）、阿里的 Qwen3-Embedding、腾讯的 Conan-Embedding-V2。text-embedding-3-small 的特点比较明显：维度适中、推理延迟低、模型体积小，适合对延迟敏感的大规模语义检索。阿里和腾讯的模型在国内生态里更容易接入现有云服务和权限体系，合规、成本上比较友善。这不是只比跑分，得看能不能顺利落地到你现有技术栈里——这点在评估里占比挺大。

数据层面也要摸透。文本的长度分布、实体类型、术语密度、语言风格（口语化还是正式）、有没有拼写错误或中英文混杂，这些都会影响向量化效果。还有会不会有多模态需求：未来要把图片和文本放一起检索的话，模型得能处理多模态，否则就要做一层融合。根据这些特性，你才能决定需不需要预处理、要不要改分词策略、是否要加领域词表或做微调。

社区活跃度和文档支持很关键。我们挑模型时会看 issue 解决速度、是否有成熟 SDK、有没有落地案例参考。模型再牛，遇到卡点没参考资料也得慢吞吞。经验告知我们，社区活跃的模型在碰到兼容性或性能调优时，能省不少时间。

评估指标分成三类：语义质量、系统性能和业务成本。语义质量看召回、准确率、MRR；系统性能看 P99 延迟、吞吐量、内存占用；业务成本看调用费、硬件需求、运维复杂度、授权限制。测的时候把每个模型在这三类上的表现放到一个表里，方便直观比较强项和短板。测试还跑了梯度场景：轻量查询峰值、持续高并发、批量向量构建、向量压缩后的精度回归等。

部署上我们做了两套对比：直接用云上 API 和自托管模型服务。云上调用上线快、维护少，但长期成本和数据隐私得算清楚，又有请求配额限制。自托管能省钱、数据掌控度高，但要预留 GPU、做优化、拉更新，还得建监控和回滚流程。实践里更推荐的做法是先用云服务验证概念，等跑稳了再把表现最好的几款迁到自托管环境做压测。多区域部署还要思考路由、向量库复制和一致性策略。

向量数据库和检索链路也不能马虎。我们用 Milvus 和 Pinecone 做了对照，主要看索引构建速率、查询延迟、以及向量压缩对检索效果的影响。并发上去后，分片和索引类型（像 HNSW、IVF）选择就很关键。缓存策略也要讲究：冷启动用户可以走预热索引，热点数据用内存缓存来降延迟。有位工程师现场说，真正的性能瓶颈常常不是模型本身，而是你把向量库和检索链路调不对。

量化与加速技术也单独测了。每个模型都做了 FP16、INT8 的推理测试，观察精度损失和延迟变化。发现有些模型在 INT8 下召回会明显掉，这时就得决定是先做主动评估再量化。GPU/CPU 的混合部署策略也要先规划，GPU 延迟低但成本高，CPU 在批量处理或非实时向量化场景里性价比不错。

权限和授权问题在评估表里被单独列出。模型授权方式五花八门，有的能完全自托管，有的只能走云 API，还有条款会限制商业用途。合规团队把这些条款逐条过了一遍，避免上线后踩到法律雷区。

测试结束后，团队把结果整理成清单，明确每款模型适合的场景：例如在线低延迟检索优先思考 text-embedding-3-small；垂直行业检索可以思考领域专用模型或对通用模型微调；合规和本地化要求高的情况，阿里或腾讯的方案更容易落地。有同事笑说，选模型跟买车差不多，得看你是要省油的代步车还是能拉货的皮卡。

实施层面已经细化到工程手册：做好 API 层、缓存策略、失败降级逻辑和监控面板，准备回滚预案和定期复审计划。负责人列了时间表：第一周做全量基线测试，第二周到第三周跑长期稳定性测试，第四周开始小流量灰度观测。阿里和腾讯的模型会按同样流程跑第二轮，最后形成可执行的替换方案。

所有测试数据、脚本和测评结果都存进内部仓库，测评报告会在项目系统里持续更新，等第二轮结果齐了再做最终决策。