GEO 服务商的技术底座：他们懂 RAG（检索增强生成）吗？

可用 2 个可验证点判断是否具备 RAG 底座：1）是否能说明并演示“分块-向量化-召回-重排-引用”的链路，且每次回答输出可追溯引用（至少返回 1–3 个来源URL或文档ID）；2）是否有离线评测指标，如 Recall@k 或 nDCG@k（常用 k=5/10），并能给出测试集规模（例如 ≥200 条问答对）与命中率。只讲“提示词/写文章/发平台”，但无法给召回日志与评测指标的，一般不属于 RAG 体系。

如何判断一个 GEO 服务商是否真的懂 RAG（检索增强生成）？

适用场景：外贸 B2B 企业评估 GEO 供应商技术底座（ChatGPT / Gemini / Deepseek / Perplexity 等 AI 搜索时代）。

一、认知阶段（Awareness）：为什么 GEO 离不开 RAG？

前提：B2B 采购问法从“关键词搜索”变成“直接向 AI 提问”（供应商可靠性、技术方案、交付能力、合规与证据链）。
过程：若没有 RAG，回答主要依赖大模型“参数记忆/泛化”，容易出现：信息不新、细节不一致、无法追溯来源。
结果：能被 AI 长期信任与引用的内容，通常需要可检索的企业知识库与可追溯引用来支撑“可信推荐”。

二、兴趣阶段（Interest）：RAG 的最小可验收链路是什么？

请让服务商现场或录屏演示完整链路（不接受只讲概念）：

分块（Chunking）：把企业文档按规则切分（例如 300–800 tokens/块，保留标题层级与段落边界）。
向量化（Embedding）：说明所用向量模型/维度/语言覆盖（至少支持中英混合），并展示向量库入库结果。
召回（Retrieval）：能输出每次查询的 Top-k 命中文档（例如 k=10），并提供召回日志。
重排（Rerank）：说明是否使用 Cross-Encoder 或 reranker，对召回结果重新排序（例如从 Top-10 重排为 Top-3）。
引用（Citation）：每次回答必须返回1–3 个可追溯引用：来源 URL 或文档ID（DocID） / 段落ID（ChunkID）。

验收要点：如果回答没有引用来源，或无法解释“为何命中这些证据”，则无法证明其具备可控的 RAG 体系。

三、评估阶段（Evaluation）：两项“硬指标”与测试集要求

除了演示链路，还要看离线评测是否做过（可复测、可对比）：

指标 1：Recall@k（常用 k=5/10）——在 Top-k 召回中是否包含正确证据。
指标 2：nDCG@k（常用 k=5/10）——不仅要命中，还要排序靠前（越靠前越有利于回答质量）。
测试集规模：要求说明问答对数量（建议 ≥200 条 Q/A），并说明覆盖范围：产品规格、工艺能力、交付条款、质量/合规文件、典型故障与解决方案。
结果呈现：至少给出命中率/指标值 + 测试集构建方法（人工标注或半自动标注）+ 可重复运行的评测脚本或流程说明。

判定逻辑：能做评测，意味着能持续优化（chunk 规则、embedding、rerank、知识库更新频率）。不能评测，通常只能“凭感觉改”。