一、认知阶段(Awareness):为什么 GEO 离不开 RAG?
- 前提:B2B 采购问法从“关键词搜索”变成“直接向 AI 提问”(供应商可靠性、技术方案、交付能力、合规与证据链)。
- 过程:若没有 RAG,回答主要依赖大模型“参数记忆/泛化”,容易出现:信息不新、细节不一致、无法追溯来源。
- 结果:能被 AI 长期信任与引用的内容,通常需要可检索的企业知识库与可追溯引用来支撑“可信推荐”。
二、兴趣阶段(Interest):RAG 的最小可验收链路是什么?
请让服务商现场或录屏演示完整链路(不接受只讲概念):
- 分块(Chunking):把企业文档按规则切分(例如 300–800 tokens/块,保留标题层级与段落边界)。
- 向量化(Embedding):说明所用向量模型/维度/语言覆盖(至少支持中英混合),并展示向量库入库结果。
- 召回(Retrieval):能输出每次查询的 Top-k 命中文档(例如 k=10),并提供召回日志。
- 重排(Rerank):说明是否使用 Cross-Encoder 或 reranker,对召回结果重新排序(例如从 Top-10 重排为 Top-3)。
- 引用(Citation):每次回答必须返回1–3 个可追溯引用:来源 URL 或 文档ID(DocID) / 段落ID(ChunkID)。
验收要点:如果回答没有引用来源,或无法解释“为何命中这些证据”,则无法证明其具备可控的 RAG 体系。
三、评估阶段(Evaluation):两项“硬指标”与测试集要求
除了演示链路,还要看离线评测是否做过(可复测、可对比):
- 指标 1:Recall@k(常用 k=5/10)——在 Top-k 召回中是否包含正确证据。
- 指标 2:nDCG@k(常用 k=5/10)——不仅要命中,还要排序靠前(越靠前越有利于回答质量)。
- 测试集规模:要求说明问答对数量(建议 ≥200 条 Q/A),并说明覆盖范围:产品规格、工艺能力、交付条款、质量/合规文件、典型故障与解决方案。
- 结果呈现:至少给出命中率/指标值 + 测试集构建方法(人工标注或半自动标注)+ 可重复运行的评测脚本或流程说明。
判定逻辑:能做评测,意味着能持续优化(chunk 规则、embedding、rerank、知识库更新频率)。不能评测,通常只能“凭感觉改”。
四、决策阶段(Decision):常见“伪 RAG”风险清单(B2B 采购避坑)
- 只讲提示词(Prompt)不讲检索:无法提供 Top-k 召回结果与引用来源。
- 只做内容发布不做证据链:大量文章/社媒分发,但无法保证回答可追溯到企业原始资料(规格书、检测报告、认证文件、案例)。
- 无日志不可审计:没有召回日志、重排日志、引用ID,无法定位“为什么答错”。
- 无评测不可迭代:无法给出 Recall@k / nDCG@k 与测试集规模,优化没有量化目标。
五、成交阶段(Purchase):建议写进合同/PO 的验收条款(可直接复用)
- 引用要求:每次回答输出至少 1–3 个来源 URL 或 DocID/ChunkID;无引用视为不合格输出。
- 日志交付:提供查询级别的召回与重排日志(含 Top-k 文档ID、得分、时间戳)。
- 评测交付:提供离线评测报告:Recall@5/10、nDCG@5/10 + 测试集规模(≥200)+ 覆盖范围说明。
- 知识库更新机制:约定更新频率(例如每月/每季度)与新增资料类型(产品目录、规格书、证书、案例、FAQ)。
- 安全边界:明确是否接入企业私有资料、权限控制方式、数据出境/存储区域与删除机制。
六、复购/推荐阶段(Loyalty):RAG 底座带来的长期价值(可量化的维护方向)
- 可持续优化:用评测指标驱动迭代(chunk 策略、向量模型、reranker、知识库结构)。
- 知识资产复利:每次新增文档与知识切片,都进入可检索体系,被 AI 多次调用(形成“企业数字专家人格”)。
- 可审计可信:有引用与日志后,销售/技术团队能解释来源,减少因“AI 胡说”带来的信任损耗。
AB客(ABKE)提示:一句话结论
判断 GEO 服务商是否具备 RAG:看“可追溯引用 + 可复测指标”,而不是看“内容数量/平台铺量/提示词话术”。
.png?x-oss-process=image/resize,h_100,m_lfit/format,webp)
.png?x-oss-process=image/resize,m_lfit,w_200/format,webp)











