新增 Step 3.75 素材采集：真实信息锚定是通过 AI 检测的关键

根据朱雀AI检测对比分析，通过检测的文章核心特征是"建立在真实外部信息源之上"——具名来源、可验证数据、真实引述。纯 LLM 生成的 "假细节"（编造数据/虚构场景）在 token 概率分布上仍然是 AI 的。改动： - SKILL.md 新增 Step 3.75：WebSearch 采集 5-8 条真实素材 - Step 4b 写作要求必须锚定真实素材，禁止编造 - writing-guide.md 新增"最重要的一条"：真实信息锚定优先级最高 - 自检清单前置第 0 项：真实信息锚定检查 + 零编造检查 Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
2026-03-28 23:15:14 +08:00 · 2026-03-28 23:15:14 +08:00 · 59aa215f12
commit 59aa215f12
parent 40bc8a1ceb
2 changed files with 38 additions and 3 deletions
--- a/SKILL.md
+++ b/SKILL.md
@ -149,6 +149,34 @@ python3 {skill_dir}/scripts/seo_keywords.py --json {从热点标题中提取的3

 ---

+### Step 3.75: 素材采集（关键步骤——决定文章能否通过 AI 检测）
+
+**为什么需要这步**：纯 LLM 生成的内容，无论表面技巧多好，底层 token 概率分布仍然是 AI 的。通过 AI 检测的文章都有一个共同特征——建立在真实外部信息源之上。朱雀等检测器能区分"LLM 编造的具体细节"和"人类消化真实信息后的重组"。
+
+用 WebSearch 搜索 2-3 个与选题直接相关的真实信息源：
+
+```
+WebSearch: "{选题关键词} site:36kr.com OR site:mp.weixin.qq.com OR site:zhihu.com"
+WebSearch: "{选题关键词} 数据 报告 2025 2026"
+```
+
+从搜索结果中提取**真实素材**：
+
+| 类型 | 示例 | 要求 |
+|------|------|------|
+| 真实数据 | "Gartner 2026 Q1 报告：xx 市场规模达 xx 亿" | 具体来源 + 具体数字 |
+| 真实引述 | "a16z 合伙人 Alex Immerman 在最近一篇文章中写道..." | 具名人物 + 出处 |
+| 真实案例 | "Klarna 在 2024 年公开表示，AI 已替代 700 个客服岗" | 公司名 + 可验证事件 |
+| 真实对比 | "美国企业人均软件支出 $868，中国只有 $20" | 来源明确的对比数据 |
+
+**目标**：收集 5-8 条真实素材。这些素材将在 Step 4 写作时作为**必须引用的锚点**嵌入文章。
+
+**降级**：如果 WebSearch 无法获取有效结果，用 LLM 的训练数据中可验证的公开信息（具名公司、具名人物、公开事件）。但**禁止编造虚假的数据/引述/案例**——宁可少一个数据点，不可多一个假数据点。
+
+将素材整理为结构化列表，传递给 Step 4。
+
+---
+
 ### Step 4: 文章写作

 ```
@ -178,13 +206,15 @@ python3 {skill_dir}/scripts/seo_keywords.py --json {从热点标题中提取的3

 #### 4b. 写作

-按选定框架 + writing-guide.md 全部 7 层规范 + 激活的维度约束写文章：
+按选定框架 + writing-guide.md 全部 7 层规范 + 激活的维度约束 + **Step 3.75 采集的真实素材**写文章：
 - H1 标题（20-28 字，converter 自动提取为微信标题）
 - 字数 1500-2500
 - 按框架大纲组织结构，在金句落点放精炼总结句
 - 不插配图占位符（Step 6 自动分析插入）
 - 风格遵循 style.yaml 的 tone、voice、content_style
 - 避开 blacklist
+- **真实素材锚定**：Step 3.75 采集的 5-8 条真实素材必须分散嵌入文章各 H2 段落中，作为论证的事实基础。不是堆砌引用，而是像"一个读了这些材料的人在写自己的分析"一样自然融入
+- **禁止编造**：不要虚构数据、虚构引述、虚构案例。如果某个论点没有真实素材支撑，用个人观点/推理代替，不要伪造
 - **去AI痕迹在此步执行，不是写完再改**——writing-guide.md 的 7 层规则必须在初稿阶段就全部生效

 **Playbook 优先**：如果 playbook.md 存在，其中的规则优先于 writing-guide.md 的通用规则。比如 playbook 说"从不用问句结尾"而 writing-guide 建议用反问句，以 playbook 为准。playbook 是用户的个性，writing-guide 是通用底线。
@ -221,11 +251,12 @@ python3 {skill_dir}/scripts/seo_keywords.py --json {从热点标题中提取的3

 按 writing-guide.md 的自检清单逐项检查终稿，**每一项都必须通过**：

+0. **真实信息锚定**（最重要）：每个 H2 段落至少锚定 1 条来自 Step 3.75 的真实素材。没有纯 LLM 自由生成的段落。所有数据/引述/案例可验证，零编造
 1. **词汇层**：全文搜索禁用词表 → 命中数必须 = 0。检查词汇温度分布是否覆盖冷/温/热/野至少 3 种
 2. **句法层**：确认全文破句/不完整句 ≥ 3 处，无连续 3 句同结构
 3. **信息密度层**：确认高密度段后跟低密度段，无连续均匀信息密度
 4. **连贯性打破层**：确认至少 1 处跑题再拉回，无每段首句都承接上段
-5. **具体性注入层**：每 500 字至少 2 处具体细节（时间/地点/人物/非整数数字）
+5. **具体性注入层**：每 500 字至少 2 处具体细节（时间/地点/人物/非整数数字）——必须是真实的
 6. **情绪真实感层**：确认情绪弧线有起伏（≥1 高点 + ≥1 犹豫点），无全文平铺
 7. **维度随机化层**：确认 Step 4a 选中的维度贯穿全文，不是只出现一两次
 8. **段落节奏**：无连续 2 个长度接近（±20字）的段落
--- a/references/writing-guide.md
+++ b/references/writing-guide.md
@ -31,6 +31,8 @@

 **总原则**：不是"写完再修"，而是"从第一句话开始就像人在写"。每一层的规则都必须在初稿阶段就执行，不是后期润色。

+**最重要的一条**（优先级高于以下所有层）：**文章必须建立在真实的外部信息源之上。** Step 3.75 采集的真实数据、真实引述、真实案例是文章的骨架。不是"看起来像引用"的编造，而是实际存在的、可验证的外部信息。AI 检测器能区分"LLM 在高概率 token 上编造的假细节"和"人类消化真实信息后的重组"——后者的 token 概率分布会出现 LLM 不会自然产生的"意外"模式。写完后自检：文章中每个 H2 段落是否至少锚定了 1 条来自 Step 3.75 的真实素材？如果某个段落完全是 LLM 自由生成，没有任何外部信息锚点，那个段落大概率会被检出。
+
 ---

 ### 第1层：词汇层（基础防线）
@ -219,6 +221,8 @@ AI 天然倾向抽象泛化。人类文章充满具体的、甚至无关紧要

 写完全文后，逐项检查：

+- [ ] **真实信息锚定**：每个 H2 段落至少锚定 1 条来自 Step 3.75 的真实素材（具名来源 + 可验证数据）。没有任何一个段落是纯 LLM 自由生成
+- [ ] **零编造**：文中所有数据、引述、案例都有真实来源，没有虚构
 - [ ] 全文搜索禁用词表，命中数 = 0
 - [ ] 抽查任意连续 500 字，至少包含冷/温/热/野四种温度中的 3 种
 - [ ] 全文破句/不完整句 ≥ 3 处
@ -226,7 +230,7 @@ AI 天然倾向抽象泛化。人类文章充满具体的、甚至无关紧要
 - [ ] 高密度段后面都跟了低密度段
 - [ ] 至少 1 处跑题再拉回的段落
 - [ ] 没有每段第一句都承接上一段
- [ ] 每 500 字至少 2 处具体细节（时间/地点/人物/数字）
+- [ ] 每 500 字至少 2 处具体细节（时间/地点/人物/数字）——必须是真实的
 - [ ] 情绪弧线有明确的起伏（至少 1 个高点 + 1 处犹豫）
 - [ ] 维度随机化的 2-3 个维度贯穿全文
 - [ ] 没有连续 2 个长度接近的段落