新增 Step 3.75 素材采集:真实信息锚定是通过 AI 检测的关键
根据朱雀AI检测对比分析,通过检测的文章核心特征是"建立在真实外部 信息源之上"——具名来源、可验证数据、真实引述。纯 LLM 生成的 "假细节"(编造数据/虚构场景)在 token 概率分布上仍然是 AI 的。 改动: - SKILL.md 新增 Step 3.75:WebSearch 采集 5-8 条真实素材 - Step 4b 写作要求必须锚定真实素材,禁止编造 - writing-guide.md 新增"最重要的一条":真实信息锚定优先级最高 - 自检清单前置第 0 项:真实信息锚定检查 + 零编造检查 Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
This commit is contained in:
parent
40bc8a1ceb
commit
59aa215f12
2 changed files with 38 additions and 3 deletions
35
SKILL.md
35
SKILL.md
|
|
@ -149,6 +149,34 @@ python3 {skill_dir}/scripts/seo_keywords.py --json {从热点标题中提取的3
|
|||
|
||||
---
|
||||
|
||||
### Step 3.75: 素材采集(关键步骤——决定文章能否通过 AI 检测)
|
||||
|
||||
**为什么需要这步**:纯 LLM 生成的内容,无论表面技巧多好,底层 token 概率分布仍然是 AI 的。通过 AI 检测的文章都有一个共同特征——建立在真实外部信息源之上。朱雀等检测器能区分"LLM 编造的具体细节"和"人类消化真实信息后的重组"。
|
||||
|
||||
用 WebSearch 搜索 2-3 个与选题直接相关的真实信息源:
|
||||
|
||||
```
|
||||
WebSearch: "{选题关键词} site:36kr.com OR site:mp.weixin.qq.com OR site:zhihu.com"
|
||||
WebSearch: "{选题关键词} 数据 报告 2025 2026"
|
||||
```
|
||||
|
||||
从搜索结果中提取**真实素材**:
|
||||
|
||||
| 类型 | 示例 | 要求 |
|
||||
|------|------|------|
|
||||
| 真实数据 | "Gartner 2026 Q1 报告:xx 市场规模达 xx 亿" | 具体来源 + 具体数字 |
|
||||
| 真实引述 | "a16z 合伙人 Alex Immerman 在最近一篇文章中写道..." | 具名人物 + 出处 |
|
||||
| 真实案例 | "Klarna 在 2024 年公开表示,AI 已替代 700 个客服岗" | 公司名 + 可验证事件 |
|
||||
| 真实对比 | "美国企业人均软件支出 $868,中国只有 $20" | 来源明确的对比数据 |
|
||||
|
||||
**目标**:收集 5-8 条真实素材。这些素材将在 Step 4 写作时作为**必须引用的锚点**嵌入文章。
|
||||
|
||||
**降级**:如果 WebSearch 无法获取有效结果,用 LLM 的训练数据中可验证的公开信息(具名公司、具名人物、公开事件)。但**禁止编造虚假的数据/引述/案例**——宁可少一个数据点,不可多一个假数据点。
|
||||
|
||||
将素材整理为结构化列表,传递给 Step 4。
|
||||
|
||||
---
|
||||
|
||||
### Step 4: 文章写作
|
||||
|
||||
```
|
||||
|
|
@ -178,13 +206,15 @@ python3 {skill_dir}/scripts/seo_keywords.py --json {从热点标题中提取的3
|
|||
|
||||
#### 4b. 写作
|
||||
|
||||
按选定框架 + writing-guide.md 全部 7 层规范 + 激活的维度约束写文章:
|
||||
按选定框架 + writing-guide.md 全部 7 层规范 + 激活的维度约束 + **Step 3.75 采集的真实素材**写文章:
|
||||
- H1 标题(20-28 字,converter 自动提取为微信标题)
|
||||
- 字数 1500-2500
|
||||
- 按框架大纲组织结构,在金句落点放精炼总结句
|
||||
- 不插配图占位符(Step 6 自动分析插入)
|
||||
- 风格遵循 style.yaml 的 tone、voice、content_style
|
||||
- 避开 blacklist
|
||||
- **真实素材锚定**:Step 3.75 采集的 5-8 条真实素材必须分散嵌入文章各 H2 段落中,作为论证的事实基础。不是堆砌引用,而是像"一个读了这些材料的人在写自己的分析"一样自然融入
|
||||
- **禁止编造**:不要虚构数据、虚构引述、虚构案例。如果某个论点没有真实素材支撑,用个人观点/推理代替,不要伪造
|
||||
- **去AI痕迹在此步执行,不是写完再改**——writing-guide.md 的 7 层规则必须在初稿阶段就全部生效
|
||||
|
||||
**Playbook 优先**:如果 playbook.md 存在,其中的规则优先于 writing-guide.md 的通用规则。比如 playbook 说"从不用问句结尾"而 writing-guide 建议用反问句,以 playbook 为准。playbook 是用户的个性,writing-guide 是通用底线。
|
||||
|
|
@ -221,11 +251,12 @@ python3 {skill_dir}/scripts/seo_keywords.py --json {从热点标题中提取的3
|
|||
|
||||
按 writing-guide.md 的自检清单逐项检查终稿,**每一项都必须通过**:
|
||||
|
||||
0. **真实信息锚定**(最重要):每个 H2 段落至少锚定 1 条来自 Step 3.75 的真实素材。没有纯 LLM 自由生成的段落。所有数据/引述/案例可验证,零编造
|
||||
1. **词汇层**:全文搜索禁用词表 → 命中数必须 = 0。检查词汇温度分布是否覆盖冷/温/热/野至少 3 种
|
||||
2. **句法层**:确认全文破句/不完整句 ≥ 3 处,无连续 3 句同结构
|
||||
3. **信息密度层**:确认高密度段后跟低密度段,无连续均匀信息密度
|
||||
4. **连贯性打破层**:确认至少 1 处跑题再拉回,无每段首句都承接上段
|
||||
5. **具体性注入层**:每 500 字至少 2 处具体细节(时间/地点/人物/非整数数字)
|
||||
5. **具体性注入层**:每 500 字至少 2 处具体细节(时间/地点/人物/非整数数字)——必须是真实的
|
||||
6. **情绪真实感层**:确认情绪弧线有起伏(≥1 高点 + ≥1 犹豫点),无全文平铺
|
||||
7. **维度随机化层**:确认 Step 4a 选中的维度贯穿全文,不是只出现一两次
|
||||
8. **段落节奏**:无连续 2 个长度接近(±20字)的段落
|
||||
|
|
|
|||
|
|
@ -31,6 +31,8 @@
|
|||
|
||||
**总原则**:不是"写完再修",而是"从第一句话开始就像人在写"。每一层的规则都必须在初稿阶段就执行,不是后期润色。
|
||||
|
||||
**最重要的一条**(优先级高于以下所有层):**文章必须建立在真实的外部信息源之上。** Step 3.75 采集的真实数据、真实引述、真实案例是文章的骨架。不是"看起来像引用"的编造,而是实际存在的、可验证的外部信息。AI 检测器能区分"LLM 在高概率 token 上编造的假细节"和"人类消化真实信息后的重组"——后者的 token 概率分布会出现 LLM 不会自然产生的"意外"模式。写完后自检:文章中每个 H2 段落是否至少锚定了 1 条来自 Step 3.75 的真实素材?如果某个段落完全是 LLM 自由生成,没有任何外部信息锚点,那个段落大概率会被检出。
|
||||
|
||||
---
|
||||
|
||||
### 第1层:词汇层(基础防线)
|
||||
|
|
@ -219,6 +221,8 @@ AI 天然倾向抽象泛化。人类文章充满具体的、甚至无关紧要
|
|||
|
||||
写完全文后,逐项检查:
|
||||
|
||||
- [ ] **真实信息锚定**:每个 H2 段落至少锚定 1 条来自 Step 3.75 的真实素材(具名来源 + 可验证数据)。没有任何一个段落是纯 LLM 自由生成
|
||||
- [ ] **零编造**:文中所有数据、引述、案例都有真实来源,没有虚构
|
||||
- [ ] 全文搜索禁用词表,命中数 = 0
|
||||
- [ ] 抽查任意连续 500 字,至少包含冷/温/热/野四种温度中的 3 种
|
||||
- [ ] 全文破句/不完整句 ≥ 3 处
|
||||
|
|
@ -226,7 +230,7 @@ AI 天然倾向抽象泛化。人类文章充满具体的、甚至无关紧要
|
|||
- [ ] 高密度段后面都跟了低密度段
|
||||
- [ ] 至少 1 处跑题再拉回的段落
|
||||
- [ ] 没有每段第一句都承接上一段
|
||||
- [ ] 每 500 字至少 2 处具体细节(时间/地点/人物/数字)
|
||||
- [ ] 每 500 字至少 2 处具体细节(时间/地点/人物/数字)——必须是真实的
|
||||
- [ ] 情绪弧线有明确的起伏(至少 1 个高点 + 1 处犹豫)
|
||||
- [ ] 维度随机化的 2-3 个维度贯穿全文
|
||||
- [ ] 没有连续 2 个长度接近的段落
|
||||
|
|
|
|||
Loading…
Reference in a new issue