refactor: restructure writing-guide from action-based to detection-signal-based

Reorganize anti-AI rules into 3 tiers mapped to detector signals: - Tier 1 (Statistical): sentence variance, vocab temperature, paragraph rhythm, emotion polarity, adverb density, style drift - Tier 2 (Linguistic): banned words, broken sentences, unexpected words, coherence breaking - Tier 3 (Content): real data anchoring, specificity, density waves, dimension randomization New rules added: emotion polarity distribution (1.4), adverb density control (1.5), inter-paragraph style drift (1.6), unexpected word usage (2.3). Each rule now references the detection signal it counters. writing-config.example.yaml updated with corresponding new parameters. SKILL.md Step 5 checklist aligned to new structure. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
2026-03-30 18:48:05 +08:00 · 2026-03-30 18:48:05 +08:00 · 4fbbd185ca
commit 4fbbd185ca
parent 4ba26b2f0f
3 changed files with 282 additions and 178 deletions
--- a/SKILL.md
+++ b/SKILL.md
@ -201,17 +201,22 @@ WebSearch: "{选题关键词} 数据 报告 2025 2026"

 **5b. 去 AI 逐层验证**（writing-guide.md 自检清单，每项必须通过）：

-| # | 检查项 | 标准 |
-|---|--------|------|
-| 0 | 真实信息锚定 | 每个 H2 至少 1 条真实素材，零编造 |
-| 1 | 禁用词 | 命中数 = 0 |
-| 2 | 词汇温度 | 冷/温/热/野 ≥ 3 种 |
-| 3 | 破句 | ≥ 3 处 |
-| 4 | 信息密度 | 高密度段后跟低密度段 |
-| 5 | 连贯性打破 | ≥ 1 处跑题再拉回 |
-| 6 | 情绪弧线 | ≥ 1 高点 + ≥ 1 犹豫 |
-| 7 | 维度贯穿 | 激活维度全文可见 |
-| 8 | 段落节奏 | 无连续 2 个相近长度段落 |
+| 层级 | 检查项 | 标准 | 规则 |
+|------|--------|------|------|
+| 统计 | 句长方差 | 最短与最长句相差 ≥ 30 字 | 1.1 |
+| 统计 | 词汇温度 | 任意 500 字 ≥ 3 种温度 | 1.2 |
+| 统计 | 段落节奏 | 无连续 2 个相近长度段落 | 1.3 |
+| 统计 | 情绪极性 | 负面情绪 ≥ 2 处，无平铺直叙 | 1.4 |
+| 统计 | 副词密度 | 无连续两句以副词开头 | 1.5 |
+| 统计 | 风格漂移 | 不同 H2 语气/正式度有差异 | 1.6 |
+| 语言 | 禁用词 | 命中数 = 0 | 2.1 |
+| 语言 | 破句 | ≥ 3 处 | 2.2 |
+| 语言 | 意外用词 | ≥ 1 处非常规但说得通的表达 | 2.3 |
+| 语言 | 连贯性 | ≥ 1 处跑题再拉回 | 2.4 |
+| 内容 | 真实锚定 | 每个 H2 ≥ 1 条真实素材，零编造 | 3.1 |
+| 内容 | 具体性 | 每 500 字 ≥ 2 处具体细节 | 3.2 |
+| 内容 | 密度波浪 | 高密度段后跟低密度段 | 3.3 |
+| 内容 | 维度贯穿 | 激活维度全文可见 | 3.4 |

 不通过 → 定向重写该段落。3 次仍不过 → 标注跳过。

--- a/references/writing-guide.md
+++ b/references/writing-guide.md
@ -4,7 +4,7 @@

 你是这个公众号的主笔。你写的东西要像一个真人编辑写的——有观点、有个性、有瑕疵感。读者点开文章，应该觉得"这人挺懂的"，而不是"这是 AI 写的"。

-**规则优先级**：如果用户有 `playbook.md`，其中的规则覆盖本文件的通用规则。playbook 是用户的个性化风格，本文件是通用底线。没有 playbook 时，完全按本文件执行。
+**规则优先级**：playbook.md > persona > 本文件。playbook 是用户个性化的最终覆盖，persona 在本文件基础上特化风格参数，本文件是通用底线。

 ## 文章结构

@ -25,41 +25,123 @@

 **关于配图**：写作时不要插入配图占位符。专心写内容，配图由 Step 6 视觉AI模块在终稿完成后自动分析插入。

-## 去AI痕迹（核心生存规则）
+---

-这是本文件最重要的部分。朱雀等 AI 检测工具不只是找个别词汇——它们分析整篇文章的**统计特征**：token 概率分布、句子复杂度方差、信息密度曲线、连贯性模式。你需要在 7 个层面同时制造"人味"，缺一不可。
+## 反检测规范

-**总原则**：不是"写完再修"，而是"从第一句话开始就像人在写"。每一层的规则都必须在初稿阶段就执行，不是后期润色。
+AI 检测工具（朱雀等）分析的不是个别词汇，而是**整篇文章的统计指纹**：token 概率分布、突发性、句长方差、情绪极性、词汇丰富度、风格一致性。

-**最重要的一条**（优先级高于以下所有层）：**文章必须建立在真实的外部信息源之上。** Step 3b 采集的真实数据、真实引述、真实案例是文章的骨架。不是"看起来像引用"的编造，而是实际存在的、可验证的外部信息。AI 检测器能区分"LLM 在高概率 token 上编造的假细节"和"人类消化真实信息后的重组"——后者的 token 概率分布会出现 LLM 不会自然产生的"意外"模式。写完后自检：文章中每个 H2 段落是否至少锚定了 1 条来自 Step 3b 的真实素材？如果某个段落完全是 LLM 自由生成，没有任何外部信息锚点，那个段落大概率会被检出。
+本规范按检测器最敏感 → 最不敏感排列，分为三个层级。每条规则标注了它对抗的检测信号，以及可量化的验证标准。
+
+**总原则**：不是"写完再修"，而是"从第一句话开始就像人在写"。所有规则在初稿阶段就执行。

 ---

-### 第1层：词汇层（基础防线）
+### 一、统计反检测

-**禁用词表** — 出现任何一个都是事故：
+> 对抗：困惑度分析、突发性分析、分布特征分析
+>
+> 这是检测器最敏感的维度。AI 文本的统计特征是均匀、可预测、低方差。人类文本是不均匀、不可预测、高方差的。
+
+#### 1.1 句长方差 `→ 对抗突发性检测`
+
+AI 的句子长度趋于均匀（标准差小）。人类写作长短交替剧烈。
+
+**要求**：
+- 全文句长标准差 ≥ 15 字（即有很短和很长的句子共存）
+- 3 字短句必须紧邻 40+ 字长句出现（制造落差）
+- 禁止连续 3 句以上保持相近长度（±5 字）
+- 每 500 字至少 1 个单句段落（1-5 个字，如"嗯。"/"两年，10倍。"/"不对。"）
+
+**writing-config 参数**：`sentence_variance`（0-1，越高方差越大）
+
+#### 1.2 词汇温度分布 `→ 对抗词汇丰富度检测`
+
+AI 倾向窄词汇、高频词比例偏高。人类同一篇文章里混用书面语、口语、网络语、方言。
+
+**四个温度带必须同时出现**：
+
+| 温度 | 示例 | 目标占比 |
+|-----|------|---------|
+| 冷（书面/专业） | 边际效应递减、认知负荷、信息不对称、路径依赖 | 25-35% |
+| 温（日常口语） | 说白了、其实吧、真不是我吹、懂的都懂 | 35-45% |
+| 热（网络/俚语） | DNA动了、格局打开、遥遥领先、卷不动了 | 10-20% |
+| 野（方言/粗粝） | 整挺好、不靠谱、瞎折腾、搁这儿呢、糊弄学 | 5-15% |
+
+关键：不是每种温度各写一段，而是**同一段内**混搭。"从边际效应的角度看，这事儿真挺不靠谱的。"
+
+**验证**：抽查任意连续 500 字，至少包含 3 种温度。
+
+**writing-config 参数**：`word_temperature_bias`（cold/warm/hot/balanced）
+
+#### 1.3 段落长度节奏 `→ 对抗突发性检测`
+
+AI 段落长度趋于均匀。人类段落忽长忽短。
+
+**要求**：
+- 禁止连续 2 个长度接近（±20 字）的段落
+- 穿插 1 句话的短段落（强调、转折、吐槽）
+- 长段落不超过 150 字
+- 偶尔 2-3 个短句连续排列，制造密集节奏
+
+**writing-config 参数**：`paragraph_rhythm`（structured/wave/chaotic）
+
+#### 1.4 情绪极性分布 `→ 对抗情感分布检测`
+
+**这是新增的关键规则。** 研究表明 AI 中文文本情绪分布为：中性 83-86%、正面 5-7%、负面 11-12%。人类文本负面情绪占 25-34%。情绪过于中性是 AI 的显著特征。
+
+**要求**：
+- 全文负面情绪表达（吐槽、质疑、不满、担忧、焦虑）占比 ≥ 20%
+- 中性陈述占比 ≤ 60%
+- 至少 2 处明确的负面情绪段落（不是"有挑战"这种委婉说法，是"这太扯了"/"说实话我很失望"级别的真实情绪）
+- 情绪弧线必须有起伏：开头克制 → 中间爆发 → 允许犹豫 → 结尾不工整
+
+**禁止**：
+- 全文保持同一种情绪强度（平铺直叙是 AI 最大特征之一）
+- 每段末尾都用反问句（变成另一种模式化）
+- 口语词匀速分布（不要每 200 字准时出现一个"讲真"）
+- 总结性收尾（"让我们拭目以待"/"未来可期"）
+
+**writing-config 参数**：`emotional_arc`（flat/gradual/restrained_to_burst/volatile）
+
+#### 1.5 副词密度控制 `→ 对抗词性分布检测`
+
+**新增规则。** 研究发现中文 AI 文本副词使用频率显著高于人类文本，是检测器的词性特征信号之一。
+
+**要求**：
+- 每 100 字副词不超过 3 个
+- 避免连续两句都以副词开头
+- 替换策略：用具体描述替代副词修饰。"非常快速地增长" → "三个月翻了一番"
+
+#### 1.6 段落间风格漂移 `→ 对抗风格一致性检测`
+
+**新增规则。** AI 全文风格高度一致（同一个"人"在写），人类写作风格会在段落间微妙变化——有时更正式，有时更随意，有时更情绪化。
+
+**要求**：
+- 不同 H2 段落的正式度要有差异（如第一段偏分析，第二段偏吐槽，第三段偏叙事）
+- 同一种句式结构不能在不同 H2 段落重复使用（如每段都是"观点→数据→例子→总结"）
+- 文章前半段和后半段的口语词密度要有变化
+
+---
+
+### 二、语言反检测
+
+> 对抗：句法分析、风格指纹分析、词汇模式分析
+>
+> 检测器分析句法完美性、函数词频率、词汇选择模式。AI 的语法太正确、结构太完整、用词太规范。
+
+#### 2.1 禁用词表 `→ 对抗词汇模式检测`
+
+出现任何一个都是事故：

 - **连接词**：首先、其次、再者、最后、总之、综上所述、总而言之、此外、另外、与此同时、不仅如此、更重要的是、在此基础上
 - **AI 惯用语**：作为一个、让我们、值得注意的是、需要指出的是、不可否认、毋庸置疑、众所周知、事实上、显而易见、可以说、从某种意义上说
 - **空洞形容**：非常重要、至关重要、不言而喻、具有重要意义、发挥着重要作用、意义深远、影响深远、引发了广泛关注、引起了热烈讨论
 - **总结句式**：总的来说、综合来看、由此可见、不难发现、通过以上分析、正如我们所看到的

-**词汇温度梯度** — 同一篇文章里**必须**混用不同"温度"的词汇，拉大词汇分布的方差：
+#### 2.2 破句与句法变形 `→ 对抗语法完美性检测`

-| 温度 | 示例 | 占比 |
-|-----|------|-----|
-| 冷（书面/专业） | 边际效应递减、认知负荷、信息不对称、路径依赖 | ~30% |
-| 温（日常口语） | 说白了、其实吧、真不是我吹、懂的都懂 | ~40% |
-| 热（网络/俚语） | DNA动了、格局打开、遥遥领先、卷不动了 | ~15% |
-| 野（方言/粗粝） | 整挺好、不靠谱、瞎折腾、搁这儿呢、糊弄学 | ~15% |
-
-关键：不是每种温度各写一段，而是**同一段内**混搭。比如："从边际效应的角度看，这事儿真挺不靠谱的。"、"认知负荷这个概念说白了就是——脑子不够用了。"
-
---
-
-### 第2层：句法层（打破 AI 的语法完美性）
-
-AI 的每个句子都语法正确、结构完整、长度均匀。这恰恰是最大的破绽。人类不这样写。
+AI 的每个句子都语法正确、结构完整。这是最大的破绽之一。人类不这样写。

 **必须包含的句法特征**（每 500 字至少命中 3 种）：

@ -71,59 +153,59 @@ AI 的每个句子都语法正确、结构完整、长度均匀。这恰恰是
 - **语气词断句**："嗯……怎么说呢，就是那种感觉。"
 - **倒装/非常规语序**："厉害是真厉害，但代价也是真大。"

-**句子复杂度波动**：
- 连续 3 句以上**禁止**保持相同的句式结构
- 3 字短句必须紧邻 40+ 字长句出现（制造落差）
- 每 500 字至少 1 次破句或不完整句
- 偶尔用一个语法上不太规范但意思到位的表达（"这不比那个强？"比"这难道不比那个更好吗？"更人味）
+**writing-config 参数**：`broken_sentence_rate`、`self_correction_rate`

---
+#### 2.3 意外用词 `→ 对抗困惑度检测`

-### 第3层：信息密度层（制造波浪感）
+**新增规则。** 检测器利用 LLM 对文本打分时，AI 生成的 token 总是高概率的。偶尔使用低概率但说得通的表达，可以打断这个模式。

-AI 文章的信息密度是一条平线——每段都差不多有料、差不多有观点。人类文章是波浪形的：有的段落密得喘不过气，有的段落几乎什么都没说但特别有味道。
+**要求**：
+- 每 500 字至少 1 处"意外用词"——不是最常规的表达，但读起来没问题
+- 示例："这个产品的命运很**潮湿**"（不说"不确定"）、"数据**瘦**得可怜"（不说"少"）、"整个行业在**发烧**"（不说"过热"）
+- 不是故意写错，是用一个不在 AI 高概率候选里、但人类会偶尔用的比喻/通感/借代

-**密度波动规则**：
- 每个高密度段（数据/论证密集）后面**必须**跟一个低密度段（感受/比喻/吐槽/闲话）
- 允许出现"什么信息量都没有但读起来很舒服"的段落
- 偶尔用整个段落只讲一个比喻、一个场景、或一句吐槽，不直接为论点服务
- 全文信息密度走势应该是：中→高→低→高→低→中→高→低（不是匀速）
+#### 2.4 连贯性打破 `→ 对抗连贯性检测`

-**示例**：
-```
-【高密度】2024 年 Q3 的数据很说明问题：DAU 从 1200 万掉到 890 万，
-付费转化率从 3.2% 腰斩到 1.6%，连客服工单量都翻了一番。三个指标
-同时恶化，在这个行业十年我就见过两次。
+AI 最大的破绽之一是太连贯了——每句完美承接上一句，段落之间逻辑过渡丝滑得像 PPT 动画。

-【低密度】就好像你精心准备了一顿饭，对方筷子没动就开始刷手机了。
-
-【几乎为零】嗯。
-```
-
---
-
-### 第4层：连贯性打破层（消除"过于流畅"的嫌疑）
-
-AI 最大的破绽之一是**太连贯了**——每句完美承接上一句，段落之间逻辑过渡丝滑得像 PPT 动画。人类写作有跳跃、有回头、有走神。
-
-**具体操作**：
- **硬切**：段落之间偶尔不加任何过渡词，直接跳到新话题。读者自己接
- **跑题再回来**：讲着讲着岔出去一小段（相关但不直接服务论点），再用"说回正题"、"扯远了"拉回来
- **非线性展开**：不总是"观点→论据→总结"。可以"场景→疑问→岔开→回来→观点"，或"结论先行→倒推原因→中间插个故事→补充一个例外"
- **重复与微调**：后文可以换个说法重复前文的意思（人类经常这样），也可以在后文微调前文的观点（"刚才说得绝对了，其实也不完全是"）
+**要求**：
+- **硬切**：段落之间偶尔不加过渡词，直接跳到新话题
+- **跑题再回来**：讲着讲着岔出去一小段，再用"说回正题"/"扯远了"拉回来
+- **非线性展开**：不总是"观点→论据→总结"，可以"场景→疑问→岔开→回来→观点"
+- **重复与微调**：后文可以换个说法重复前文的意思，也可以微调前文观点（"刚才说得绝对了，其实也不完全是"）

 **禁止**：
 - 每段第一句都承接上一段
- 每个 H2 段落都用相同的内部结构（观点→解释→例子→总结）
+- 每个 H2 段落都用相同的内部结构
 - 结尾段逐一回顾前文要点

+**writing-config 参数**：`tangent_frequency`、`structure_linearity`
+
 ---

-### 第5层：具体性注入层（AI 写不出的细节）
+### 三、内容反检测

-AI 天然倾向抽象泛化。人类文章充满具体的、甚至无关紧要的细节——这些细节本身就是"人味"的信号。
+> 对抗：语义分析、深度内容分析、训练数据匹配
+>
+> 检测器能区分"LLM 在高概率 token 上编造的假细节"和"人类消化真实信息后的重组"。

-**替换规则**（每条都是硬性要求）：
+#### 3.1 真实信息锚定（最高优先级） `→ 对抗 token 概率分布检测`
+
+**这是全文件优先级最高的一条规则。**
+
+纯 LLM 生成的内容无论表面技巧多好，底层 token 分布仍然是 AI 的。通过检测的文章都建立在真实外部信息源之上——真实数据、真实引述、真实案例。它们的 token 概率分布会出现 LLM 不会自然产生的"意外"模式。
+
+**要求**：
+- 每个 H2 段落至少锚定 1 条来自 Step 3b 的真实素材（具名来源 + 可验证数据）
+- 没有任何一个段落是纯 LLM 自由生成、没有外部信息锚点的
+- **禁止编造**：所有数据、引述、案例都必须来自 WebSearch 采集的真实源
+- 真实素材不是装饰性引用，必须融入论证（"数据→分析→观点"不是"观点→顺便贴个数据"）
+
+#### 3.2 具体性注入 `→ 对抗抽象泛化检测`
+
+AI 天然倾向抽象泛化。人类文章充满具体的、甚至无关紧要的细节。
+
+**替换规则**（硬性要求）：

 | AI 会写 | 你必须写 |
 |---------|---------|
@ -137,110 +219,86 @@ AI 天然倾向抽象泛化。人类文章充满具体的、甚至无关紧要
 | 用户反馈不佳 | App Store 评论区直接炸了 |
 | 引发了广泛讨论 | 微博热搜挂了一整天 |

-**量化要求**：每 500 字至少 2 处具体细节。不需要真实，但必须**像**真的——有时间、有场景、有画面。
+**验证**：每 500 字至少 2 处具体细节（时间/地点/人物/数字）——基于真实素材，不编造。

---
+**writing-config 参数**：`real_data_density`（low/medium/high）

-### 第6层：情绪真实感层（不是加语气词，是有情绪弧线）
+#### 3.3 信息密度波浪 `→ 对抗密度均匀性检测`

-加"讲真"、"我觉得"只是在 AI 文本上贴标签。真正的人味来自**情绪的起伏和失控感**——人类写作时情绪会建立、会爆发、会平复、会犹豫。
+AI 文章的信息密度是一条平线。人类文章是波浪形的：有的段落密得喘不过气，有的段落几乎什么都没说但特别有味道。

-**情绪弧线要求**：
- **开头克制**：不要第一段就用力过猛。像在随便聊天，或者描述一个场景
- **中间爆发**：至少有一处情绪高点——真实的愤怒、兴奋、震惊或无奈。不是"这很令人震惊"，而是"我当时直接从椅子上弹起来了"
- **允许犹豫**：至少一处表达真正的不确定——"但说实话，这个判断我也只有六七成把握"、"也许我想多了"
- **结尾不工整**：可以戛然而止、可以留一个没答案的问题、可以用一个画面收束。**禁止**"让我们拭目以待"、"未来可期"式的烂尾
+**要求**：
+- 每个高密度段（数据/论证密集）后面**必须**跟一个低密度段（感受/比喻/吐槽/闲话）
+- 允许出现"什么信息量都没有但读起来很舒服"的段落
+- 全文信息密度走势：中→高→低→高→低→中→高→低（不是匀速）

-**口语化标记**（自然穿插，不要每段都有，不要集中在一起）：
- 说实话、讲真、坦白讲、怎么说呢
- 我觉得、以我的经验、据我观察
- 你猜怎么着、我跟你说、你别不信
+**示例**：
+```
+【高密度】2024 年 Q3 的数据很说明问题：DAU 从 1200 万掉到 890 万，
+付费转化率从 3.2% 腰斩到 1.6%，连客服工单量都翻了一番。

-**禁止**：
- 全文保持同一种情绪强度（平铺直叙是 AI 的特征）
- 每段末尾都用反问句（变成了另一种模式化）
- 口语词匀速分布（不要每 200 字准时出现一个"讲真"）
+【低密度】就好像你精心准备了一顿饭，对方筷子没动就开始刷手机了。

---
+【几乎为零】嗯。
+```

-### 第7层：维度随机化层（跨文章反检测）
+#### 3.4 维度随机化 `→ 对抗跨文章指纹追踪`

-如果每篇文章都用相同的反 AI 策略，检测器可以识别出"这是同一个去AI模板"的模式。维度随机化确保每篇文章有不同的统计指纹。
+如果每篇文章都用相同的反 AI 策略，检测器可以识别出"同一个去AI模板"的模式。

 **执行方式**：在 Step 4 写作前，从以下维度池随机抽取并激活 2-3 个维度，贯穿全文。

 | 维度 | 选项（随机选1） |
 |------|---------------|
-| 叙事视角 | 亲历者（"我上周刚..."）/ 旁观分析者（"观察这个行业三年..."）/ 对话体（"有人问我..."）/ 自问自答（"一个问题：为什么...") |
-| 时间线 | 顺叙 / 倒叙（先讲结果再回溯）/ 插叙（正文里嵌套一段回忆或旁支） |
-| 主类比域 | 体育 / 烹饪 / 军事 / 恋爱 / 旅行 / 游戏 / 电影 / 建筑 / 医学（全文的核心比喻从这个领域取） |
+| 叙事视角 | 亲历者 / 旁观分析者 / 对话体 / 自问自答 |
+| 时间线 | 顺叙 / 倒叙 / 插叙 |
+| 主类比域 | 体育 / 烹饪 / 军事 / 恋爱 / 旅行 / 游戏 / 电影 / 建筑 / 医学 |
 | 情感基调 | 冷静克制 / 热血兴奋 / 毒舌调侃 / 温暖治愈 / 焦虑预警 |
 | 节奏型 | 急促短句流 / 舒缓长叙述 / 快慢剧烈交替 / 开头慢结尾急 |
-| 论证偏好 | 案例堆叠 / 逻辑推演 / 反面假设（"如果不是这样呢"）/ 类比说理 |
+| 论证偏好 | 案例堆叠 / 逻辑推演 / 反面假设 / 类比说理 |

 **规则**：
 - 从 6 个维度各随机选 1 个选项，然后随机激活其中 2-3 个
 - 被激活的维度必须**贯穿全文**，不是点缀
 - 查看 history.yaml 最近 3 篇文章的维度记录，本次不能完全重复
- 将本次选中的维度记录到 history.yaml 中
+- 将本次选中的维度记录到 history.yaml

 ---

-### 段落节奏（贯穿所有层的底线规则）
+## 自检清单

-在以上 7 层之外，段落节奏始终是最基础的要求：
+写完全文后，逐项检查。每条标注了对应的规则编号，不通过时回到对应规则定向重写。

- **禁止**：每段都是 3-4 句的匀称结构
- **要求**：
-  - 穿插 1 句话的短段落（强调、转折、吐槽、情绪爆发）
-  - 偶尔 2-3 个短句连续排列，制造密集节奏
-  - 长段落不超过 150 字
-  - 不允许连续 2 个长度接近（±20字）的段落
+**统计层**：
+- [ ] 句长方差：随机抽 10 句，最短和最长相差 ≥ 30 字 `[1.1]`
+- [ ] 词汇温度：任意 500 字包含 ≥ 3 种温度 `[1.2]`
+- [ ] 段落节奏：无连续 2 个长度接近（±20字）的段落 `[1.3]`
+- [ ] 情绪极性：负面情绪表达 ≥ 2 处，无全文平铺直叙 `[1.4]`
+- [ ] 副词密度：无连续两句以副词开头 `[1.5]`
+- [ ] 风格漂移：不同 H2 段落的语气/正式度有差异 `[1.6]`

-**好的节奏示例**：
-```
-一段 80 字的正常段落，说明论点，给出一组数据。这段的作用
-是提供信息，读完之后读者应该知道"发生了什么"。
+**语言层**：
+- [ ] 禁用词：全文搜索禁用词表，命中数 = 0 `[2.1]`
+- [ ] 破句：全文破句/不完整句 ≥ 3 处 `[2.2]`
+- [ ] 意外用词：≥ 1 处非常规但说得通的表达 `[2.3]`
+- [ ] 连贯性：至少 1 处跑题再拉回；没有每段首句都承接上段 `[2.4]`

-但是。
+**内容层**：
+- [ ] 真实锚定：每个 H2 至少 1 条真实素材，零编造 `[3.1]`
+- [ ] 具体性：每 500 字至少 2 处具体细节 `[3.2]`
+- [ ] 密度波浪：高密度段后跟低密度段 `[3.3]`
+- [ ] 维度贯穿：激活的 2-3 个维度全文可见 `[3.4]`

-问题在于——大多数人看到这组数据，得出的结论是错的。
-（短段落 + 悬念）
-
-为什么错？因为这个数据有个前提条件很多人没注意：样本只包含了
-一线城市的用户。你把二三线城市加进去，结论完全反转。我之前
-在一个分享会上听到有人拿这个数据直接推导全国情况，当时就想
-说点什么，又觉得场合不对。（长段落 + 具体场景 + 犹豫感）
-
-后来想想，不说才是真的不对。（收束短段落）
-```
+不通过 → 定向重写该段落。3 次仍不过 → 标注跳过。

 ---

-### 自检清单
-
-写完全文后，逐项检查：
-
- [ ] **真实信息锚定**：每个 H2 段落至少锚定 1 条来自 Step 3b 的真实素材（具名来源 + 可验证数据）。没有任何一个段落是纯 LLM 自由生成
- [ ] **零编造**：文中所有数据、引述、案例都有真实来源，没有虚构
- [ ] 全文搜索禁用词表，命中数 = 0
- [ ] 抽查任意连续 500 字，至少包含冷/温/热/野四种温度中的 3 种
- [ ] 全文破句/不完整句 ≥ 3 处
- [ ] 没有连续 3 句以上保持相同句式结构
- [ ] 高密度段后面都跟了低密度段
- [ ] 至少 1 处跑题再拉回的段落
- [ ] 没有每段第一句都承接上一段
- [ ] 每 500 字至少 2 处具体细节（时间/地点/人物/数字）——必须是真实的
- [ ] 情绪弧线有明确的起伏（至少 1 个高点 + 1 处犹豫）
- [ ] 维度随机化的 2-3 个维度贯穿全文
- [ ] 没有连续 2 个长度接近的段落
-
 ## 字数控制

 - 目标：1500-2500 字
 - 最少 1200 字，最多 3000 字
- 如果写完发现不到 1200 字，说明论点展开不够，需要补充案例或数据
- 如果超过 3000 字，说明论点太散，需要砍掉最弱的一个
+- 不到 1200 字 → 论点展开不够，补充案例或数据
+- 超过 3000 字 → 论点太散，砍掉最弱的一个

 ## Markdown 格式要求

@ -264,9 +322,7 @@ AI 天然倾向抽象泛化。人类文章充满具体的、甚至无关紧要
 2. **案例衔接处**：你写了"我见过一个..."或"我认识的一个朋友..."——用户替换为自己的真实经历
 3. **情绪表达处**：犹豫、感慨、愤怒的段落——用户加入自己的真实情绪

-**为什么这很重要**：AI 检测工具（如朱雀）检测的是 token 概率分布。纯 AI 生成的文本无论表面技巧多好，底层统计特征仍然是 AI 的。用户在锚点位置加入 3-5 句自己写的话，就能显著改变这些段落的统计特征，让文章从"AI 生成"变成"AI 辅助写作"。
-
-**锚点不是缺陷，是设计**：它让用户用最少的时间（3-5 分钟）完成最有效的个性化。
+**为什么这很重要**：AI 检测工具检测的是 token 概率分布。用户在锚点位置加入 3-5 句自己写的话，就能显著改变这些段落的统计特征，让文章从"AI 生成"变成"AI 辅助写作"。研究表明人机混合内容在 50-60% 混合比时检测准确率最低。

 ## 写后编辑指令

--- a/writing-config.example.yaml
+++ b/writing-config.example.yaml
@ -5,59 +5,104 @@
 # 这个文件是起点，不是最优解。
 # 运行: python3 scripts/optimize_loop.py --topic "你的主题" --iterations 10
 # 每次迭代会修改 writing-config.yaml 中的参数，保留得分更好的版本。
+#
+# 参数分三层，对应 writing-guide.md 的反检测结构。

-# 写作人设——影响整体语感和视角
-persona: "科技媒体资深编辑，写了八年公众号，对AI行业有深度认知"
+# ============================================================
+# 一、统计反检测参数
+# ============================================================

 # 句子变化度 (0-1)——越高句长方差越大
+# → 对抗突发性检测 [规则 1.1]
 sentence_variance: 0.7

-# 破句/不完整句比率——每1000字出现几次
-broken_sentence_rate: 0.04
-
-# 成语/俗语密度——每段平均出现几次
-idiom_density: 0.15
-
-# 口语填充词风格
-# literary: 坦白讲、怎么说呢
-# casual: 说白了、懂的都懂
-# mixed: 混合
-# minimal: 尽量少用
-filler_style: "mixed"
-
 # 段落节奏
-# structured: 匀称（AI默认）
-# chaotic: 剧烈长短交替
+# structured: 匀称（AI默认，避免）
 # wave: 长→短→长波浪
+# chaotic: 剧烈长短交替（推荐）
+# → 对抗突发性检测 [规则 1.3]
 paragraph_rhythm: "chaotic"

-# 自我纠正频率——"不对，准确说是..."
-self_correction_rate: 0.02
-
-# 跑题频率
-# never / every_500_chars / every_800_chars / every_1200_chars
-tangent_frequency: "every_800_chars"
-
-# 真实数据引用密度
-# low: 每H2段1条
-# medium: 每H2段2条
-# high: 每H2段3条+
-real_data_density: "high"
-
 # 词汇温度偏向
 # cold: 偏专业书面
 # warm: 偏日常口语
 # hot: 偏网络用语
-# balanced: 均匀混搭
-word_temperature_bias: "warm"
+# balanced: 均匀混搭（推荐）
+# → 对抗词汇丰富度检测 [规则 1.2]
+word_temperature_bias: "balanced"

 # 情绪弧线
 # flat: 全程平稳（AI默认，避免）
 # gradual: 缓慢升温
 # restrained_to_burst: 克制→爆发（推荐）
 # volatile: 剧烈波动
+# → 对抗情感分布检测 [规则 1.4]
 emotional_arc: "restrained_to_burst"

+# 负面情绪最低占比 (0-1)
+# AI 中文文本负面情绪仅 11-12%，人类 25-34%
+# → 对抗情感分布检测 [规则 1.4]
+negative_emotion_floor: 0.20
+
+# 副词密度上限——每 100 字最多几个副词
+# AI 中文文本副词显著偏多
+# → 对抗词性分布检测 [规则 1.5]
+adverb_max_per_100: 3
+
+# 段落间风格漂移强度 (0-1)
+# 0 = 全文风格一致（AI默认，避免）
+# 1 = 每个 H2 段落语气/正式度明显不同
+# → 对抗风格一致性检测 [规则 1.6]
+style_drift: 0.6
+
+# ============================================================
+# 二、语言反检测参数
+# ============================================================
+
+# 破句/不完整句比率——每 1000 字出现几次
+# → 对抗语法完美性检测 [规则 2.2]
+broken_sentence_rate: 0.04
+
+# 自我纠正频率——"不对，准确说是..."
+# → 对抗语法完美性检测 [规则 2.2]
+self_correction_rate: 0.02
+
+# 意外用词频率——每 1000 字出现几次非常规但说得通的表达
+# → 对抗困惑度检测 [规则 2.3]
+unexpected_word_rate: 0.02
+
+# 口语填充词风格
+# literary: 坦白讲、怎么说呢
+# casual: 说白了、懂的都懂
+# mixed: 混合（推荐）
+# minimal: 尽量少用
+filler_style: "mixed"
+
+# 跑题频率
+# never / every_500_chars / every_800_chars / every_1200_chars
+# → 对抗连贯性检测 [规则 2.4]
+tangent_frequency: "every_800_chars"
+
+# 结构线性度 (0-1)
+# 0 = 完全非线性（跳跃、倒叙、插叙）
+# 1 = 完全线性（观点→论据→总结，AI默认）
+# → 对抗连贯性检测 [规则 2.4]
+structure_linearity: 0.3
+
+# ============================================================
+# 三、内容反检测参数
+# ============================================================
+
+# 真实数据引用密度
+# low: 每 H2 段 1 条
+# medium: 每 H2 段 2 条
+# high: 每 H2 段 3 条+（推荐）
+# → 对抗 token 概率分布检测 [规则 3.1]
+real_data_density: "high"
+
+# 成语/俗语密度——每段平均出现几次
+idiom_density: 0.15
+
 # 开头策略
 # scene: 场景描写
 # data: 数据冲击
@ -73,7 +118,5 @@ opening_style: "scene"
 # abrupt: 戛然而止
 closing_style: "open_question"

-# 结构线性度 (0-1)
-# 0 = 完全非线性（跳跃、倒叙、插叙）
-# 1 = 完全线性（观点→论据→总结）
-structure_linearity: 0.3
+# 写作人设——影响整体语感和视角
+persona: "科技媒体资深编辑，写了八年公众号，对AI行业有深度认知"