From 59aa215f124d02e9dad5ab0cca927f484f1b1afe Mon Sep 17 00:00:00 2001 From: wangzhuc Date: Sat, 28 Mar 2026 23:15:14 +0800 Subject: [PATCH] =?UTF-8?q?=E6=96=B0=E5=A2=9E=20Step=203.75=20=E7=B4=A0?= =?UTF-8?q?=E6=9D=90=E9=87=87=E9=9B=86=EF=BC=9A=E7=9C=9F=E5=AE=9E=E4=BF=A1?= =?UTF-8?q?=E6=81=AF=E9=94=9A=E5=AE=9A=E6=98=AF=E9=80=9A=E8=BF=87=20AI=20?= =?UTF-8?q?=E6=A3=80=E6=B5=8B=E7=9A=84=E5=85=B3=E9=94=AE?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit 根据朱雀AI检测对比分析,通过检测的文章核心特征是"建立在真实外部 信息源之上"——具名来源、可验证数据、真实引述。纯 LLM 生成的 "假细节"(编造数据/虚构场景)在 token 概率分布上仍然是 AI 的。 改动: - SKILL.md 新增 Step 3.75:WebSearch 采集 5-8 条真实素材 - Step 4b 写作要求必须锚定真实素材,禁止编造 - writing-guide.md 新增"最重要的一条":真实信息锚定优先级最高 - 自检清单前置第 0 项:真实信息锚定检查 + 零编造检查 Co-Authored-By: Claude Opus 4.6 (1M context) --- SKILL.md | 35 +++++++++++++++++++++++++++++++++-- references/writing-guide.md | 6 +++++- 2 files changed, 38 insertions(+), 3 deletions(-) diff --git a/SKILL.md b/SKILL.md index 5805976..16aadaf 100644 --- a/SKILL.md +++ b/SKILL.md @@ -149,6 +149,34 @@ python3 {skill_dir}/scripts/seo_keywords.py --json {从热点标题中提取的3 --- +### Step 3.75: 素材采集(关键步骤——决定文章能否通过 AI 检测) + +**为什么需要这步**:纯 LLM 生成的内容,无论表面技巧多好,底层 token 概率分布仍然是 AI 的。通过 AI 检测的文章都有一个共同特征——建立在真实外部信息源之上。朱雀等检测器能区分"LLM 编造的具体细节"和"人类消化真实信息后的重组"。 + +用 WebSearch 搜索 2-3 个与选题直接相关的真实信息源: + +``` +WebSearch: "{选题关键词} site:36kr.com OR site:mp.weixin.qq.com OR site:zhihu.com" +WebSearch: "{选题关键词} 数据 报告 2025 2026" +``` + +从搜索结果中提取**真实素材**: + +| 类型 | 示例 | 要求 | +|------|------|------| +| 真实数据 | "Gartner 2026 Q1 报告:xx 市场规模达 xx 亿" | 具体来源 + 具体数字 | +| 真实引述 | "a16z 合伙人 Alex Immerman 在最近一篇文章中写道..." | 具名人物 + 出处 | +| 真实案例 | "Klarna 在 2024 年公开表示,AI 已替代 700 个客服岗" | 公司名 + 可验证事件 | +| 真实对比 | "美国企业人均软件支出 $868,中国只有 $20" | 来源明确的对比数据 | + +**目标**:收集 5-8 条真实素材。这些素材将在 Step 4 写作时作为**必须引用的锚点**嵌入文章。 + +**降级**:如果 WebSearch 无法获取有效结果,用 LLM 的训练数据中可验证的公开信息(具名公司、具名人物、公开事件)。但**禁止编造虚假的数据/引述/案例**——宁可少一个数据点,不可多一个假数据点。 + +将素材整理为结构化列表,传递给 Step 4。 + +--- + ### Step 4: 文章写作 ``` @@ -178,13 +206,15 @@ python3 {skill_dir}/scripts/seo_keywords.py --json {从热点标题中提取的3 #### 4b. 写作 -按选定框架 + writing-guide.md 全部 7 层规范 + 激活的维度约束写文章: +按选定框架 + writing-guide.md 全部 7 层规范 + 激活的维度约束 + **Step 3.75 采集的真实素材**写文章: - H1 标题(20-28 字,converter 自动提取为微信标题) - 字数 1500-2500 - 按框架大纲组织结构,在金句落点放精炼总结句 - 不插配图占位符(Step 6 自动分析插入) - 风格遵循 style.yaml 的 tone、voice、content_style - 避开 blacklist +- **真实素材锚定**:Step 3.75 采集的 5-8 条真实素材必须分散嵌入文章各 H2 段落中,作为论证的事实基础。不是堆砌引用,而是像"一个读了这些材料的人在写自己的分析"一样自然融入 +- **禁止编造**:不要虚构数据、虚构引述、虚构案例。如果某个论点没有真实素材支撑,用个人观点/推理代替,不要伪造 - **去AI痕迹在此步执行,不是写完再改**——writing-guide.md 的 7 层规则必须在初稿阶段就全部生效 **Playbook 优先**:如果 playbook.md 存在,其中的规则优先于 writing-guide.md 的通用规则。比如 playbook 说"从不用问句结尾"而 writing-guide 建议用反问句,以 playbook 为准。playbook 是用户的个性,writing-guide 是通用底线。 @@ -221,11 +251,12 @@ python3 {skill_dir}/scripts/seo_keywords.py --json {从热点标题中提取的3 按 writing-guide.md 的自检清单逐项检查终稿,**每一项都必须通过**: +0. **真实信息锚定**(最重要):每个 H2 段落至少锚定 1 条来自 Step 3.75 的真实素材。没有纯 LLM 自由生成的段落。所有数据/引述/案例可验证,零编造 1. **词汇层**:全文搜索禁用词表 → 命中数必须 = 0。检查词汇温度分布是否覆盖冷/温/热/野至少 3 种 2. **句法层**:确认全文破句/不完整句 ≥ 3 处,无连续 3 句同结构 3. **信息密度层**:确认高密度段后跟低密度段,无连续均匀信息密度 4. **连贯性打破层**:确认至少 1 处跑题再拉回,无每段首句都承接上段 -5. **具体性注入层**:每 500 字至少 2 处具体细节(时间/地点/人物/非整数数字) +5. **具体性注入层**:每 500 字至少 2 处具体细节(时间/地点/人物/非整数数字)——必须是真实的 6. **情绪真实感层**:确认情绪弧线有起伏(≥1 高点 + ≥1 犹豫点),无全文平铺 7. **维度随机化层**:确认 Step 4a 选中的维度贯穿全文,不是只出现一两次 8. **段落节奏**:无连续 2 个长度接近(±20字)的段落 diff --git a/references/writing-guide.md b/references/writing-guide.md index a41be73..12e660b 100644 --- a/references/writing-guide.md +++ b/references/writing-guide.md @@ -31,6 +31,8 @@ **总原则**:不是"写完再修",而是"从第一句话开始就像人在写"。每一层的规则都必须在初稿阶段就执行,不是后期润色。 +**最重要的一条**(优先级高于以下所有层):**文章必须建立在真实的外部信息源之上。** Step 3.75 采集的真实数据、真实引述、真实案例是文章的骨架。不是"看起来像引用"的编造,而是实际存在的、可验证的外部信息。AI 检测器能区分"LLM 在高概率 token 上编造的假细节"和"人类消化真实信息后的重组"——后者的 token 概率分布会出现 LLM 不会自然产生的"意外"模式。写完后自检:文章中每个 H2 段落是否至少锚定了 1 条来自 Step 3.75 的真实素材?如果某个段落完全是 LLM 自由生成,没有任何外部信息锚点,那个段落大概率会被检出。 + --- ### 第1层:词汇层(基础防线) @@ -219,6 +221,8 @@ AI 天然倾向抽象泛化。人类文章充满具体的、甚至无关紧要 写完全文后,逐项检查: +- [ ] **真实信息锚定**:每个 H2 段落至少锚定 1 条来自 Step 3.75 的真实素材(具名来源 + 可验证数据)。没有任何一个段落是纯 LLM 自由生成 +- [ ] **零编造**:文中所有数据、引述、案例都有真实来源,没有虚构 - [ ] 全文搜索禁用词表,命中数 = 0 - [ ] 抽查任意连续 500 字,至少包含冷/温/热/野四种温度中的 3 种 - [ ] 全文破句/不完整句 ≥ 3 处 @@ -226,7 +230,7 @@ AI 天然倾向抽象泛化。人类文章充满具体的、甚至无关紧要 - [ ] 高密度段后面都跟了低密度段 - [ ] 至少 1 处跑题再拉回的段落 - [ ] 没有每段第一句都承接上一段 -- [ ] 每 500 字至少 2 处具体细节(时间/地点/人物/数字) +- [ ] 每 500 字至少 2 处具体细节(时间/地点/人物/数字)——必须是真实的 - [ ] 情绪弧线有明确的起伏(至少 1 个高点 + 1 处犹豫) - [ ] 维度随机化的 2-3 个维度贯穿全文 - [ ] 没有连续 2 个长度接近的段落