diff --git a/SKILL.md b/SKILL.md
index 2384e09..52cbcbd 100644
--- a/SKILL.md
+++ b/SKILL.md
@@ -378,11 +378,17 @@ python3 {skill_dir}/scripts/humanness_score.py {article_path} --json --tier3 {ag
 读取: {skill_dir}/references/visual-prompts.md
 ```
 
-**6.1** 分析文章结构，生成封面 3 组创意 + 内文 3-6 张配图提示词。
+**6.1 实体提取**：从终稿中提取 3-5 个**具体实体**（人物、产品名、场景、数据点、行业术语）。后续所有提示词必须包含至少 2 个实体。
 
-**6.2** 调用 image_gen.py 生成图片，替换 Markdown 占位符。
+**6.2 封面生成**：生成封面 3 组创意提示词（按 visual-prompts.md），选最佳 1 组调用 image_gen.py 生成。
 
-**降级**：生图失败 → 输出提示词，继续。
+**6.3 封面验证**：
+- **交互模式**：展示封面，问用户"封面效果如何？"。用户 OK → 继续；不满意 → 调整提示词重新生成。
+- **全自动模式**：agent 自检——提示词中的实体是否在画面描述中可识别？如果提示词过于泛化（仅含"科技感""未来感"等抽象词，无具体实体），换一组提示词重试 1 次。
+
+**6.4 内文配图**：分析文章结构，生成 3-6 张内文配图提示词（按 visual-prompts.md）。风格、色调、画风沿用封面，保持视觉一致。批量调用 image_gen.py，替换 Markdown 占位符。
+
+**降级**：生图失败 → 输出提示词 + 备选图库关键词，继续。
 
 ---
 
diff --git a/references/visual-prompts.md b/references/visual-prompts.md
index aee4eb3..f212b57 100644
--- a/references/visual-prompts.md
+++ b/references/visual-prompts.md
@@ -44,6 +44,24 @@
 - 适配工具建议：{即梦/文心一格/Midjourney/DALL-E 中哪个最适合}
 ```
 
+### 实体锚定（必须）
+
+生成提示词之前，先从文章中提取 3-5 个**具体实体**：
+
+- 人物/角色（"短剧导演"、"AI 工程师"）
+- 产品/技术（"Sora"、"数字人"、"大模型"）
+- 场景（"拍摄片场"、"手机竖屏播放"、"服务器机房"）
+- 数据/趋势（"成本曲线下降"、"90% 亏损率"）
+
+**硬规则**：
+- 每条提示词必须包含至少 2 个文章实体
+- 禁止用"科技感"、"未来感"、"商务感"、"数据背景"等泛化词**替代**具体内容——这些词可以作为风格修饰，但不能作为画面主体
+- 自检方法：如果一个没读过文章的人看到这条提示词，能猜出文章大概在讲什么吗？不能 → 重写
+
+**反例** → **正例**：
+- ❌ "蓝色科技背景，数据流动，未来感" → ✅ "AI 生成的短剧角色走出手机屏幕，背景是废弃的真人拍摄片场，蓝色冷光"
+- ❌ "商务办公场景，专业氛围" → ✅ "一个仓库货架上堆满退货包裹，旁边屏幕显示飙升的退货率曲线"
+
 ### 提示词撰写要点
 
 - 始终指定 `16:9 aspect ratio, horizontal composition`
@@ -103,7 +121,8 @@
 ### 内文配图的特殊要求
 
 - 尺寸统一 **16:9 横版**（image_gen.py --size article）
-- 风格与封面保持一致（同一色调体系）
+- **风格一致性**：沿用封面确定的色调、画风、视觉语言。在每条提示词中显式复用封面的风格描述（如 "flat illustration, blue-orange palette, minimalist"）
+- 实体锚定规则同封面——每条提示词至少包含 2 个文章实体
 - 不要太复杂——手机屏幕上看，简洁的图比复杂的图好
 - 提示词用中文（seedream 中文理解强）
 - 每张图都提供一个**免费图库备选关键词**，以防生图效果不佳