From f7fe44c1528d97b9f9936d25380e28329c2c6c7e Mon Sep 17 00:00:00 2001
From: wangzhuc <wangzhuc@outlook.com>
Date: Mon, 30 Mar 2026 23:23:51 +0800
Subject: [PATCH] fix: expand negative markers and vocabulary temperature word
 lists
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

NEGATIVE_MARKERS: 26 → 51 words
  Added: despair (绝望/迷茫/心累), deception (骗/忽悠/割韭菜/套路),
  failure (白费/黄了/凉了), self-deprecation (傻/天真/自嗨),
  sarcasm (呵呵/行吧/真服了), complaint (受够了/苦哈哈)

COLD_WORDS: 7 → 25 (技术栈/标准化/护城河/飞轮/底层逻辑/PMF/ROI...)
WARM_WORDS: 7 → 15 (老实说/这么说吧/你想啊/有意思的是...)
HOT_WORDS: 8 → 19 (凡尔赛/标题党/躺平/摆烂/破防/上头/内耗...)
WILD_WORDS: 7 → 17 (苦哈哈/傻乎乎/交学费/踩坑/翻车...)

Impact on 15 exemplar articles:
  neg score avg: 0.15 → 0.27 (+80%)
  temp_mix: still low on short segments, but full articles now
  score 0.33-1.00 vs previously 0.00

Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
---
 scripts/humanness_score.py | 38 ++++++++++++++++++++++++++++++++++----
 1 file changed, 34 insertions(+), 4 deletions(-)

diff --git a/scripts/humanness_score.py b/scripts/humanness_score.py
index 6aabc32..ea7e0e0 100644
--- a/scripts/humanness_score.py
+++ b/scripts/humanness_score.py
@@ -55,10 +55,23 @@ REAL_SOURCE_PATTERNS = [
 ]
 
 NEGATIVE_MARKERS = [
+    # 直接负面情绪
     "失望", "糟糕", "扯", "坑", "烂", "差劲", "崩溃", "吐槽", "骂",
     "怒", "烦", "焦虑", "担忧", "不满", "恶心", "可怕", "可悲", "可笑",
     "离谱", "尴尬", "无语", "蠢", "惨", "亏", "危",
+    # 绝望/迷茫
+    "绝望", "迷茫", "心累", "丧", "后悔", "后怕", "心寒",
+    # 欺骗/操控（隐性负面）
+    "骗", "忽悠", "割韭菜", "套路", "画大饼", "洗脑",
+    # 失败/徒劳
+    "白费", "白搭", "没戏", "黄了", "凉了", "废了",
+    # 自嘲/自贬
+    "傻", "天真", "吃亏", "自嗨", "打脸",
+    # 讽刺/反语
+    "呵呵", "好吧", "行吧", "真服了",
+    # 短语
     "太扯了", "说实话我很失望", "搞什么", "不靠谱", "受不了",
+    "受够了", "想哭", "伤心", "苦哈哈", "得过且过",
 ]
 
 COMMON_ADVERBS = [
@@ -69,10 +82,27 @@ COMMON_ADVERBS = [
     "竟然", "简直", "几乎", "完全", "绝对", "必然",
 ]
 
-COLD_WORDS = ["边际", "认知负荷", "信息不对称", "路径依赖", "商业模式", "生态系统", "增量"]
-WARM_WORDS = ["说白了", "其实吧", "讲真", "说实话", "坦白讲", "懂的都懂", "怎么说呢"]
-HOT_WORDS = ["DNA动了", "格局打开", "遥遥��先", "卷", "内卷", "炸了", "杀疯了", "吃灰"]
-WILD_WORDS = ["整挺好", "不靠谱", "瞎折腾", "搁这儿", "糊弄", "扯", "嗯"]
+COLD_WORDS = [
+    "边际", "认知负荷", "信息不对称", "路径依赖", "商业模式", "生态系统", "增量",
+    "技术栈", "标准化", "结构性", "规模化", "护城河", "飞轮", "闭环",
+    "赛道", "壁垒", "方法论", "底层逻辑", "第一性原理", "杠杆", "复利",
+    "ROI", "PMF", "代运营", "供给侧", "需求侧",
+]
+WARM_WORDS = [
+    "说白了", "其实吧", "讲真", "说实话", "坦白讲", "懂的都懂", "怎么说呢",
+    "老实说", "这么说吧", "你想啊", "别急", "慢慢来",
+    "有意思的是", "好玩的是", "巧的是", "说来话长", "话说回来",
+]
+HOT_WORDS = [
+    "DNA动了", "格局打开", "遥遥领先", "卷", "内卷", "炸了", "杀疯了", "吃灰",
+    "凡尔赛", "标题党", "躺平", "摆烂", "破防", "上头", "内耗",
+    "蒸发", "出圈", "降维打击", "弯道超车",
+]
+WILD_WORDS = [
+    "整挺好", "不靠谱", "瞎折腾", "搁这儿", "糊弄", "扯", "嗯",
+    "苦哈哈", "傻乎乎", "稀里糊涂", "得了吧", "算了吧",
+    "摔了跤", "交学费", "踩坑", "翻车", "栽了",
+]
 
 SELF_CORRECTION_PATTERNS = [
     r'不对[，,]', r'准确说', r'算了', r'说错了',