6/25 范围重排 · 旧 6 工作线(1.1-1.6) → 新 6 项 P0-P3 任务(A-F) + 新增 G. 旧编号在每张卡里追踪。
已完成: P2-F ops 简化 (本次) · 进行中: P0-A 6 人桌切换 · 展会后: 旧 1.1 #6 OpenAI 对照 / 旧 1.3 #21 故事 NPC / 旧 1.6 全部 (进 "技术欠债" tab)
P0-A · 6 人桌切换 ✓
游戏引擎前端
完工 6/25
9 人桌 → 6 人桌, AIDR vs 原生 故事更清晰 (ADR-0025).
P0-D · 18 题 Claude 重测 ✓
AI/大模型测试
完工 6/25
90 调用跑完, AIDR (Opus + 老周) 70 分, 比烤 qwen3 高 6 分.
P0-E · benchmark 5 主体上线 ✓
前端产品
完工 6/26
P1-B · 10 小时长测 89 hand 大成功 ⭐⭐⭐ (6/27)
游戏引擎运维
长测通过 · 展会可上
4 bug 全修后跑 10 小时长测: 89 手 / 1163 决策 / fallback 3.8% (vs 修前 60s idle break 时 hand 1 就 fallback). 平均 6.7 min/hand 稳定. native 3 性格真分化: LAG 60% raise vs Station 0.3% raise (区分度 200×). 完整 jsonl 归档 Documentation/audits/data/2026-06-27_p1b_longrun_89hands.jsonl
- 长测实测 (10 小时 89 hand): 1163 决策 / 44 fallback (3.8%) / 平均 6.7 min/hand. supervisor 1200s perl alarm 双保险触发 1 次 (hand 7 Anthropic 配额异常), 自动恢复后续 80+ hand 全正常
- ⭐ Native 3 性格真分化: TAG (seat 0) 15.6% raise · LAG (seat 2) 60.2% raise · Station (seat 4) 0.3% raise + 55.6% call. 区分度 200× ⭐ — Bug 3 修法 (按 SYSTEM persona 出招) 完美验证
- ⭐ AIDR 3 NPC raise 79 次: 阿凯 44 / 老周 25 / 丽姐 10. Codex 找的 args.raise_to 双写 contract 修对了 (之前会全丢)
- Bug 1-4 修法清单: (1) SEATS 6-max (2) AIDR args.raise_to 双写 (3) native persona inline (4) hand_end 驱动 + 1200s 双保险 + supervisor 清旧 system.txt + arena hand_end 提前. 4 文件: workflow.js / supervisor.sh / holdem_poker_table.gd / ops
- 归档:
Documentation/audits/data/2026-06-27_p1b_longrun_89hands.jsonl (2.6 MB) + supervisor.log
- 下一步: 展会前可上线. P2 nice-to-have (F3 强制新手 hand_end / FileAccess push_warning) 推到 post-expo. 端到端冻结彩排展会前 1-2 天再跑.
P2-F · ops 简化 ✓ 已完成 (6/25 本次)
前端产品
已完成
- 5 tab 保留, 内容简化排版重写 (项目 2 AIDR 插件字节级不动)
- exec 砍冗余, 留三灯/倒计时/决策表/六指标/深挖入口
- 项目 1 旧 1.1-1.6 → 新 P0-P3 + 旧编号追踪 + 未覆盖项明确分流到 debt/dept
P3-C · 回放功能 (时间够才做)
前端
锦上添花 · 半天到一天
JSONL 录像已全程录, 做个网页 player 按手翻看 + 每决策展示推理.
- 状态: 待 P0/P1 全清才动
- 下一步: 写网页 player UI 读 ~/Library/.../replays/session_*.jsonl
- 覆盖旧项: 无 (新功能, 旧没规划)
P3-G · 18 题每夜回归基线 (展会后)
测试运维
展会后 · 0.5 天
分数掉到 8/18 以下自动报警, 防 NPC 改提示词后无声退步.
- 状态: 旧 1.3 #11 分出, 展会后做
- 覆盖旧项: 1.3 #11 18 题作为每夜回归基线
📁 旧 1.1-1.5 已完成的 12 项 (审计血统留底; 数据进 meta tab)
1.1 预跑链路: #1 长测停机保护 ✓ · #3 筹码刷新 ✓ · #4 自动保护开关界面 ✓ · #5 跑分自动生成 ✓ · #14 部署提醒 ✓
1.2 网页诚信: #15 样本量保护 ✓ · 统计口径修 ✓ · 1086 倍下注钉死 ✓ · 跟注式全下不算加注 ✓ · 摊牌率改"看到翻牌"分母 ✓
1.3 NPC 质量: 擂台已切 think-ON 6/22 ✓ · 派生信息 5 模块体系 ✓ (ADR-0024 收尾)