6/25 范围重排 · 旧 6 工作线(1.1-1.6) → 新 6 项 P0-P3 任务(A-F) + 新增 G. 旧编号在每张卡里追踪。
已完成: P2-F ops 简化 (本次) · 进行中: P0-A 6 人桌切换 · 展会后: 旧 1.1 #6 OpenAI 对照 / 旧 1.3 #21 故事 NPC / 旧 1.6 全部 (进 "技术欠债" tab)
P0-A · 6 人桌切换 (新决定 6/25)
游戏引擎前端
必做 · 半天
9 人桌 → 6 人桌, 移除 3 GTO 席, 保留 3 原生 + 3 AIDR. AIDR vs 原生 故事更清晰.
- 状态: 代码全部改完 ✓ 6/25 (Codex 影响审 + ADR-0025 拍板, m13 smoke 18/18 全过, 插件 smoke 38/38 全过)
- 已做: ADR-0025 + ADR-0021 superseded 标 / roster.json 6-max B1+B2 / table.gd:526 max_seats 读 roster / m13 期望更新 / m12 rename 为 engine_seats_2_to_9 / web app.js teamOf+strings.js 6-max / benchmark.html+js 删 GTO / CLAUDE.md+STATUS.md 同步
- 下一步: 等 P0-D 数据齐了一起部署 web/arena (避免半状态)
P0-D · 重做 18 题 + NPC 质量回归 (含旧 1.3 #8 #11)
AI/大模型测试
必做 · 1 天
arena 实战用 Claude → benchmark 也用 Claude 跑, 不被怼 "实战/跑分不一致". 同时验证 NPC 真打牌质量 (老周不再太松).
- 状态: 代码就绪, 待跑数据 ✓ 6/25. ClaudeSubject 加进 run_playmode_benchmark.py:1621-1748 (+201 行, 走
claude -p subprocess 配额, 不掏 key). CLI: --use-claude both --claude-model claude-opus-4-7 --claude-npc poker_zhou. Smoke 1 题通 (action/raise_to/reasoning 抽到, latency 7.2s). 套娃 bug 已修 (--safe-mode --tools "" --setting-sources "" 三 flag 防子进程跑成 num_turns=10)
- 下一步: 用户启动 36 调用 (18 题 × native+aidr 双主体) ≈ 5-8 分钟. ADR-0025 后只跑 native_claude + aidr_claude 两家 (GTO 已砍)
- 注意: 跑 benchmark 时别同时让 Claude Code 干别的耗配额事. think_chain 永空 (Claude CLI 不暴露思考链, reasoning 字段代替). 跑完前抽 3-5 题人眼扫 reasoning 不是乱编再进 P0-E
- 用户拍板: Model=Opus 4.7 / 跑 1 轮看分布 / NPC=老周 poker_zhou TAG (跟 14b baseline 一致) / 强制 reasoning 字段
- 覆盖旧项: 1.3 #8 老周打太松 (派生信息已修, 由 18 题验证); 1.3 #11 18 题作为回归基线; 1.4 三阵营→2 阵营 (ADR-0025)
P0-E · arena 网站数据替换 + 三阵营文案对齐 (含旧 1.2)
前端产品
必做 · 半天
P0-D 跑完, 用新数据替换 web/arena/benchmark.json + benchmark.html. 顺手把三阵营介绍文案对齐到实际能力.
- 状态: 待 P0-D 数据
- 下一步: 替换 benchmark.json (native/aidr/gto 三家 + 18 题逐题) + benchmark.html/.js 字段适配 + 部署 + deploy-fresh 验证
- 阻塞: 没有新数据就不能说 AIDR 当前真实表现
- 覆盖旧项: 1.2 #15 样本量保护 ✓ (已完成); 1.2 统计口径 ✓; 1.2 三阵营文案对齐 ⏳; 1.4 跑分自动生成
- 纪律: 网页上不能说 "派生信息提升 X%" (18 题样本小, 统计上不显著. 见 dept "统计纪律")
P1-B · bridge timeout 修 + 3 小时实测 + 冻结彩排 (含旧 1.5)
游戏引擎运维
必做 · 3-5 天 (含彩排)
arena 实测发现 60s timeout 太短, 第一两个决策 fallback fold. 改 240s + 真 3 小时跑 + 端到端冻结彩排.
- 状态: smoke 1 通过 (6 agent 文件桥端到端). 60→240s 一行改完待跑长测
- 下一步: 改 BridgeProvider poll_timeout_sec; 跑 3 小时 supervisor + arena longrun; 端到端彩排
- 阻塞: Pro 5h 配额窗口可能吃紧, Max 充裕
- 覆盖旧项: 1.5 端到端彩排; 1.5 部署同步检查 (已有 hook); 1.5 留 3 天缓冲; 1.4 长测脚本
P2-F · ops 简化 ✓ 已完成 (6/25 本次)
前端产品
已完成
- 5 tab 保留, 内容简化排版重写 (项目 2 AIDR 插件字节级不动)
- exec 砍冗余, 留三灯/倒计时/决策表/六指标/深挖入口
- 项目 1 旧 1.1-1.6 → 新 P0-P3 + 旧编号追踪 + 未覆盖项明确分流到 debt/dept
P3-C · 回放功能 (时间够才做)
前端
锦上添花 · 半天到一天
JSONL 录像已全程录, 做个网页 player 按手翻看 + 每决策展示推理.
- 状态: 待 P0/P1 全清才动
- 下一步: 写网页 player UI 读 ~/Library/.../replays/session_*.jsonl
- 覆盖旧项: 无 (新功能, 旧没规划)
P3-G · 18 题每夜回归基线 (展会后)
测试运维
展会后 · 0.5 天
分数掉到 8/18 以下自动报警, 防 NPC 改提示词后无声退步.
- 状态: 旧 1.3 #11 分出, 展会后做
- 覆盖旧项: 1.3 #11 18 题作为每夜回归基线
📁 旧 1.1-1.5 已完成的 12 项 (审计血统留底; 数据进 meta tab)
1.1 预跑链路: #1 长测停机保护 ✓ · #3 筹码刷新 ✓ · #4 自动保护开关界面 ✓ · #5 跑分自动生成 ✓ · #14 部署提醒 ✓
1.2 网页诚信: #15 样本量保护 ✓ · 统计口径修 ✓ · 1086 倍下注钉死 ✓ · 跟注式全下不算加注 ✓ · 摊牌率改"看到翻牌"分母 ✓
1.3 NPC 质量: 擂台已切 think-ON 6/22 ✓ · 派生信息 5 模块体系 ✓ (ADR-0024 收尾)