6/25 范围重排 · 旧 6 工作线(1.1-1.6) → 新 6 项 P0-P3 任务(A-F) + 新增 G. 旧编号在每张卡里追踪。
已完成: P2-F ops 简化 (本次) · 进行中: P0-A 6 人桌切换 · 展会后: 旧 1.1 #6 OpenAI 对照 / 旧 1.3 #21 故事 NPC / 旧 1.6 全部 (进 "技术欠债" tab)
P0-A · 6 人桌切换 (新决定 6/25)
游戏引擎前端
必做 · 半天
9 人桌 → 6 人桌, 移除 3 GTO 席, 保留 3 原生 + 3 AIDR. AIDR vs 原生 故事更清晰.
- 状态: 代码全部改完 ✓ 6/25 (Codex 影响审 + ADR-0025 拍板, m13 smoke 18/18 全过, 插件 smoke 38/38 全过)
- 已做: ADR-0025 + ADR-0021 superseded 标 / roster.json 6-max B1+B2 / table.gd:526 max_seats 读 roster / m13 期望更新 / m12 rename 为 engine_seats_2_to_9 / web app.js teamOf+strings.js 6-max / benchmark.html+js 删 GTO / CLAUDE.md+STATUS.md 同步
- 下一步: 等 P0-D 数据齐了一起部署 web/arena (避免半状态)
P0-D · 重做 18 题 + NPC 质量回归 (含旧 1.3 #8 #11)
AI/大模型测试
必做 · 1 天
arena 实战用 Claude → benchmark 也用 Claude 跑, 不被怼 "实战/跑分不一致". 同时验证 NPC 真打牌质量 (老周不再太松).
- 状态: AIDR Claude 已有 v3 = 66/100 (跟 14b 71 同档). 原生 Claude 没跑过
- 下一步: 原生 Claude (裸+紧凶人设) 跑 18 题, 输出 native_claude vs aidr_claude vs gto 三家对比
- 阻塞: 旧 ops 网页分数 (GTO 76 / AIDR 56 / 原生 38) 是 14b 替身的, 不能继续用
- 覆盖旧项: 1.3 #8 老周打太松 (派生信息已修, 由 18 题验证); 1.3 #11 18 题作为回归基线; 1.4 三阵营跑分
- 不覆盖, 已分流: 1.3 #11 "每夜回归基线" → 单列 P3-G (展会后); 1.3 #21 故事 NPC → debt
P0-E · arena 网站数据替换 + 三阵营文案对齐 (含旧 1.2)
前端产品
必做 · 半天
P0-D 跑完, 用新数据替换 web/arena/benchmark.json + benchmark.html. 顺手把三阵营介绍文案对齐到实际能力.
- 状态: 待 P0-D 数据
- 下一步: 替换 benchmark.json (native/aidr/gto 三家 + 18 题逐题) + benchmark.html/.js 字段适配 + 部署 + deploy-fresh 验证
- 阻塞: 没有新数据就不能说 AIDR 当前真实表现
- 覆盖旧项: 1.2 #15 样本量保护 ✓ (已完成); 1.2 统计口径 ✓; 1.2 三阵营文案对齐 ⏳; 1.4 跑分自动生成
- 纪律: 网页上不能说 "派生信息提升 X%" (18 题样本小, 统计上不显著. 见 dept "统计纪律")
P1-B · bridge timeout 修 + 3 小时实测 + 冻结彩排 (含旧 1.5)
游戏引擎运维
必做 · 3-5 天 (含彩排)
arena 实测发现 60s timeout 太短, 第一两个决策 fallback fold. 改 240s + 真 3 小时跑 + 端到端冻结彩排.
- 状态: smoke 1 通过 (6 agent 文件桥端到端). 60→240s 一行改完待跑长测
- 下一步: 改 BridgeProvider poll_timeout_sec; 跑 3 小时 supervisor + arena longrun; 端到端彩排
- 阻塞: Pro 5h 配额窗口可能吃紧, Max 充裕
- 覆盖旧项: 1.5 端到端彩排; 1.5 部署同步检查 (已有 hook); 1.5 留 3 天缓冲; 1.4 长测脚本
P2-F · ops 简化 ✓ 已完成 (6/25 本次)
前端产品
已完成
- 5 tab 保留, 内容简化排版重写 (项目 2 AIDR 插件字节级不动)
- exec 砍冗余, 留三灯/倒计时/决策表/六指标/深挖入口
- 项目 1 旧 1.1-1.6 → 新 P0-P3 + 旧编号追踪 + 未覆盖项明确分流到 debt/dept
P3-C · 回放功能 (时间够才做)
前端
锦上添花 · 半天到一天
JSONL 录像已全程录, 做个网页 player 按手翻看 + 每决策展示推理.
- 状态: 待 P0/P1 全清才动
- 下一步: 写网页 player UI 读 ~/Library/.../replays/session_*.jsonl
- 覆盖旧项: 无 (新功能, 旧没规划)
P3-G · 18 题每夜回归基线 (展会后)
测试运维
展会后 · 0.5 天
分数掉到 8/18 以下自动报警, 防 NPC 改提示词后无声退步.
- 状态: 旧 1.3 #11 分出, 展会后做
- 覆盖旧项: 1.3 #11 18 题作为每夜回归基线
📁 旧 1.1-1.5 已完成的 12 项 (审计血统留底; 数据进 meta tab)
1.1 预跑链路: #1 长测停机保护 ✓ · #3 筹码刷新 ✓ · #4 自动保护开关界面 ✓ · #5 跑分自动生成 ✓ · #14 部署提醒 ✓
1.2 网页诚信: #15 样本量保护 ✓ · 统计口径修 ✓ · 1086 倍下注钉死 ✓ · 跟注式全下不算加注 ✓ · 摊牌率改"看到翻牌"分母 ✓
1.3 NPC 质量: 擂台已切 think-ON 6/22 ✓ · 派生信息 5 模块体系 ✓ (ADR-0024 收尾)