6/25 范围重排 · 旧 6 工作线(1.1-1.6) → 新 6 项 P0-P3 任务(A-F) + 新增 G. 旧编号在每张卡里追踪。
已完成: P2-F ops 简化 (本次) · 进行中: P0-A 6 人桌切换 · 展会后: 旧 1.1 #6 OpenAI 对照 / 旧 1.3 #21 故事 NPC / 旧 1.6 全部 (进 "技术欠债" tab)
P0-A · 6 人桌切换 ✓
游戏引擎前端
完工 6/25
9 人桌 → 6 人桌, AIDR vs 原生 故事更清晰 (ADR-0025).
P0-D · 18 题 Claude 重测 ✓
AI/大模型测试
完工 6/25
90 调用跑完, AIDR (Opus + 老周) 70 分, 比烤 qwen3 高 6 分.
P0-E · benchmark 5 主体上线 ✓
前端产品
完工 6/26
P1-B · bridge timeout 修 + 3 小时实测 + 冻结彩排 (含旧 1.5)
游戏引擎运维
必做 · 3-5 天 (含彩排)
arena 实测发现 60s timeout 太短, 第一两个决策 fallback fold. 改 240s + 真 3 小时跑 + 端到端冻结彩排.
- 状态: smoke 1 通过 (6 agent 文件桥端到端). 60→240s 一行改完待跑长测
- 下一步: 改 BridgeProvider poll_timeout_sec; 跑 3 小时 supervisor + arena longrun; 端到端彩排
- 阻塞: Pro 5h 配额窗口可能吃紧, Max 充裕
- 覆盖旧项: 1.5 端到端彩排; 1.5 部署同步检查 (已有 hook); 1.5 留 3 天缓冲; 1.4 长测脚本
P2-F · ops 简化 ✓ 已完成 (6/25 本次)
前端产品
已完成
- 5 tab 保留, 内容简化排版重写 (项目 2 AIDR 插件字节级不动)
- exec 砍冗余, 留三灯/倒计时/决策表/六指标/深挖入口
- 项目 1 旧 1.1-1.6 → 新 P0-P3 + 旧编号追踪 + 未覆盖项明确分流到 debt/dept
P3-C · 回放功能 (时间够才做)
前端
锦上添花 · 半天到一天
JSONL 录像已全程录, 做个网页 player 按手翻看 + 每决策展示推理.
- 状态: 待 P0/P1 全清才动
- 下一步: 写网页 player UI 读 ~/Library/.../replays/session_*.jsonl
- 覆盖旧项: 无 (新功能, 旧没规划)
P3-G · 18 题每夜回归基线 (展会后)
测试运维
展会后 · 0.5 天
分数掉到 8/18 以下自动报警, 防 NPC 改提示词后无声退步.
- 状态: 旧 1.3 #11 分出, 展会后做
- 覆盖旧项: 1.3 #11 18 题作为每夜回归基线
📁 旧 1.1-1.5 已完成的 12 项 (审计血统留底; 数据进 meta tab)
1.1 预跑链路: #1 长测停机保护 ✓ · #3 筹码刷新 ✓ · #4 自动保护开关界面 ✓ · #5 跑分自动生成 ✓ · #14 部署提醒 ✓
1.2 网页诚信: #15 样本量保护 ✓ · 统计口径修 ✓ · 1086 倍下注钉死 ✓ · 跟注式全下不算加注 ✓ · 摊牌率改"看到翻牌"分母 ✓
1.3 NPC 质量: 擂台已切 think-ON 6/22 ✓ · 派生信息 5 模块体系 ✓ (ADR-0024 收尾)