✅ 范围已定 · grep 实测(w9ji7jba8 完成): 25 项裁定 = 16 STILL_PRESENT(真要做) · 6 PARTIAL(部分做) · 3 FIXED(Claude 把已做的当 P0 列错)。
Codex 5-8 天版获胜,Claude 27 人日超估一倍。Claude 误报 3 件: #9 GTO golden test(已做)/#10 前端回归接 gate(昨晚就四件了)/#15 verdict 样本量保护(已做)。
Codex 上次预言 "Claude 倾向把 specs/gates 当 implemented behavior" 第 3 次应验。
真实工日 ≈ 5-9 天(16 项 × 0.3-0.5d + 6 PARTIAL 剩余 4-8h)。证据存档 Documentation/audits/2026-06-19-arena-step2/grep-verify-27items.json。
WS1.1 · 预跑链路硬化(展会现场观众真会看到的)
DevOpsBEGameEng
P0 · ~2 天 · 全 STILL_PRESENT
- [#1 STILL] arena_longrun.sh:30 不传 --require-solver(sidecar 1016-1027 已实装)+ :39-41 Ollama 失败只 echo 不 exit → 改两行 shell
- [#3 STILL] history_logger action 事件(holdem_poker_table.gd:1372)缺 stacks_per_seat_chips + arena_dashboard.py:177 _on_action 不写 live.stacks_bb → 一手内筹码不动
- [#4 STILL] circuit breaker 信号(aidr_llm_provider.gd:22 已 emit)0 处订阅(scenes/web grep 全无)+ UI 无指示 → 加 connect + 3 处 UI(arena banner / NPC 角标 / dashboard fallback_rate)
- [#5 STILL] benchmark.json 手填(无生成器 · 无 provenance 字段)→ 写 tools/gen_benchmark_json.py + 加 git_sha/generated_at/source_jsonl_paths
- [#6 STILL] run_playmode_benchmark.py 没 OpenAISubject(1733/1798-1813 只支持 native/aidr/gto)→ 加 OpenAI 类跑 18 题对照,benchmark.json 第 4 阵营
- [#14 STILL] pre-push deploy-fresh hook 缺 → 加 .git/hooks/pre-push 跑 check_arena/ops_deploy_fresh.py
WS1.2 · 主面板诚信
FEPM
★ #15 已做! 改文案即可
- [#15 FIXED] 主面板 verdict 样本量保护已做(Claude 误判)
- 剩:三阵营 capabilities 文案与真实 solver 层级对齐(PM 文案级 · ~0.5 天)
- 禁止说"派生提升 X%"(18 题样本 CI 重叠) → 复核 strings.js
WS1.3 · NPC 决策质量(展会用→复盘回流插件)
AI/LLMQA
P0 · ~2-3 天 · 复盘后通用化进项目2
- think-OFF → think-ON 切换(scene tscn:2229 + provider disable_thinking=false)+ 漏牌 gate 重验
- [#8 PARTIAL] strategy.json 心态边界 + flop OOP draw 规则已有(poker_zhou:65/76),针对 q-013/q-031/q-035/q-026 具体跑偏的 prompt 微调未做
- [#11 STILL] baked think-ON 18 题作为回归基线 + nightly + 跌破 8/18 告警 → 防 prompt 重写再次无声退化
- [#21 STILL] 5 故事 NPC bake stale 18 天(strategy.json 06-11 > Modelfile 05-30) → 批量重烤
- 复盘机制: WS1.3 完成后总结"派生信息+人设"通用经验,作为 input → 项目 2 WS2.6(AI/LLM Platform)
WS1.4 · 预跑产数据
DevOpsPM
P0 · ~3 天(机器占,不占人)
- 同源单批 18 题三阵营真跑(aidr_baked think-ON / native 裸 qwen3 / GTO BT)
- benchmark.json 从这一份 jsonl 自动生成 + provenance 字段(source_jsonl_path + ts + 命令)
- arena_longrun.sh 跑 N 手以上预跑(caffeinate + 崩溃 5s 自启)
WS1.5 · 网站冻结 + dry-run
PMFEDevOps
P0 · ~1 天 + 留 2-3 天缓冲
- 端到端 dry-run(打开网页 → 三阵营 9-max 结果可读 → 分数条/CI/延迟/showdown 无空无错)
check_arena_deploy_fresh.py exit 0
- 展会前留 Day14-18 缓冲
★ Claude workflow 列错的(grep 实测已做):
#9 GTO sidecar 3 golden + 原生 sizing 2 个(gto_sidecar.py self_test 段已有)·
#10 test_arena_bench_bars.js 接 commit-gate(.claude/settings.json 已是四件)·
#15 主面板 verdict 样本量保护(已在 app.js 实做)
WS1.6 · 卖点&获客(post-expo 暂缓)
PM
P2 · 暂不做
- 三档话术(30s/2min/围观字幕)post-expo
- wishlist/Discord/邮件留存 — 待你拍要不要做