范围已确认 · 逐条用代码验证过: 25 项裁定 = 16 项真要做 · 6 项做了一半 · 3 项已经做完了(之前报错了)。
实际工作量 Codex 估的 5-8 天比 Claude 估的 27 天准。Claude 把 3 件已完成的误报为"必做",Codex 之前预言过这个盲区——"Claude 容易把设计文档当成还没实现"。
真实工作量约 5-9 天(16 项 x 0.3-0.5 天 + 6 项半成品剩余)。
工作线 1.1 · 预跑链路(展会现场观众真会看到的)
运维后端游戏引擎
必做 · 约 2 天
确保展会现场的擂台赛能稳定运行,不出假数据、不假死。
- [#1 已修] 长测脚本不检查扑克计算器就运行 → 已加"发现问题立刻停"保护
- [#3 要做] 一手牌过程中筹码数字不刷新 — 牌桌日志缺筹码数据 + 看板不更新
- [#4 要做] AI 连续出错时的"自动保护开关"没有界面提示 — 没人订阅这个信号,UI 上啥也看不到
- [#5 要做] NPC 跑分数据(benchmark.json)是手填的,没有自动生成工具,也没有"这数据从哪来的"记录
- [#6 要做] 跑分工具只支持本地 AI 和我们的 AIDR,没接 OpenAI 作为第四组对照
- [#14 已修] 推代码时自动提醒部署(通过 git 钩子实现,改了网页文件就提示你部署)
工作线 1.2 · 网页看板诚信
前端产品
#15 已做! 改文案即可
- [#15 已修] 网页上"样本量不够时不显示得分"的保护已经做了(之前误报)
- 剩: 三个阵营的介绍文案要跟实际能力对齐(产品文案级工作,约 0.5 天)
- 不能说"派生信息提升了 X%"—— 18 题样本太小,统计上不显著
工作线 1.3 · NPC 打牌质量
AI/大模型测试
必做 · 约 2-3 天
让 AI 扑克 NPC 打得更像真人,展会上不丢人。
- 把 AI 从"快速回答"切到"深度思考"模式(推理更准但更慢) + 验证切换后 NPC 嘴上不漏手牌
- [#8 半成品] 老周的策略文件已经有心态边界和翻牌后规则,但几道具体跑偏的题还没微调
- [#11 要做] 用 18 题测试当"每夜回归基线"— 分数掉到 8/18 以下自动报警,防止改了提示词后 NPC 无声退步
- [#21 要做] 5 个故事 NPC 的 AI 模型过期了(策略文件比打包好的模型新) → 要重新打包(bake = 把人设烘焙进本地 AI 模型)
- 复盘: 这轮做完后总结"给 AI 什么信息 + 怎么设人设"的通用经验,反哺插件
工作线 1.4 · 预跑攒数据
运维产品
必做 · 约 3 天(机器跑,不占人)
让三个阵营的 AI 真打一批牌,用真实结果生成跑分数据。
- 三个阵营同时跑 18 题: AIDR烘焙版(深度思考) / 裸 AI 对照 / 最优策略对照
- 跑分数据从这批结果自动生成,附带"谁在什么时候用什么命令跑的"记录
- 长测脚本连跑 N 手(电脑不休眠 + 崩了 5 秒自动重启)
工作线 1.5 · 冻结 + 彩排
产品前端运维
必做 · 1 天 + 留 2-3 天缓冲
展会前从头到尾走一遍完整流程,确保没有空白和报错。
- 端到端彩排: 打开网页 → 看三阵营 9 人桌结果 → 分数条/延迟/摊牌 → 没空没错
- 部署同步检查通过(本地代码 = 线上代码)
- 展会前留最后 3 天做缓冲
之前 Claude 报错、实际已经做完的 3 件(代码验证确认):
#9 扑克计算器的标准答案测试(已有 31/31 全过) ·
#10 前端条宽回归测试接入提交关卡(已是第四件) ·
#15 网页样本量保护(代码里已实现)
工作线 1.6 · 卖点和获客(展会后再做)
产品
不急 · 暂不做
- 三档话术(30秒 / 2分钟 / 围观字幕)展会后准备
- 愿望单 / Discord / 邮件留存 — 等你定要不要做