OPS · 内部运营看板 v11

3 人小团队 · 项目+部门双轴 · Codex 已审

内部 · v11 术语中文化 + Codex 审查修复
倒计时 — 天 代码分支 冻结中,展会后再合并 提交检查关卡 4 项自动检查通过才能提交 v11 · 术语中文化 · Codex 审查通过
执行摘要 5秒读懂
项目详情
部门职责
技术欠债
审计记录
进度
绿灯 · 来得及
预估还要 5-9 天,离展会还有 18 天,有缓冲
预计: 7 月 7 号前完成,还能留 2-3 天做最终彩排
范围
绿灯 · 已定
两条线并行: playtest = 4人桌上手玩 + GI = arena 网页直播
剩余: 跑分数据 Claude 更新中(72%→真实值)
风险
黄灯 · 在处理
扑克计算器已装(展会用这台电脑) · 跑分数据待更新(72%→真实值)
已做的防护: 长测脚本自动检查 + 展会电脑确认就是本机
距 FullIndie 展会
— 天
擂台赛 进度
2 / 16 必做项完成
进度条 (16 件必做)
12.5%
已完成 (本轮)
  • 长测脚本加了"发现问题立刻停"保护,防假数据
  • 推代码时自动提醒: 改了网页记得部署
  • 擂台赛 25 件逐条代码验证,确认真实状态
  • 运营看板从 v07 重组到 v11
接下来做 (1-2 天)
  • 修: 一手牌打完筹码不刷新的 bug
  • 修: AI 连续出错时没有界面提示
  • 写: NPC 跑分数据自动生成工具
  • 切: AI 深度思考模式 + 重新验防泄露
阻塞 / 风险
  • 展会路线 已定: 两条线并行
  • 扑克计算器 已装(展会用这台电脑)
  • 跑分数据待更新: 网上 72% vs 实测 61%(Claude 跟进中)
决策已全部拍板 (6月19日)
决策 结论 谁跟进 状态
展会用什么方式展示? 两条线并行: playtest 分支做 4 人桌(玩家 vs 3 NPC,让人上手玩) + GI 分支做 arena 网页直播(让人看 AI 对战) playtest=队友 / GI=Claude 已定
NPC 跑分数据怎么办? Claude 从最新真实测试结果重新生成,替换旧的 72% 数据 Claude 进行中
展会电脑装不装扑克计算器? 展会带这台电脑去,计算器已装好,不需要额外操作 已解决
项目 6 个关键指标
来自 PRINCE2 项目管理标准(一种被广泛使用的项目管理方法论)
时间: 7月7号前能完成
范围: 已定: 两条线并行(4人桌+直播)
质量: 每次提交代码自动跑 4 项检查
风险: 跑分数据待更新(其余已解决)
成本: 3 人团队内部搞定,没花外包钱
收益: 展会目的: 让行业认识 AIDR
这一页是概要, 想看细节点上面的 tab: 项目详情(16 件必做的具体内容) / 部门职责(11 个部门各管什么) / 技术欠债(展会后要还的债) / 审计记录(数据从哪来的)。
v11 设计依据: 行业标准综合(PRINCE2 项目汇报 + 信息分层 + 进展/计划/问题三栏),由 106 个 AI agent 调研 + Codex 独立审查。
状态: ● 已做 · ● 进行中 · ● 待做 · ● 展会后再说 · 部门标签: 产品 前端 后端 游戏引擎 AI/大模型 运维 测试 美术 交互 安全 架构 复盘
项目 1 · FullIndie 参展 预跑 + 网页展示 · 主责: 产品 截止 7.7 (18天) 进行中
范围已确认 · 逐条用代码验证过: 25 项裁定 = 16 项真要做 · 6 项做了一半 · 3 项已经做完了(之前报错了)。 实际工作量 Codex 估的 5-8 天比 Claude 估的 27 天准。Claude 把 3 件已完成的误报为"必做",Codex 之前预言过这个盲区——"Claude 容易把设计文档当成还没实现"。
真实工作量约 5-9 天(16 项 x 0.3-0.5 天 + 6 项半成品剩余)。
工作线 1.1 · 预跑链路(展会现场观众真会看到的) 运维后端游戏引擎 必做 · 约 2 天
确保展会现场的擂台赛能稳定运行,不出假数据、不假死。
  • [#1 已修] 长测脚本不检查扑克计算器就运行 → 已加"发现问题立刻停"保护
  • [#3 要做] 一手牌过程中筹码数字不刷新 — 牌桌日志缺筹码数据 + 看板不更新
  • [#4 要做] AI 连续出错时的"自动保护开关"没有界面提示 — 没人订阅这个信号,UI 上啥也看不到
  • [#5 要做] NPC 跑分数据(benchmark.json)是手填的,没有自动生成工具,也没有"这数据从哪来的"记录
  • [#6 要做] 跑分工具只支持本地 AI 和我们的 AIDR,没接 OpenAI 作为第四组对照
  • [#14 已修] 推代码时自动提醒部署(通过 git 钩子实现,改了网页文件就提示你部署)
工作线 1.2 · 网页看板诚信 前端产品 #15 已做! 改文案即可
  • [#15 已修] 网页上"样本量不够时不显示得分"的保护已经做了(之前误报)
  • 剩: 三个阵营的介绍文案要跟实际能力对齐(产品文案级工作,约 0.5 天)
  • 不能说"派生信息提升了 X%"—— 18 题样本太小,统计上不显著
工作线 1.3 · NPC 打牌质量 AI/大模型测试 必做 · 约 2-3 天
让 AI 扑克 NPC 打得更像真人,展会上不丢人。
  • 把 AI 从"快速回答"切到"深度思考"模式(推理更准但更慢) + 验证切换后 NPC 嘴上不漏手牌
  • [#8 半成品] 老周的策略文件已经有心态边界和翻牌后规则,但几道具体跑偏的题还没微调
  • [#11 要做] 用 18 题测试当"每夜回归基线"— 分数掉到 8/18 以下自动报警,防止改了提示词后 NPC 无声退步
  • [#21 要做] 5 个故事 NPC 的 AI 模型过期了(策略文件比打包好的模型新) → 要重新打包(bake = 把人设烘焙进本地 AI 模型)
  • 复盘: 这轮做完后总结"给 AI 什么信息 + 怎么设人设"的通用经验,反哺插件
工作线 1.4 · 预跑攒数据 运维产品 必做 · 约 3 天(机器跑,不占人)
让三个阵营的 AI 真打一批牌,用真实结果生成跑分数据。
  • 三个阵营同时跑 18 题: AIDR烘焙版(深度思考) / 裸 AI 对照 / 最优策略对照
  • 跑分数据从这批结果自动生成,附带"谁在什么时候用什么命令跑的"记录
  • 长测脚本连跑 N 手(电脑不休眠 + 崩了 5 秒自动重启)
工作线 1.5 · 冻结 + 彩排 产品前端运维 必做 · 1 天 + 留 2-3 天缓冲
展会前从头到尾走一遍完整流程,确保没有空白和报错。
  • 端到端彩排: 打开网页 → 看三阵营 9 人桌结果 → 分数条/延迟/摊牌 → 没空没错
  • 部署同步检查通过(本地代码 = 线上代码)
  • 展会前留最后 3 天做缓冲
之前 Claude 报错、实际已经做完的 3 件(代码验证确认): #9 扑克计算器的标准答案测试(已有 31/31 全过) · #10 前端条宽回归测试接入提交关卡(已是第四件) · #15 网页样本量保护(代码里已实现)
工作线 1.6 · 卖点和获客(展会后再做) 产品 不急 · 暂不做
  • 三档话术(30秒 / 2分钟 / 围观字幕)展会后准备
  • 愿望单 / Discord / 邮件留存 — 等你定要不要做
项目 2 · AIDR 插件(核心产品) 持续迭代 · 7 个子系统 持续 · 展会是展示窗口 大部分展会后做
2.1 · 欢迎页 / 新手引导 交互测试 重要 · 真机没验过
welcome_page.gd 1002 行, 4 步引导(检测环境 → 拉模型 → 烘焙 NPC → 试玩), 需要在 Godot 编辑器里真走一遍验证
2.2 · 主编辑面板 & NPC 编辑 交互前端架构 重要 · 文件太大需要拆分
  • copilot_window_v2.gd 1255 行 · 管: 角色设定/策略编辑/字段组件/AI助手/完成度
  • 出错时只在底部状态栏闪一下 → 应该有醒目的错误面板 + 一键复制诊断信息
  • 有些字段没有编辑控件(策略里的高级字段直接跳过了)
  • 某些字段的 JSON 解析失败了但不报错, 数据默默丢了
2.3 · 沙盒(编辑器内试 NPC) 交互测试 重要 · 真机没验过
sandbox_tab.gd 478 行 + sandbox_llm_bar.gd 709 行, 在编辑器里试聊+试决策 → 4 个验收点(选NPC/输入/看结果/看报错)都没在真机跑过
2.4 · 烘焙(把人设打包成本地 AI 模型) AI/大模型测试 重要 · 5 个 NPC 模型过期
  • bake_prompt.gd / bake_runner.gd · 生成 Ollama Modelfile 然后打包
  • 5 个故事 NPC 的策略文件(6月11日改的)比打包好的模型(5月30日)新 → 模型是旧的
  • 启动时检查本地有没有需要的模型(对账功能)
2.5 · 游戏世界编辑器 交互安全 必做 · 数据安全问题
game_world_editor.gd:253 保存规则文件时没有备份保护 — NPC 的 JSON 文件保存前会先备份(SafeWrite),但游戏世界的规则文件没有这个保护,写坏了就丢了
2.6 · AI 服务管理 AI/大模型 项目1 的扑克经验反哺这里
  • 支持 3 家 AI 服务: Ollama(本地免费) / OpenAI(云端付费) / Claude(云端付费)
  • OpenAI 密钥检查太晚(现在是第一次调用才报错,应该启动时就检查+提示)
  • AI 连续出错时的"自动保护开关"触发了但 UI 上啥也看不到 + 3 个定义了但没人用的事件信号
  • 从擂台赛总结"给 AI 什么信息 + 怎么写人设"的通用模式 → 写进插件最佳实践
2.7 · 运行时集成(游戏接入 AIDR) 后端游戏引擎 重要 · 文档和代码对不上
  • aidr_npc.gd 498 行 · 游戏通过"信号"(Godot 的事件通知机制)跟 AIDR 通信
  • 3 个信号定义了但没有消费者(aidr_failed / aidr_config_reloaded / aidr_state_changed)
  • 文档 SCHEMA_V2.md 写的例子和实际代码能接受的值对不上
  • 代码注释还写着"版本 2.0"但实际已经是 2.1
11 个部门 = 11 顶帽子: 3 个人轮着戴,不是真有 11 个团队。来自行业标准(SaaS 6-8 职能 + Team Topologies 团队分类理论)。小团队不需要层级管理,部门只是"确保每件事有人管"的清单。
1. 产品 / 项目管理直接做产品
管什么:路线图 · 卖点 · 彩排 · 优先级 · 扫除障碍
自动化:状态报告 · 站会 · 容量估算 · 收工检查清单
欠什么:展会主路径没定 · 彩排没排日程 · STATUS.md 28 天没更新
2. 全栈工程直接做产品
管什么:擂台赛网页 · 运营看板 · 跑分网页 · 看板后端 · Cloudflare 部署
自动化:代码审查 · 前端条宽回归测试 · 系统设计
欠什么:动画库 gsap 没降级方案 · 筹码不刷新 · 推送静默 · 网页诚信
3. 游戏引擎需要专业知识
管什么:Godot 牌桌引擎 · AI 适配器(连接引擎和 AI 的桥梁) · 运行时 · 扑克计算器 · 结算
自动化:调试工具 · 冒烟测试(快速自动检查基本功能)
欠什么:4 个超大文件(最大 2004 行,做太多事需要拆) · raise 越界 bug · 部分数据读不到 · 节点路径硬编码
4. AI / 大模型提供基础工具
管什么:3 家 AI 服务的统一接口 · 烘焙(把人设打包成模型) · 提示词 · 思考模式 · 防泄露 · 流量控制
自动化:扑克泄露量化测试脚本
欠什么:"深度思考"模式的防泄露还没实测 · 没有每日回归基线 · 5 个 NPC 模型过期 · 3 个孤儿信号
5. 运维 / 基础设施提供基础工具
管什么:部署 · 持续集成(CI, 代码提交后自动跑测试) · 长测 · 防休眠 · Cloudflare 托管
自动化:部署检查清单 · 操作手册 · 部署同步检查
欠什么:已验CI 只有 1 个自动流程(只打包不跑测试) + 没打过版本标签(tag), 质量检查全靠本地提交关卡 · 展会现场操作手册没写 · 扑克计算器默认走简化算法(不是真计算)
6. 测试 / 质量辅助支持
管什么:冒烟测试(快速检查) · 验收关卡 · 真机验证 · 标准答案测试 · 提交关卡
自动化:测试策略 · 验证工具 · 提交关卡 4 件 Python+JS 检查
欠什么:136 项真机验收大部分没跑 · 已验38 项 Godot 快速检查全过但不在提交关卡里(是手动跑的) · 已验扑克计算器标准答案 31/31 全过 · raise 越界测试缺 · 17 套验收套件大多没运行
7. 美术专业手艺
管什么:四人桌 demo 美术 · 插件界面美术 · 角色立绘 / 字体
自动化:无(远程美术合作)
欠什么:已验目前 80 张 png(3 套鸟造型 + 17 张角色) · 牌桌 UI 画了 4 个座位但引擎支持 9 个(5-8 号座位静默跳过) · NPC 头像还是占位图 · 插件界面美化(展会后) · 九人桌美术不做(你已确认)
8. 交互 / 用户体验专业手艺
管什么:编辑器面板体验 · 牌桌可视化 · 新手引导 4 步 · 信息层级 · 设计规范
自动化:预览截图工具
欠什么:出错只在底部状态栏闪一下 · 部分字段没有编辑控件 · 真机验收第三层全空白
9. 安全辅助支持
管什么:密钥管理 · API Key · 数据安全(写文件前先备份) · 合规
自动化:风险评估 · 安全审查 · 合规追踪
欠什么:playtest 分支有明文 OpenAI Key(展会后抹历史) · 没有密钥扫描 · 已验写文件前备份保护只覆盖了 3/7 = 43% 的写入点 · 4 处直接写文件没备份: game_world_editor:253 + game_panel_window:890/1270/1883
10. 架构 / 技术债辅助支持
管什么:跨系统设计 · 重构 · 拆分超大文件 · 行数红线(600 行警觉, 1000 行必拆)
自动化:架构决策记录(ADR) · 技术债追踪 · 系统设计
欠什么:4 个超大文件(牌桌 2004 行 / 面板 2010 行 / 编辑器 1255 行 / 欢迎页 1002 行) · 跑分工具 1860 行(超红线 3 倍)
11. 复盘改进辅助支持
管什么:事后分析 · 踩坑表(已知 12 个坑, 防重踩) · 流程优化 · 变更流程
自动化:流程优化 · 事件响应 · 文档管理
欠什么:已验踩坑表 12 条, 快速检查覆盖了其中 5 条 · 有 5 条没自动覆盖(需要真机才能验) · 架构决策记录台账登到 0023(之前误写 0024, 实际不存在) · STATUS.md 28 天没更新 · 多份主文档过时
技术欠债 = 知道要做但现在先欠着。展会前只处理跟展会成功直接相关的; 其余展会后还。
展会前必须还的债(跟展会成功直接相关)
  • 预跑链路 5 件(扑克计算器标签/AI出错静默/跑分旧数据/推送/筹码不刷) → 运维 + 后端
  • 网页看板的"样本量保护"文案 → 前端
  • 游戏世界编辑器写文件没备份 → 安全 · 用户数据可能丢
  • AI 切"深度思考"模式 + 重新跑防泄露测试 → AI/大模型
  • 136 项真机验收大部分没跑(需要你在 Godot 里真走一遍) → 交互 + 测试
展会后再还的债(代码分支解冻后)
  • playtest 分支的明文 OpenAI Key 抹掉 + 换新 Key → 安全
  • 两个分支合并(playtest → game-integration 再 → main, 31 个文件有冲突) → 架构
  • 4 个超大文件拆分(每个都超 1000 行,做太多事) → 架构
  • 插件出错体验优化 + 缺失的字段控件 + JSON 解析失败不报错 → 交互
  • 3 个孤儿信号 + 文档过时 + 注释版本号错 → AI/大模型
  • 5 个故事 NPC 模型过期, 要重新烘焙 → AI/大模型
  • 架构决策记录补登 0019-0023 + STATUS.md 更新 + 5 份文档过时 → 复盘
  • 跑分数据自动生成工具 → 运维 + 全栈
  • 扑克题库从 18 题扩到 50 题 + 给 AI 的信息补全 3 个维度 → AI/大模型
  • 九人桌 UI/美术(你已确认不做) → 美术(降级)
数据从哪来的 — 这个看板上的数字不是拍脑袋写的,下面是 3 份证据来源(本轮 2026-06-19 跑出)。v09 时用户问"看板里的数字都是真的吗?"发现有 15% 编造,之后每个数字都标了"已验/未验"。
证据 1 · 行业标准调研(部门怎么分)
103 个 AI agent 并行搜索 · 21 个信源 · 82 条事实声明 · 23 条确认 · 2 条推翻
推翻了什么: 网上流传的"游戏团队 7 部门"(投票 1-2 否) · 网上说的"美术占 30-50%"(1-2 否)
确认了什么: 游戏公司 5-6 个职能 · SaaS 6-8 个职能 · Team Topologies 4 种团队 · 矩阵管理不适合小团队
来源: teamtopologies.com · sacks.substack.com · launchdarkly.com
存档: Documentation/audits/2026-06-19-arena-step2/dept-taxonomy-research.json
证据 2 · Claude 7 部门分析
25 件待做 · 17.85 / 27 人日 · 5 个里程碑 · 6 个决策点
优点: 覆盖认知+部署+诚信+数据+预跑 5 层, 想得全
Codex 审查发现的问题: Claude 倾向"过度投入流程管理,忽视评委真正看到的东西"(看板自己写的行数比真干活多 + 17 套测试漏了)
存档: Documentation/audits/2026-06-19-arena-step2/claude-7dept.json
证据 3 · Codex 独立审查(用代码 grep 逐条验证)
用代码搜索验证: 25 件逐条对比代码, 给出 5-8 天工作量估算(比 Claude 的 27 天准)
展会现场真出问题的 top 5: 扑克计算器标签假冒 / AI 出错静默 / 跑分是旧数据 / 推送不工作 / 筹码数字不对
预言 Claude 的盲区: "Claude 容易把设计文档当成已经实现的功能" → 已经第 3 次应验
存档: Documentation/audits/2026-06-19-arena-step2/codex-independent.txt
证据 4 · Codex v11 审查(本次)
读本地文件逐条 grep 验证: 16 项数字核实(10 项验证通过 · 3 项未验证 · 3 项发现错误)
发现的错误: pre-push hook 状态自相矛盾(一处写"已完成"一处写"缺失") · ADR 写了 0024 但实际只到 0023 · NPC 过期天数不精确
建议: 决策表加"谁跟进"和"不拍的后果"栏 · 截止日期用绝对日期 · 删掉未验证的进度数字
审查 ID: task-mqlw4759-aes5a6 · 耗时 4 分 31 秒