OPS · 内部运营看板 v11

3 人小团队 · 项目+部门双轴 · Codex 已审

内部 · v21 项目1 改 P0-P3 + dept/debt/meta 折叠 (Codex 对抗审过)
倒计时 — 天 代码分支 冻结中,展会后再合并 提交检查关卡 4 项自动检查通过才能提交 v11 · 术语中文化 · Codex 审查通过
本次更新 · 25e · 6/25 P0-D 18 题 Claude 重测代码就绪: 加 ClaudeSubject 走 claude -p subprocess + Claude Code 配额 (不掏 API key, 跟 arena bridge 同源). Smoke 1 题通 (老周 TAG / Opus 4.7 / latency 7.2s). 套娃 bug 已修 (--safe-mode --tools "" --setting-sources "" 防子进程跑成 num_turns=10)。用户拍板: Opus 4.7 / 跑 1 轮 / NPC=老周 / 强制 reasoning。下一步: 启动 36 调用 ≈ 5-8 分钟 → P0-E 替换 benchmark.json 一起部署。
近几次: 25d P0-A 6 人桌 · 25a 文件桥架构 · 14b 18 题 71 分 · 派生信息 5 模块全收尾
执行摘要 5秒读懂
项目详情
部门职责
技术欠债
审计记录
进度
绿灯 · 来得及
4/6 P0 任务铺好, 剩 ~4-6 天
范围
绿灯 · 收窄
9 → 6 人桌 (移除 3 GTO), AIDR vs 原生 故事更清晰
风险
黄灯 · 在处理
bridge 3 小时长跑未跑 + 18 题待用 Claude 重做
距 FullIndie 展会
— 天
当前焦点
P0-A · 6 人桌切换
改 roster.json + 验证 dashboard 不写死 9
P0-P3 任务进度
1/6 (P2-F ops 完成)
已拍板决策 (锁)
决策 结论 状态
展会形式 两条线: playtest 4 人桌 + GI arena 6 人桌网页直播 已定
擂台模型 qwen3:14b baked + think-ON (新派生 51 字段烤进了) 已切
6 LLM 座可选 Claude AIDR_USE_BRIDGE=1 走文件桥, 用 Claude Code 配额 (不掏 anthropic 单价)
展会电脑 就这台 (扑克 solver 已装) 已解决
六关键指标
PRINCE2
时间 7.7 前能完
范围 6 人桌已锁
质量 commit 自动 4 检
风险 长跑未跑
成本 3 人内部
收益 行业认识 AIDR
这一页是 5 秒概要。细节看 tab: 项目详情 (P0-P3 任务 + AIDR 插件 7 子系统) · 部门职责 (11 部门各管什么) · 技术欠债 (展会后还的债) · 审计记录 (数据从哪来)
状态: ● 已做 · ● 进行中 · ● 待做 · ● 展会后再说 · 部门标签: 产品 前端 后端 游戏引擎 AI/大模型 运维 测试 美术 交互 安全 架构 复盘
项目 1 · FullIndie 参展 预跑 + 网页展示 · 主责: 产品 截止 7.7 (12 天) 进行中
6/25 范围重排 · 旧 6 工作线(1.1-1.6) → 新 6 项 P0-P3 任务(A-F) + 新增 G. 旧编号在每张卡里追踪。 已完成: P2-F ops 简化 (本次) · 进行中: P0-A 6 人桌切换 · 展会后: 旧 1.1 #6 OpenAI 对照 / 旧 1.3 #21 故事 NPC / 旧 1.6 全部 (进 "技术欠债" tab)
P0-A · 6 人桌切换 (新决定 6/25) 游戏引擎前端 必做 · 半天
9 人桌 → 6 人桌, 移除 3 GTO 席, 保留 3 原生 + 3 AIDR. AIDR vs 原生 故事更清晰.
  • 状态: 代码全部改完 ✓ 6/25 (Codex 影响审 + ADR-0025 拍板, m13 smoke 18/18 全过, 插件 smoke 38/38 全过)
  • 已做: ADR-0025 + ADR-0021 superseded 标 / roster.json 6-max B1+B2 / table.gd:526 max_seats 读 roster / m13 期望更新 / m12 rename 为 engine_seats_2_to_9 / web app.js teamOf+strings.js 6-max / benchmark.html+js 删 GTO / CLAUDE.md+STATUS.md 同步
  • 下一步: 等 P0-D 数据齐了一起部署 web/arena (避免半状态)
P0-D · 重做 18 题 + NPC 质量回归 (含旧 1.3 #8 #11) AI/大模型测试 必做 · 1 天
arena 实战用 Claude → benchmark 也用 Claude 跑, 不被怼 "实战/跑分不一致". 同时验证 NPC 真打牌质量 (老周不再太松).
  • 状态: 代码就绪, 待跑数据 ✓ 6/25. ClaudeSubject 加进 run_playmode_benchmark.py:1621-1748 (+201 行, 走 claude -p subprocess 配额, 不掏 key). CLI: --use-claude both --claude-model claude-opus-4-7 --claude-npc poker_zhou. Smoke 1 题通 (action/raise_to/reasoning 抽到, latency 7.2s). 套娃 bug 已修 (--safe-mode --tools "" --setting-sources "" 三 flag 防子进程跑成 num_turns=10)
  • 下一步: 用户启动 36 调用 (18 题 × native+aidr 双主体) ≈ 5-8 分钟. ADR-0025 后只跑 native_claude + aidr_claude 两家 (GTO 已砍)
  • 注意: 跑 benchmark 时别同时让 Claude Code 干别的耗配额事. think_chain 永空 (Claude CLI 不暴露思考链, reasoning 字段代替). 跑完前抽 3-5 题人眼扫 reasoning 不是乱编再进 P0-E
  • 用户拍板: Model=Opus 4.7 / 跑 1 轮看分布 / NPC=老周 poker_zhou TAG (跟 14b baseline 一致) / 强制 reasoning 字段
  • 覆盖旧项: 1.3 #8 老周打太松 (派生信息已修, 由 18 题验证); 1.3 #11 18 题作为回归基线; 1.4 三阵营→2 阵营 (ADR-0025)
P0-E · arena 网站数据替换 + 三阵营文案对齐 (含旧 1.2) 前端产品 必做 · 半天
P0-D 跑完, 用新数据替换 web/arena/benchmark.json + benchmark.html. 顺手把三阵营介绍文案对齐到实际能力.
  • 状态: 待 P0-D 数据
  • 下一步: 替换 benchmark.json (native/aidr/gto 三家 + 18 题逐题) + benchmark.html/.js 字段适配 + 部署 + deploy-fresh 验证
  • 阻塞: 没有新数据就不能说 AIDR 当前真实表现
  • 覆盖旧项: 1.2 #15 样本量保护 ✓ (已完成); 1.2 统计口径 ✓; 1.2 三阵营文案对齐 ⏳; 1.4 跑分自动生成
  • 纪律: 网页上不能说 "派生信息提升 X%" (18 题样本小, 统计上不显著. 见 dept "统计纪律")
P1-B · bridge timeout 修 + 3 小时实测 + 冻结彩排 (含旧 1.5) 游戏引擎运维 必做 · 3-5 天 (含彩排)
arena 实测发现 60s timeout 太短, 第一两个决策 fallback fold. 改 240s + 真 3 小时跑 + 端到端冻结彩排.
  • 状态: smoke 1 通过 (6 agent 文件桥端到端). 60→240s 一行改完待跑长测
  • 下一步: 改 BridgeProvider poll_timeout_sec; 跑 3 小时 supervisor + arena longrun; 端到端彩排
  • 阻塞: Pro 5h 配额窗口可能吃紧, Max 充裕
  • 覆盖旧项: 1.5 端到端彩排; 1.5 部署同步检查 (已有 hook); 1.5 留 3 天缓冲; 1.4 长测脚本
P2-F · ops 简化 ✓ 已完成 (6/25 本次) 前端产品 已完成
  • 5 tab 保留, 内容简化排版重写 (项目 2 AIDR 插件字节级不动)
  • exec 砍冗余, 留三灯/倒计时/决策表/六指标/深挖入口
  • 项目 1 旧 1.1-1.6 → 新 P0-P3 + 旧编号追踪 + 未覆盖项明确分流到 debt/dept
P3-C · 回放功能 (时间够才做) 前端 锦上添花 · 半天到一天
JSONL 录像已全程录, 做个网页 player 按手翻看 + 每决策展示推理.
  • 状态: 待 P0/P1 全清才动
  • 下一步: 写网页 player UI 读 ~/Library/.../replays/session_*.jsonl
  • 覆盖旧项: 无 (新功能, 旧没规划)
P3-G · 18 题每夜回归基线 (展会后) 测试运维 展会后 · 0.5 天
分数掉到 8/18 以下自动报警, 防 NPC 改提示词后无声退步.
  • 状态: 旧 1.3 #11 分出, 展会后做
  • 覆盖旧项: 1.3 #11 18 题作为每夜回归基线
📁 旧 1.1-1.5 已完成的 12 项 (审计血统留底; 数据进 meta tab)
1.1 预跑链路: #1 长测停机保护 ✓ · #3 筹码刷新 ✓ · #4 自动保护开关界面 ✓ · #5 跑分自动生成 ✓ · #14 部署提醒 ✓
1.2 网页诚信: #15 样本量保护 ✓ · 统计口径修 ✓ · 1086 倍下注钉死 ✓ · 跟注式全下不算加注 ✓ · 摊牌率改"看到翻牌"分母 ✓
1.3 NPC 质量: 擂台已切 think-ON 6/22 ✓ · 派生信息 5 模块体系 ✓ (ADR-0024 收尾)
项目 2 · AIDR 插件(核心产品) 持续迭代 · 7 个子系统 持续 · 展会是展示窗口 大部分展会后做
2.1 · 欢迎页 / 新手引导 交互测试 重要 · 真机没验过
welcome_page.gd 1002 行, 4 步引导(检测环境 → 拉模型 → 烘焙 NPC → 试玩), 需要在 Godot 编辑器里真走一遍验证
2.2 · 主编辑面板 & NPC 编辑 交互前端架构 重要 · 文件太大需要拆分
  • copilot_window_v2.gd 1255 行 · 管: 角色设定/策略编辑/字段组件/AI助手/完成度
  • 出错时只在底部状态栏闪一下 → 应该有醒目的错误面板 + 一键复制诊断信息
  • 有些字段没有编辑控件(策略里的高级字段直接跳过了)
  • 某些字段的 JSON 解析失败了但不报错, 数据默默丢了
2.3 · 沙盒(编辑器内试 NPC) 交互测试 重要 · 真机没验过
sandbox_tab.gd 478 行 + sandbox_llm_bar.gd 709 行, 在编辑器里试聊+试决策 → 4 个验收点(选NPC/输入/看结果/看报错)都没在真机跑过
2.4 · 烘焙(把人设打包成本地 AI 模型) AI/大模型测试 重要 · 5 个 NPC 模型过期
  • bake_prompt.gd / bake_runner.gd · 生成 Ollama Modelfile 然后打包
  • 5 个故事 NPC 的策略文件(6月11日改的)比打包好的模型(5月30日)新 → 模型是旧的
  • 启动时检查本地有没有需要的模型(对账功能)
2.5 · 游戏世界编辑器 交互安全 必做 · 数据安全问题
game_world_editor.gd:253 保存规则文件时没有备份保护 — NPC 的 JSON 文件保存前会先备份(SafeWrite),但游戏世界的规则文件没有这个保护,写坏了就丢了
2.6 · AI 服务管理 AI/大模型 项目1 的扑克经验反哺这里
  • 支持 3 家 AI 服务: Ollama(本地免费) / OpenAI(云端付费) / Claude(云端付费)
  • OpenAI 密钥检查太晚(现在是第一次调用才报错,应该启动时就检查+提示)
  • 已修AI "自动保护开关"现在 UI 有提示(警报横幅+feed) · 仍剩 3 个定义了但没人用的事件信号(aidr_failed/config_reloaded/state_changed)
  • 从擂台赛总结"给 AI 什么信息 + 怎么写人设"的通用模式 → 写进插件最佳实践
2.7 · 运行时集成(游戏接入 AIDR) 后端游戏引擎 重要 · 文档和代码对不上
  • aidr_npc.gd 498 行 · 游戏通过"信号"(Godot 的事件通知机制)跟 AIDR 通信
  • 3 个信号定义了但没有消费者(aidr_failed / aidr_config_reloaded / aidr_state_changed)
  • 文档 SCHEMA_V2.md 写的例子和实际代码能接受的值对不上
  • 代码注释还写着"版本 2.0"但实际已经是 2.1
11 个部门 = 11 顶帽子: 3 个人轮着戴,不是真有 11 个团队。来自行业标准(SaaS 6-8 职能 + Team Topologies 团队分类理论)。小团队不需要层级管理,部门只是"确保每件事有人管"的清单。
1. 产品 / 项目管理直接做产品
管什么:路线图 · 卖点 · 彩排 · 优先级 · 扫除障碍
自动化:状态报告 · 站会 · 容量估算 · 收工检查清单
欠什么:展会主路径没定 · 彩排没排日程 · STATUS.md 28 天没更新
2. 全栈工程直接做产品
管什么:擂台赛网页 · 运营看板 · 跑分网页 · 看板后端 · Cloudflare 部署
自动化:代码审查 · 前端条宽回归测试 · 看板口径回归(test_arena_caliber) · 系统设计
欠什么:动画库 gsap 没降级方案 · 已修筹码实时刷新 · 推送提醒 · 网页统计口径(剩三阵营文案对齐)
3. 游戏引擎需要专业知识
管什么:Godot 牌桌引擎 · AI 适配器(连接引擎和 AI 的桥梁) · 运行时 · 扑克计算器 · 结算
自动化:调试工具 · 冒烟测试(快速自动检查基本功能)
欠什么:4 个超大文件(最大 2004 行,做太多事需要拆) · raise 越界 bug · 部分数据读不到 · 节点路径硬编码
4. AI / 大模型提供基础工具
管什么:3 家 AI 服务的统一接口 · 烘焙(把人设打包成模型) · 提示词 · 思考模式 · 防泄露 · 流量控制
自动化:扑克泄露量化测试脚本
欠什么:"深度思考"模式的防泄露还没实测 · 没有每日回归基线 · 5 个 NPC 模型过期 · 3 个孤儿信号
5. 运维 / 基础设施提供基础工具
管什么:部署 · 持续集成(CI, 代码提交后自动跑测试) · 长测 · 防休眠 · Cloudflare 托管
自动化:部署检查清单 · 操作手册 · 部署同步检查
欠什么:已验CI 只有 1 个自动流程(只打包不跑测试) + 没打过版本标签(tag), 质量检查全靠本地提交关卡 · 展会现场操作手册没写 · 扑克计算器默认走简化算法(不是真计算)
6. 测试 / 质量辅助支持
管什么:冒烟测试(快速检查) · 验收关卡 · 真机验证 · 标准答案测试 · 提交关卡
自动化:测试策略 · 验证工具 · 提交关卡 4 件 Python+JS 检查 · 看板口径回归 test_arena_caliber(bb100/全下/to_bb/活栈/WTSD)
欠什么:136 项真机验收大部分没跑 · 已验38 项 Godot 快速检查全过但不在提交关卡里(是手动跑的) · 已验扑克计算器标准答案 31/31 全过 · raise 越界测试缺 · 17 套验收套件大多没运行
7. 美术专业手艺
管什么:四人桌 demo 美术 · 插件界面美术 · 角色立绘 / 字体
自动化:无(远程美术合作)
欠什么:已验目前 80 张 png(3 套鸟造型 + 17 张角色) · 牌桌 UI 画了 4 个座位但引擎支持 9 个(5-8 号座位静默跳过) · NPC 头像还是占位图 · 插件界面美化(展会后) · 九人桌美术不做(你已确认)
8. 交互 / 用户体验专业手艺
管什么:编辑器面板体验 · 牌桌可视化 · 新手引导 4 步 · 信息层级 · 设计规范
自动化:预览截图工具
欠什么:出错只在底部状态栏闪一下 · 部分字段没有编辑控件 · 真机验收第三层全空白
9. 安全辅助支持
管什么:密钥管理 · API Key · 数据安全(写文件前先备份) · 合规
自动化:风险评估 · 安全审查 · 合规追踪
欠什么:playtest 分支有明文 OpenAI Key(展会后抹历史) · 没有密钥扫描 · 已验写文件前备份保护只覆盖了 3/7 = 43% 的写入点 · 4 处直接写文件没备份: game_world_editor:253 + game_panel_window:890/1270/1883
10. 架构 / 技术债辅助支持
管什么:跨系统设计 · 重构 · 拆分超大文件 · 行数红线(600 行警觉, 1000 行必拆)
自动化:架构决策记录(ADR) · 技术债追踪 · 系统设计
欠什么:4 个超大文件(牌桌 2004 行 / 面板 2010 行 / 编辑器 1255 行 / 欢迎页 1002 行) · 跑分工具 1860 行(超红线 3 倍)
11. 复盘改进辅助支持
管什么:事后分析 · 踩坑表(已知 12 个坑, 防重踩) · 流程优化 · 变更流程
自动化:流程优化 · 事件响应 · 文档管理
欠什么:已验踩坑表 12 条, 快速检查覆盖了其中 5 条 · 有 5 条没自动覆盖(需要真机才能验) · 架构决策记录台账登到 0023(之前误写 0024, 实际不存在) · STATUS.md 28 天没更新 · 多份主文档过时
技术欠债 = 知道要做但现在先欠着。展会前只处理跟展会成功直接相关的; 其余展会后还。
展会前必须还的债(跟展会成功直接相关)
  • 预跑链路 剩 1 件(AI 出错静默没界面提示) → 后端; 其余 4 件已修: 计算器标签 · 跑分数据(连续评分+自动生成) · 推送提醒 · 筹码实时刷新
  • 网页三阵营介绍文案对齐 → 前端(样本量保护已做); 统计显示口径已修(下注尺寸/全下分类/摊牌率/bb100/GTO面板)
  • 游戏世界编辑器写文件没备份 → 安全 · 用户数据可能丢
  • ✅ 擂台已切"深度思考"(6/22) + 防泄露待多手实跑验 · AI/大模型
  • 136 项真机验收大部分没跑(需要你在 Godot 里真走一遍) → 交互 + 测试
展会后再还的债(代码分支解冻后)
  • playtest 分支的明文 OpenAI Key 抹掉 + 换新 Key → 安全
  • 两个分支合并(playtest → game-integration 再 → main, 31 个文件有冲突) → 架构
  • 4 个超大文件拆分(每个都超 1000 行,做太多事) → 架构
  • 插件出错体验优化 + 缺失的字段控件 + JSON 解析失败不报错 → 交互
  • 3 个孤儿信号 + 文档过时 + 注释版本号错 → AI/大模型
  • 5 个故事 NPC 模型过期, 要重新烘焙 → AI/大模型
  • 架构决策记录补登 0019-0023 + STATUS.md 更新 + 5 份文档过时 → 复盘
  • 跑分数据自动生成工具 → 运维 + 全栈
  • 扑克题库从 18 题扩到 50 题 + 给 AI 的信息补全 3 个维度 → AI/大模型
  • 九人桌 UI/美术(你已确认不做) → 美术(降级)
数据从哪来的 — 这个看板上的数字不是拍脑袋写的,下面是 3 份证据来源(本轮 2026-06-19 跑出)。v09 时用户问"看板里的数字都是真的吗?"发现有 15% 编造,之后每个数字都标了"已验/未验"。
证据 1 · 行业标准调研(部门怎么分)
103 个 AI agent 并行搜索 · 21 个信源 · 82 条事实声明 · 23 条确认 · 2 条推翻
推翻了什么: 网上流传的"游戏团队 7 部门"(投票 1-2 否) · 网上说的"美术占 30-50%"(1-2 否)
确认了什么: 游戏公司 5-6 个职能 · SaaS 6-8 个职能 · Team Topologies 4 种团队 · 矩阵管理不适合小团队
来源: teamtopologies.com · sacks.substack.com · launchdarkly.com
存档: Documentation/audits/2026-06-19-arena-step2/dept-taxonomy-research.json
证据 2 · Claude 7 部门分析
25 件待做 · 17.85 / 27 人日 · 5 个里程碑 · 6 个决策点
优点: 覆盖认知+部署+诚信+数据+预跑 5 层, 想得全
Codex 审查发现的问题: Claude 倾向"过度投入流程管理,忽视评委真正看到的东西"(看板自己写的行数比真干活多 + 17 套测试漏了)
存档: Documentation/audits/2026-06-19-arena-step2/claude-7dept.json
证据 3 · Codex 独立审查(用代码 grep 逐条验证)
用代码搜索验证: 25 件逐条对比代码, 给出 5-8 天工作量估算(比 Claude 的 27 天准)
展会现场真出问题的 top 5: 扑克计算器标签假冒 / AI 出错静默 / 跑分是旧数据 / 推送不工作 / 筹码数字不对
预言 Claude 的盲区: "Claude 容易把设计文档当成已经实现的功能" → 已经第 3 次应验
存档: Documentation/audits/2026-06-19-arena-step2/codex-independent.txt
证据 4 · Codex v11 审查(本次)
读本地文件逐条 grep 验证: 16 项数字核实(10 项验证通过 · 3 项未验证 · 3 项发现错误)
发现的错误: pre-push hook 状态自相矛盾(一处写"已完成"一处写"缺失") · ADR 写了 0024 但实际只到 0023 · NPC 过期天数不精确
建议: 决策表加"谁跟进"和"不拍的后果"栏 · 截止日期用绝对日期 · 删掉未验证的进度数字
审查 ID: task-mqlw4759-aes5a6 · 耗时 4 分 31 秒