AIDR

OPS · 内部运营看板 v40

3 人小团队 · 项目+部门双轴 · Codex 已审

阶段展会后维修期 · Arena 全线体检推进中 代码分支 已归一: main 单主干 (7/14 收口) 提交检查关卡 4 项自动检查通过才能提交 v40 · 30a 新版应用上线 · 7/18

本次更新 · 30a · 7/18 新版应用上线 新版 OPS 应用正式切换上线 → 点这里进入 /app。六批次全量交付: 目标环+甘特+看板拖拽(P0-P3)/关键决策(靶心·投票·六帽流程)/会议纪要/知识库/宣发·运营/财务(月度汇总)/协作收件箱+送审评审+留言/全局搜索/中英双语/三端适配。数据层 D1 (12 迁移+审计触发器+乐观锁), 预览站数据已整库搬迁, 本页(v39 静态看板)转为存档, 日常运营请用新版应用。

新版入口: aidr-ops.pages.dev/app · 预发环境: chipsai-ops-preview.pages.dev/app · 财务暂免密(黄条警示, 勿录真实敏感数据)

近几次更新

• 29y · 7/14 流程照镜批: process-auditor 首跑抓三洞(门禁错配/复核死管道/冻结文案) → 已机械化整改 + 每日 13 秒自动巡检 + ops 状态条矛盾修正 + 31 项体检清单落盘

• 29x · 7/14 对外诚信批: 二值口径统一(ops/arena/总账三处对齐) + 污染800手双语注解上线 + 直播灯真实性(内容签名驱动) + 三份结论数字一致性锁 + benchmark.json 脱敏 + arena 正式分支陷阱钉死(--branch=game-integration)

• 29w · 7/7 展会日 playtest 六修全过 + DeepSeek 定稿快速版 + 丽姐入池率复算 (16.6% 坐实, 归因后被 7/14 体检修正为"翻前大箩筐"事实层问题) + 直播页停跑态 + 二值口径首次上线

• 29v · 7/6 18 题总账改配对条形版 (五组 AIDR/原生双条 + GTO 天花板虚线 + 提升幅度直标) + 换账号交接清单落盘

• 29u · 7/6 18 题三基座总账表进看板擂台区 (Opus/DeepSeek/gpt-5.5 多轮复测, 派生层 +18~27% 三基座复现) + 页头版本号 5 处对齐

• 29t · 7/6 push 前终审 16 项全修 (走势图数值修复 + 人名清洗补漏 + 双语修正 + 死码 -230 行) + 全量 push + DeepSeek 分数修正 (复测 67-70 追平 Opus, 思考不加分) + gpt-5.5 上新尺 (派生层三基座复现)

• 29s · 7/6 发现并修 arena 原生侧 board 泄露 P0 (800 手对比数据待展会后拍处理) + DeepSeek 接入 playtest 真机验证通过 (23 决策 p50 1.6s) + benchmark 页大精简 (删设定线/兜底率卡/揭秘区, 角色名统一鸟名, 全站去模型名)

• 29r · 7/6 DeepSeek 现场选型: 18 题 aidr 61.3 分 / p50 2.7s (Opus 70 但 30s+, 32b 64 但 127s+), benchmark 脚本加 DeepSeek 通道

• 29q · 7/6 雷达图加角色设定标准线 (三条线: AIDR/原生/设定区间) + 全站 26 findings 整修 + Chart.js 本地化 (展会断网可用) + 雷达六边形放大

• 29p · 7/3 arena 800 手长测收官 (AIDR +982.4 BB · 0 illegal · fallback 1.8%) + hero 换净盈亏轴 (紧凶 1.69x / 松凶 4.81x / 跟注站少输 33.9x) + 熔断 banner stale 修

• 29o · 7/2 路线图独立页 roadmap.html 上线 + 11 顶部门帽评审就位, 只差三人戴六帽终审

• 29n · 7/2 路线图 v2.1 并入用户三条补充 (融资锚点天使尽快/seed 11月后 + "设计师≠玩家"纲领候选 + demo 题材 10 条标准三候选打分)

• 29m · 7/2 路线图详细版 v2 (3 agent 深读出任务级拆解 + 项目 3 卡片; 核实: 插件层零记忆/arena 已换 qwen3:14b/管线 65% 可复用)

• 29l · 7/2 展会后路线图提案 v1 占位 (三方向一页概要 + 7 决策清单)

• 29k · 6/30 benchmark 加第 6 区 AIDR 派生事实层揭秘 (原生 vs AIDR prompt 对比)

• 29j · 6/30 走势 chart 交互 4 件升级 (预设视图 chip + 双向 hover + 双击 solo + localStorage 记忆)

• 29i · 6/30 走势 chart 关闭 series 数据点圆点

• 29h · 6/30 走势 chart 单独占行 + 放大 (230→420) + hover 高亮 (cursor.focus 淡化其他线 + legend live 数字)

• 29g · 6/30 直播页走势改 8 线 + legend toggle (方案 C: 2 团队粗 + 6 角色细, 紧凶蓝/松凶粉/跟注站绿, AIDR 实/原生虚)

• 29f · 6/30 dashboard alert carry-over bug 修 (P1-B 末态熔断旗一直挂) + CLI OAuth login 成功 arena 真跑起来

• 29e · 6/30 直播页 2 个 bug 修 (renderFeed 空 action class 抛 DOMException + tick lastHash 顺序错 → 排行榜/雷达/走势永空)

• 29d · 6/29 雷达表格只 W$SD 一行高亮 + 删 reliability "AIDR 主动加注" 卡

• 29c · 6/29 benchmark 终极整改 5 件 (glossary 业内 winning 标准 / qwen 17 处全清 / 数据张冠李戴修 / 雷达表格 / emoji 全删)

• 29b · 6/29 benchmark 加名词与参考刻度区 — 第 3 区 6 折叠 accordion 默认开 VPIP, 公式+参考刻度+实测三件

• 29a · 6/29 P1-B 89 hand 数据同步直播页 (UI 0 改, 仅 push KV) — AIDR +160.8 vs 原生 -160.8 BB / bb/100 +59.6

• 28b · 6/29 benchmark 展会版 5 件整改 (i18n 漏 key + 性格 tag/等级 + 图片框 + 第 4 区 3 折叠 + lang toggle "EN/中")

• 28a · 6/29 benchmark 网站展会版上线 — product-validation 4 区设计 + 中文化 + 89 hand 数据上网

• 27c · 6/27 P1-B 10 小时长测 89 hand 大成功, 4 bug 全验通, fallback 4.7%, native 3 性格区分度 200×

• 27b · 6/27 supervisor.sh macOS perl alarm 兼容 (timeout 不支持) + 1200s 双保险

• 27a · 6/27 P1-B 4 修上车: workflow hand_end 驱动 + arena hand_end 提前 + supervisor 双保险 + bridge 240s timeout

执行摘要 5秒读懂

项目详情

部门职责

技术欠债

审计记录

进度

绿灯 · 来得及

4/6 P0 任务铺好, 剩 ~4-6 天

范围

绿灯 · 收窄

9 → 6 人桌 (移除 3 GTO), AIDR vs 原生故事更清晰

风险

黄灯 · 在处理

bridge 3 小时长跑未跑 + 规则/派生调研中

距 FullIndie 展会

— 天

当前焦点

benchmark 展会版上线 → 等彩排

网站观众视角 4 区已上 (29a), 下一步端到端冻结彩排

P0-P3 任务进度

4/6 (P0-A / P0-D / P0-E / P2-F 完成)

已拍板决策 (锁)

决策	结论	状态
展会形式	两条线: playtest 4 人桌 + GI arena 6 人桌网页直播	已定
擂台模型	qwen3:14b baked + think-ON (新派生 51 字段烤进了)	已切
6 LLM 座可选 Claude	AIDR_USE_BRIDGE=1 走文件桥, 用 Claude Code 配额 (不掏 anthropic 单价)	通
展会电脑	就这台 (扑克 solver 已装)	已解决

六关键指标

PRINCE2

时间 7.7 前能完

范围 6 人桌已锁

质量 commit 自动 4 检

风险 长跑未跑

成本 3 人内部

收益 行业认识 AIDR

这一页是 5 秒概要。细节看 tab: 项目详情 (P0-P3 任务 + AIDR 插件 7 子系统) · 部门职责 (11 部门各管什么) · 技术欠债 (展会后还的债) · 审计记录 (数据从哪来)

状态: ● 已做 · ● 进行中 · ● 待做 · ● 展会后再说 · 部门标签: 产品前端后端游戏引擎 AI/大模型运维测试美术交互安全架构复盘

项目 1 · FullIndie 参展预跑 + 网页展示 · 主责: 产品截止 7.7 进行中

6/25 范围重排 · 旧 6 工作线(1.1-1.6) → 新 6 项 P0-P3 任务(A-F) + 新增 G. 旧编号在每张卡里追踪。 已完成: P2-F ops 简化 (本次) · 进行中: P0-A 6 人桌切换 · 展会后: 旧 1.1 #6 OpenAI 对照 / 旧 1.3 #21 故事 NPC / 旧 1.6 全部 (进 "技术欠债" tab)

P0-A · 6 人桌切换 ✓ 游戏引擎前端完工 6/25

9 人桌 → 6 人桌, AIDR vs 原生故事更清晰 (ADR-0025).

P0-D · 18 题 Claude 重测 ✓ AI/大模型测试完工 6/25

90 调用跑完, AIDR (Opus + 老周) 70 分, 比烤 qwen3 高 6 分.

P0-E · benchmark 5 主体上线 ✓ 前端产品完工 6/26

aidr-arena.pages.dev/benchmark 已部署. 对外口径=二值对错率 (与页面逐题 ✓✗ 一致): GTO 78% · AIDR 72% · 原生 56%. 多基座连续分总账(研究用)见 benchmark-scores-18q.md.

18 题决策测验总账 · 四基座五组对照 (7/6) AI/大模型产品数据钉死 · 多轮复测

同一套 18 道扑克决策题;下表为研究用连续评分尺 (0-100), 对外口径已统一为二值对错率 (2026-07-14 拍板, 见上方链接页)。AIDR 派生信息层在四个基座五组对照里全赢原生 (+18% ~ 翻倍), 且基座越弱提升越大; 云端三家的 AIDR 侧全部挤在 68-70.5, 贴着 GTO 天花板 76 — 便宜模型加派生层 ≈ 顶级模型水平。

gpt-5.5各轮 AIDR 73·68 / 原生 62·57 · 约 13 秒每题+11 分 (+18%)

AIDR70.5

原生59.5

Claude Opus 4.7单轮 · 约 30 秒每题 (命令行路径)+14 分 (+25%)

AIDR70

原生56

DeepSeek 快速版 ⭐现场方案各轮 AIDR 68 / 原生 56·51 · AIDR 2.9 秒每题+15 分 (+28%)

AIDR68

原生53

DeepSeek 思考版各轮 AIDR 70·67 / 原生 54·44 · 约 14 秒每题+19.5 分 (+40%)

AIDR68.5

原生49

qwen3:32b 本地烤制单轮 (6/18) · 127 秒+每题+32 分 (翻倍)

AIDR64

原生32

条长 = 分数 (0-100 绝对刻度) · 紫色虚线 = GTO 天花板 76 (人类高手参考) · 绿 = AIDR 带派生层 · 橙 = 原生裸模型

思考模式不加分: AIDR 侧 68 对 70/67 (噪声内); 原生侧开思考反而略差 (54/44 对 56/51) — 缺的是事实不是推理深度, 这正是派生层的价值证明
基座越强增益越窄: 原生分 gpt-5.5 59.5 > Opus 56 > DeepSeek 53 > qwen 32, 但 AIDR 侧全收敛到 68-70.5 — 派生层把便宜模型拉到顶级水平
现场方案 = DeepSeek 快速版: 68 分追平 Opus + 2.9 秒/题 (真机 1.6 秒) + 思考版不比它强, 三重理由
下一步提分靶: 转牌河牌街 48-54 分 (每轮固定错同 5 题 = 派生层系统性缺口, 不是随机)
注: 18 题单轮波动 ±5 分, 结论都按多轮均值; 完整轮次明细与旧尺子历史 (二值口径) 见真源 Documentation/benchmark-scores-18q.md

P1-B · 10 小时长测 89 hand 大成功 ⭐⭐⭐ (6/27) 游戏引擎运维长测通过 · 展会可上

4 bug 全修后跑 10 小时长测: 89 手 / 1163 决策 / fallback 3.8% (vs 修前 60s idle break 时 hand 1 就 fallback). 平均 6.7 min/hand 稳定. native 3 性格真分化: LAG 60% raise vs Station 0.3% raise (区分度 200×). 完整 jsonl 归档 Documentation/audits/data/2026-06-27_p1b_longrun_89hands.jsonl

长测实测 (10 小时 89 hand): 1163 决策 / 44 fallback (3.8%) / 平均 6.7 min/hand. supervisor 1200s perl alarm 双保险触发 1 次 (hand 7 Anthropic 配额异常), 自动恢复后续 80+ hand 全正常
⭐ Native 3 性格真分化: TAG (seat 0) 15.6% raise · LAG (seat 2) 60.2% raise · Station (seat 4) 0.3% raise + 55.6% call. 区分度 200× ⭐ — Bug 3 修法 (按 SYSTEM persona 出招) 完美验证
⭐ AIDR 3 NPC raise 79 次: 阿凯 44 / 老周 25 / 丽姐 10. Codex 找的 args.raise_to 双写 contract 修对了 (之前会全丢)
Bug 1-4 修法清单: (1) SEATS 6-max (2) AIDR args.raise_to 双写 (3) native persona inline (4) hand_end 驱动 + 1200s 双保险 + supervisor 清旧 system.txt + arena hand_end 提前. 4 文件: workflow.js / supervisor.sh / holdem_poker_table.gd / ops
归档: Documentation/audits/data/2026-06-27_p1b_longrun_89hands.jsonl (2.6 MB) + supervisor.log
固化流程 ⭐: tools/arena_session.sh start/stop/status/analyze 一键 wrapper + Documentation/runbook/arena-bridge-longrun.md. 下次跑直接 arena_session.sh start, 不用手动 mkdir/rm/cp.
下一步: 展会前可上线. P2 nice-to-have (F3 强制新手 hand_end / FileAccess push_warning) 推到 post-expo. 端到端冻结彩排展会前 1-2 天再跑.

P2-F · ops 简化 ✓ 已完成 (6/25 本次) 前端产品已完成

5 tab 保留, 内容简化排版重写 (项目 2 AIDR 插件字节级不动)
exec 砍冗余, 留三灯/倒计时/决策表/六指标/深挖入口
项目 1 旧 1.1-1.6 → 新 P0-P3 + 旧编号追踪 + 未覆盖项明确分流到 debt/dept

P3-C · 回放功能 (时间够才做) 前端锦上添花 · 半天到一天

JSONL 录像已全程录, 做个网页 player 按手翻看 + 每决策展示推理.

状态: 待 P0/P1 全清才动
下一步: 写网页 player UI 读 ~/Library/.../replays/session_*.jsonl
覆盖旧项: 无 (新功能, 旧没规划)

P3-G · 18 题每夜回归基线 (展会后) 测试运维展会后 · 0.5 天

分数掉到 8/18 以下自动报警, 防 NPC 改提示词后无声退步.

状态: 旧 1.3 #11 分出, 展会后做
覆盖旧项: 1.3 #11 18 题作为每夜回归基线

📁 旧 1.1-1.5 已完成的 12 项 (审计血统留底; 数据进 meta tab)

1.1 预跑链路: #1 长测停机保护 ✓ · #3 筹码刷新 ✓ · #4 自动保护开关界面 ✓ · #5 跑分自动生成 ✓ · #14 部署提醒 ✓
1.2 网页诚信: #15 样本量保护 ✓ · 统计口径修 ✓ · 1086 倍下注钉死 ✓ · 跟注式全下不算加注 ✓ · 摊牌率改"看到翻牌"分母 ✓
1.3 NPC 质量: 擂台已切 think-ON 6/22 ✓ · 派生信息 5 模块体系 ✓ (ADR-0024 收尾)

项目 2 · AIDR 插件(核心产品) 持续迭代 · 7 个子系统持续 · 展会是展示窗口大部分展会后做

2.1 · 欢迎页 / 新手引导 交互测试重要 · 真机没验过

welcome_page.gd 1002 行, 4 步引导(检测环境 → 拉模型 → 烘焙 NPC → 试玩), 需要在 Godot 编辑器里真走一遍验证

2.2 · 主编辑面板 & NPC 编辑 交互前端架构重要 · 文件太大需要拆分

copilot_window_v2.gd 1255 行 · 管: 角色设定/策略编辑/字段组件/AI助手/完成度
出错时只在底部状态栏闪一下 → 应该有醒目的错误面板 + 一键复制诊断信息
有些字段没有编辑控件(策略里的高级字段直接跳过了)
某些字段的 JSON 解析失败了但不报错, 数据默默丢了

2.3 · 沙盒(编辑器内试 NPC) 交互测试重要 · 真机没验过

sandbox_tab.gd 478 行 + sandbox_llm_bar.gd 709 行, 在编辑器里试聊+试决策 → 4 个验收点(选NPC/输入/看结果/看报错)都没在真机跑过

2.4 · 烘焙(把人设打包成本地 AI 模型) AI/大模型测试重要 · 5 个 NPC 模型过期

bake_prompt.gd / bake_runner.gd · 生成 Ollama Modelfile 然后打包
5 个故事 NPC 的策略文件(6月11日改的)比打包好的模型(5月30日)新 → 模型是旧的
启动时检查本地有没有需要的模型(对账功能)

2.5 · 游戏世界编辑器 交互安全必做 · 数据安全问题

game_world_editor.gd:253 保存规则文件时没有备份保护 — NPC 的 JSON 文件保存前会先备份(SafeWrite),但游戏世界的规则文件没有这个保护,写坏了就丢了

2.6 · AI 服务管理 AI/大模型项目1 的扑克经验反哺这里

支持 3 家 AI 服务: Ollama(本地免费) / OpenAI(云端付费) / Claude(云端付费)
OpenAI 密钥检查太晚(现在是第一次调用才报错,应该启动时就检查+提示)
已修AI "自动保护开关"现在 UI 有提示(警报横幅+feed) · 仍剩 3 个定义了但没人用的事件信号(aidr_failed/config_reloaded/state_changed)
从擂台赛总结"给 AI 什么信息 + 怎么写人设"的通用模式 → 写进插件最佳实践

2.7 · 运行时集成(游戏接入 AIDR) 后端游戏引擎重要 · 文档和代码对不上

aidr_npc.gd 498 行 · 游戏通过"信号"(Godot 的事件通知机制)跟 AIDR 通信
3 个信号定义了但没有消费者(aidr_failed / aidr_config_reloaded / aidr_state_changed)
文档 SCHEMA_V2.md 写的例子和实际代码能接受的值对不上
代码注释还写着"版本 2.0"但实际已经是 2.1

项目 3 · 展会后路线图提案阶段 · 全文 + 帽子评审在独立页 roadmap.html 五步流程: 整理→部署→帽子评审→三人终审当前: 部门帽评审就位, 等三人戴六帽终审

→ roadmap.html · 展会后路线图评审版 — 路线图全文 + 11 顶部门帽评审意见 + 10 张决策卡（拍板栏留空），排版为长文阅读优化。三人直接对着它开六帽终审会。本卡只留一句话摘要。

一句话摘要详情全在 roadmap.html

方向 A 通用化: 合理 · 60% 雏形（插件层零记忆是真空缺）· 纲领候选「风格归设计师, 底线归插件」· 任务 A0-A7
方向 B 新手UX: 合理 · 清单现成（三个真窟窿钉死位置）· 任务 B1-B6 · 验收候选 = fresh-clone 不陪跑
方向 C 对比demo: 合理 · 管线复用约 65% · 题材 10 条标准打分卧底第一顺位 · 任务 C0-C7, 三人并行 1-2 周出第一条片
存量债 D1-D5 + 融资线 E1-E4: 天使尽快 / seed 11 月后 → 11 月前攒齐牵引力 + 第二 genre + 可用性三证据; E1 展会素材 7/7 当天归档
帽子评审 6 个最重发现: playtest 明文 key 债是 D1 引爆点（前置硬门）· 美术在路线图零任务（系统性盲区）· C7 社媒人力没闭合 · C 线代码在 commit 闸门外裸奔 · C0 要测"单模型多人设"形态 · 14b 藏不藏得住词是最大技术风险

11 个部门 = 11 顶帽子: 3 个人轮着戴,不是真有 11 个团队。来自行业标准(SaaS 6-8 职能 + Team Topologies 团队分类理论)。小团队不需要层级管理,部门只是"确保每件事有人管"的清单。

1. 产品 / 项目管理直接做产品

管什么:路线图 · 卖点 · 彩排 · 优先级 · 扫除障碍

自动化:状态报告 · 站会 · 容量估算 · 收工检查清单

欠什么:展会主路径没定 · 彩排没排日程 · STATUS.md 28 天没更新

2. 全栈工程直接做产品

管什么:擂台赛网页 · 运营看板 · 跑分网页 · 看板后端 · Cloudflare 部署

自动化:代码审查 · 前端条宽回归测试 · 看板口径回归(test_arena_caliber) · 系统设计

欠什么:动画库 gsap 没降级方案 · 已修筹码实时刷新 · 推送提醒 · 网页统计口径(剩三阵营文案对齐)

3. 游戏引擎需要专业知识

管什么:Godot 牌桌引擎 · AI 适配器(连接引擎和 AI 的桥梁) · 运行时 · 扑克计算器 · 结算

自动化:调试工具 · 冒烟测试(快速自动检查基本功能)

欠什么:4 个超大文件(最大 2004 行,做太多事需要拆) · raise 越界 bug · 部分数据读不到 · 节点路径硬编码

4. AI / 大模型提供基础工具

管什么:3 家 AI 服务的统一接口 · 烘焙(把人设打包成模型) · 提示词 · 思考模式 · 防泄露 · 流量控制

自动化:扑克泄露量化测试脚本

欠什么:"深度思考"模式的防泄露还没实测 · 没有每日回归基线 · 5 个 NPC 模型过期 · 3 个孤儿信号

5. 运维 / 基础设施提供基础工具

管什么:部署 · 持续集成(CI, 代码提交后自动跑测试) · 长测 · 防休眠 · Cloudflare 托管

自动化:部署检查清单 · 操作手册 · 部署同步检查

欠什么:已验CI 只有 1 个自动流程(只打包不跑测试) + 没打过版本标签(tag), 质量检查全靠本地提交关卡 · 展会现场操作手册没写 · 扑克计算器默认走简化算法(不是真计算)

6. 测试 / 质量辅助支持

管什么:冒烟测试(快速检查) · 验收关卡 · 真机验证 · 标准答案测试 · 提交关卡

自动化:测试策略 · 验证工具 · 提交关卡 4 件 Python+JS 检查 · 看板口径回归 test_arena_caliber(bb100/全下/to_bb/活栈/WTSD)

欠什么:136 项真机验收大部分没跑 · 已验38 项 Godot 快速检查全过但不在提交关卡里(是手动跑的) · 已验扑克计算器标准答案 31/31 全过 · raise 越界测试缺 · 17 套验收套件大多没运行

7. 美术专业手艺

管什么:四人桌 demo 美术 · 插件界面美术 · 角色立绘 / 字体

自动化:无(远程美术合作)

欠什么:已验目前 80 张 png(3 套鸟造型 + 17 张角色) · 牌桌 UI 画了 4 个座位但引擎支持 9 个(5-8 号座位静默跳过) · NPC 头像还是占位图 · 插件界面美化(展会后) · 九人桌美术不做(你已确认)

8. 交互 / 用户体验专业手艺

管什么:编辑器面板体验 · 牌桌可视化 · 新手引导 4 步 · 信息层级 · 设计规范

自动化:预览截图工具

欠什么:出错只在底部状态栏闪一下 · 部分字段没有编辑控件 · 真机验收第三层全空白

9. 安全辅助支持

管什么:密钥管理 · API Key · 数据安全(写文件前先备份) · 合规

自动化:风险评估 · 安全审查 · 合规追踪

欠什么:playtest 分支有明文 OpenAI Key(展会后抹历史) · 没有密钥扫描 · 已验写文件前备份保护只覆盖了 3/7 = 43% 的写入点 · 4 处直接写文件没备份: game_world_editor:253 + game_panel_window:890/1270/1883

10. 架构 / 技术债辅助支持

管什么:跨系统设计 · 重构 · 拆分超大文件 · 行数红线(600 行警觉, 1000 行必拆)

自动化:架构决策记录(ADR) · 技术债追踪 · 系统设计

欠什么:4 个超大文件(牌桌 2004 行 / 面板 2010 行 / 编辑器 1255 行 / 欢迎页 1002 行) · 跑分工具 1860 行(超红线 3 倍)

11. 复盘改进辅助支持

管什么:事后分析 · 踩坑表(已知 12 个坑, 防重踩) · 流程优化 · 变更流程

自动化:流程优化 · 事件响应 · 文档管理

欠什么:已验踩坑表 12 条, 快速检查覆盖了其中 5 条 · 有 5 条没自动覆盖(需要真机才能验) · 架构决策记录台账登到 0023(之前误写 0024, 实际不存在) · STATUS.md 28 天没更新 · 多份主文档过时

技术欠债 = 知道要做但现在先欠着。展会前只处理跟展会成功直接相关的; 其余展会后还。

展会前必须还的债(跟展会成功直接相关)

预跑链路剩 1 件(AI 出错静默没界面提示) → 后端; 其余 4 件已修: 计算器标签 · 跑分数据(连续评分+自动生成) · 推送提醒 · 筹码实时刷新
网页三阵营介绍文案对齐 → 前端(样本量保护已做); 统计显示口径已修(下注尺寸/全下分类/摊牌率/bb100/GTO面板)
游戏世界编辑器写文件没备份 → 安全 · 用户数据可能丢
✅ 擂台已切"深度思考"(6/22) + 防泄露待多手实跑验 · AI/大模型
136 项真机验收大部分没跑(需要你在 Godot 里真走一遍) → 交互 + 测试

展会后再还的债(代码分支解冻后)

playtest 分支的明文 OpenAI Key 抹掉 + 换新 Key → 安全
两个分支合并(playtest → game-integration 再 → main, 31 个文件有冲突) → 架构
4 个超大文件拆分(每个都超 1000 行,做太多事) → 架构
插件出错体验优化 + 缺失的字段控件 + JSON 解析失败不报错 → 交互
3 个孤儿信号 + 文档过时 + 注释版本号错 → AI/大模型
5 个故事 NPC 模型过期, 要重新烘焙 → AI/大模型
架构决策记录补登 0019-0023 + STATUS.md 更新 + 5 份文档过时 → 复盘
跑分数据自动生成工具 → 运维 + 全栈
扑克题库从 18 题扩到 50 题 + 给 AI 的信息补全 3 个维度 → AI/大模型
九人桌 UI/美术(你已确认不做) → 美术(降级)

数据从哪来的 — 这个看板上的数字不是拍脑袋写的,下面是 3 份证据来源(本轮 2026-06-19 跑出)。v09 时用户问"看板里的数字都是真的吗?"发现有 15% 编造,之后每个数字都标了"已验/未验"。

证据 1 · 行业标准调研(部门怎么分)

103 个 AI agent 并行搜索 · 21 个信源 · 82 条事实声明 · 23 条确认 · 2 条推翻

推翻了什么: 网上流传的"游戏团队 7 部门"(投票 1-2 否) · 网上说的"美术占 30-50%"(1-2 否)

确认了什么: 游戏公司 5-6 个职能 · SaaS 6-8 个职能 · Team Topologies 4 种团队 · 矩阵管理不适合小团队

来源: teamtopologies.com · sacks.substack.com · launchdarkly.com

存档: Documentation/audits/2026-06-19-arena-step2/dept-taxonomy-research.json

证据 2 · Claude 7 部门分析

25 件待做 · 17.85 / 27 人日 · 5 个里程碑 · 6 个决策点

优点: 覆盖认知+部署+诚信+数据+预跑 5 层, 想得全

Codex 审查发现的问题: Claude 倾向"过度投入流程管理,忽视评委真正看到的东西"(看板自己写的行数比真干活多 + 17 套测试漏了)

存档: Documentation/audits/2026-06-19-arena-step2/claude-7dept.json

证据 3 · Codex 独立审查(用代码 grep 逐条验证)

用代码搜索验证: 25 件逐条对比代码, 给出 5-8 天工作量估算(比 Claude 的 27 天准)

展会现场真出问题的 top 5: 扑克计算器标签假冒 / AI 出错静默 / 跑分是旧数据 / 推送不工作 / 筹码数字不对

预言 Claude 的盲区: "Claude 容易把设计文档当成已经实现的功能" → 已经第 3 次应验

存档: Documentation/audits/2026-06-19-arena-step2/codex-independent.txt

证据 4 · Codex v11 审查(本次)

读本地文件逐条 grep 验证: 16 项数字核实(10 项验证通过 · 3 项未验证 · 3 项发现错误)

发现的错误: pre-push hook 状态自相矛盾(一处写"已完成"一处写"缺失") · ADR 写了 0024 但实际只到 0023 · NPC 过期天数不精确

建议: 决策表加"谁跟进"和"不拍的后果"栏 · 截止日期用绝对日期 · 删掉未验证的进度数字

审查 ID: task-mqlw4759-aes5a6 · 耗时 4 分 31 秒