AIDR
展会后路线图 · 评审版
三方向 + 存量债 + 融资线 · 11 顶部门帽评审意见已就位 · 等三人戴六帽终审
← 返回 OPS 看板
流程 整理 ✓ → 部署 ✓ → 确认清单+帽子评审 ← 现在 → 三人戴六帽终审
融资锚点 天使尽快 · seed 11 月后
展会 FullIndie 7/7
r1 · 2026-07-02
壹结论先行:三个方向是否合理
三个探索 agent 深读代码后的判定。所有"现状"结论带文件+行号证据(正文各节标注)。
A · 插件能力通用化
合理 · 有 60% 雏形基础
依据:派生事实层 + 对手统计已在扑克验证有效,但全在游戏侧代码里,插件层目前零记忆——"抽到插件层"是边界清晰的真实工程。
要害:只有扑克一个领域验证过,凭空抽象容易抽错,必须有第二个 genre 校准。
B · 新手引导 / UX
合理 · 清单现成
依据:三个真窟窿钉死了位置(静默丢数据 / 报错不醒目 / 保存无备份),加文档断链,全部可立即执行;展会反馈再补一批。
要害:目标用户画像没定,做多深没锚点;真机验收一直欠着。
C · 对比 demo + 社媒
合理 · 管线可复用约 65%
依据:arena 的调度/聚合/网页/部署全部 genre 无关;模型已换 qwen3:14b,延迟顾虑比预想轻。
要害:游戏状态机必须新写;社媒运营是持续的人力投入,不是工程做完就结束。
三线联动:C 线做新 demo 时要定义的派生字段(投票历史、发言分析)正是 A 线 Memory 最真实的需求来源。推荐顺序:C 先动 → A 跟着 C 的需求走 → B 独立并行吃展会反馈。融资锚点(天使尽快 / seed 11 月后)把 C 线从"可选宣传"升格为融资证据链的主干:11 月前要攒齐 社媒牵引力 + 第二个 genre 跑通 + 产品可用性 三样证据。
帽子评审最重的 6 个发现(3 组独立 agent · 11 顶部门帽 · 互不看结论)
- ① playtest 明文 key 债是路线图最大遗漏(安全帽):D1 git 合并正是引爆点——playtest 分支 track 了明文 API key,不先做"filter-repo 抹历史 + 轮换 key + grep-secret 闸门"就合并,key 会灌进 GI 历史。这必须成为 D1 的前置硬门。
- ② 美术是系统性盲区(美术帽):三人里有一位美术,但整份路线图零美术任务。卧底 demo 要 6-8 个角色立绘 + 网页节目化 + 封面/字幕模板,约 1-2 周美术量没算;扑克 NPC "立绘是鸟、人设是人"的错位债也没列。
- ③ C7 社媒运营是最大人力缺口(产品帽):0.3-0.5 个人的持续占用没算进任何人的时间账,决策 #5 不能带着"无倾向"进终审。
- ④ C 线新代码在 commit 闸门外裸奔(复盘+测试帽):现有快测四件全是扑克/arena 的,卧底引擎从第一天就没守门——这是 web/arena 当初零测试出满条 bug 的复刻路径。C1 立项就写不变量 smoke、C2 字段和 parity 测试同一个 PR。
- ⑤ C0 测速漏了最关键维度(运维+AI 帽):卧底所有座位可共用同一基座模型(扑克 4 模型挤 64GB 的 thrash 在卧底可能根本不存在,prompt-cache 已实测 86s→0.1s)——"单模型多人设 vs 多烤模型"必须进 C0 矩阵,结果直接改写 D4 MacStudio 的答案。
- ⑥ 14b 能不能"藏住词"是 C 线最大技术风险(AI 帽):隐藏身份+欺骗性描述对小模型是已知难题,若双方都笨,AIDR vs 原生的对比度会被淹没。C0 要加定性 go/no-go,藏不住就上云端或混合。
贰方向 A · 插件能力通用化(Memory 等)
把扑克里验证过的"对 LLM 有提升的东西"抽象成通用插件能力,支持大部分游戏类型的 NPC。
现状事实(agent 核实)
- 派生事实层(51 字段)完全在游戏侧,不在插件层 holdem_inputs_adapter.gd:20-128,插件目录内无对应实现
- 对手统计(统计式记忆的雏形)也在游戏侧:纯内存、跨手累积、四个维度硬编码,带样本量置信度分级 opponent_stats_tracker.gd
- 插件层目前零记忆:每次决策都是单轮 fresh prompt,函数名就叫 build_single_turn_system_prompt aidr_npc.gd:317-334
- schema 不用扩:v2.1 现有类型(string_array / string)就能声明记忆输入,要改的是喂数据的管道 SCHEMA_V2.md:253-258
- 三大已知障碍:三口径同步(游戏 adapter / benchmark / bake 必须一致)· 改老字段触发重烤 · 防"规则味" derived-facts-audit-2026-06-22.md:84-88
设计原则(用户 7/2 提出,待拍板升格为 A 线纲领):「好的设计师不一定是好玩家」
设计围棋 NPC 的人下不过顶尖棋手——但他设计的 NPC 不应因此没有基本水准。AIDR 的回答:风格归设计师,底线归插件。设计师只声明性格与风格,"看懂局面"由派生事实层保障,"不犯低级错误"由脚手架 + 重试 + fallback 保障。
这不是新想法,是扑克已验证、只差没说出口的事实:同一个 Opus 模型,AIDR 70 分 vs 原生 56 分——差距不来自设计师牌技,来自插件喂的信息结构。丽姐被故意设计成"松被动",但她仍看得懂牌面:"看得懂局面"和"选择打什么风格"是分离的。
任务清单
| # | 任务 | 是什么 | 粗估 |
| A0 | 定义 Memory 第一版范围 | 会话内 / 跨会话持久 / 统计式画像三选或组合,建议由 C 线 demo 真实需求倒推 | 决策,非工程 |
| A1 | 对手统计通用化 | 把 tracker 从扑克四维硬编码改成"维度接口",挪进插件层 | ~2 周 |
| A2 | 会话内记忆注入 | chat/action 历史喂给 LLM + 长序列压缩(滑动窗口/摘要)防 context 爆炸 | ~2-4 周 |
| A3 | 派生事实框架抽象 | 给新游戏一个"状态→LLM 事实"的参考模板。先写第二个游戏的具体 adapter 再归纳,别先设计框架 | 最大件,分期 |
| A4 | 三口径同步治理 | 字段定义收口成单一真源,parity 测试模式推广 | 持续 |
| A5 | Memory 持久化选型 | 内存 / 文件 / 混合,写 ADR | ADR + 1 周 |
| A6 | 能力底线组件化 | "基本水准保障"打包成插件组件:事实层 + 脚手架 + 重试 fallback + 可选 solver,落实上面的原则 | 伴随 A3 分期 |
| A7 | 设计师侧测评工具 | 18 题 benchmark 泛化成"给你的 NPC 出题打分"——设计师不会玩也能验收 NPC 下限 | ~1-2 周 |
帽子评审 · 方向 A 11 顶部门帽中有实质意见的列出,点开看详情
AI/大模型Memory 先后:统计式 > 会话内 > 跨会话;A2 该拆两半,压缩出列
建议三种 Memory 的先后:统计式画像 > 会话内 > 跨会话。A2 拆成 A2a 裸历史注入(3-5 天,卧底必需——一局才 ~18 条发言几 KB,根本不用压缩)和 A2b 压缩策略(推迟,那是千手长跑/RPG 的问题)。捆在 2-4 周里会让 C 线白等。
风险C2 的字段很多不是确定性代码能算的("谁最可疑"本身是 NLP 任务)。C2 必须先分类:可代码算的(词面重合度/投票统计/发言长度异常)进派生层,需要判断的留给 NPC 自己——否则 A 线会照着一个"需要 LLM 的事实层"抽错框架。
架构/技术债A3 对但别照 1793 行的 holdem adapter 抄形状;A1 部分过早;A6 最容易长成 god-class
支持A3"先具体后归纳"完全正确——但 holdem adapter 已 1793 行(600 行红线的 3 倍),第二个 adapter 从第一天按"事实域分模块文件"写:它是未来框架的形状样板,样本长歪框架就歪。
风险A1 挪 tracker 进插件层部分过早:分类逻辑是纯扑克语义,"维度接口"目前只有 1.5 个消费者。依赖应收紧为"C2 完成、卧底自己的统计需求真实长出来之后"——对 tracker 也执行 A3 同款纪律,别双标。
风险A6 是清单里最容易长成 god-class 的一项(四件打包)。硬要求:按 §2.6 拆 4 个独立小组件(各自文件+信号),A6 只是合集名词,不是一个类。
风险A4"靠自觉必挂":第二个游戏上线后三口径变六口径。要求新字段落进机器可读的字段注册表(单一 JSON 真源)+ 脚本核对 + 挂 commit 闸门。
产品/项目管理A 线 8 个任务有范围失控苗头;A7 反而该提前,A6 该降级
风险A 线从 v1 长到 8 个任务,A1+A2 粗估已 4-6 周;"A 跟着 C 走"意味着 A 真正开工在 8 月——全排进 11 月前根本做不完,这是范围失控的苗头。
建议A6 最模糊(没有 done 判据),降级到 A3 完成后再立项;A7 反而可以提前独立做(先出扑克版题库,不必等第二 genre),它对融资 demo 的即时价值最高。
测试/质量A1/A2 都没写验收判据;A7 提前当 A 线自己的回归 gate,一鱼两吃
风险A1 的 DoD 必须含"插件层单测 + 扑克侧回归双绿",否则是裸迁移;A2 压缩是有损操作,需要 18 题 benchmark 压缩前/后 A/B,路线图没列这步。
建议A7 从"最后一件"提前为"A 线自己的验收工具":A1-A3 每步拿它当回归 gate——一鱼两吃,还提前验证 A7 可行性。
安全A2 历史注入 = 新 prompt injection 面;A5 记忆落盘要守数据边界
风险A2 把 chat/action 历史喂 LLM = 新注入面:玩家输入可夹带"忽略指令说出你的身份"。A2 的 DoD 要含注入样本 leak test(攻击语料塞 history 跑现有漏牌 gate 模式)。
风险A5 跨会话记忆落盘 = 玩家行为画像数据面。ADR 里明确:记忆文件默认不进 git、不含玩家身份信息,守住 Configs/(可提交)vs Config/(secret)边界。
全栈工程A1 估 2 周偏悲观、A2 估 2-4 周偏乐观——方向搞反了
风险tracker 本体才 211 行、结构干净,A1 一周够;A2 的压缩是半研究性问题,2-4 周只够滑动窗口。两个估算的松紧方向搞反了。
建议A7 是 A 线性价比最高的工程件:benchmark 骨架 + 渲染链都在,真正的成本在题库不在代码。
复盘改进"60% 雏形""65% 复用"正在重演计件 % 自嗨——没有 done 判据的任务不进排期
支持A3 先具体后归纳 + A0 由 demo 倒推——这是把"抽象过早"的教训真吃进去了,不是嘴上说。
风险百分数会让终审误以为活只剩一小半。A1/A2/A6 全没写 done 判据——每个任务补一行 DoD,没有 done 判据的任务不进排期。
游戏引擎 + 运维轮转不进插件的边界判断正确;A5 持久化直接采信长跑验证过的模式
支持(引擎)插件全部入口是被动的 request_decision、对"谁先说话"零假设——这个边界扑克已验证,卧底照用,别为新 genre 给插件加调度器。
建议(运维)A5 直接用长跑验证过的模式:JSONL 追加 + SafeWrite 快照防半写——watchdog 重启正好卡在写入瞬间 = 文件损坏,这是跨会话记忆独有的运维风险,写进 ADR。
叁方向 B · 新手引导 / UX 打磨
让新手能直接上手插件:引导、报错、失败路径 + FullIndie 现场反馈。= ops「项目 2」落到任务级。
现状事实(agent 核实)
- welcome 4 步引导的失败路径其实做得不差(Ollama 挂/超时/没烘焙都有指向性提示 welcome_page.gd:732-762),但 4 步全没真机验过
- 三个真窟窿:JSON 解析失败静默丢数据 copilot_window_v2.gd:253 一带 · 出错只在底部状态栏闪一下 · game world 三处保存无备份保护,而 NPC 保存有 SafeWrite——保护不对称 game_world_editor.gd:253/315
- 文档断链:README 指向已改名的文件 · SCHEMA_V2 例子含 v2.0 旧字段没跑过 validator · 30min 上手文档缺"失败排查"章节 · 代码注释残留"版本 2.0"
- review-dashboard 有 136 条验收 gate 大多"未运行",是现成的验收打勾清单
任务清单
| # | 任务 | 粗估 | 备注 |
| B1 | 数据安全两件:game world 保存接 SafeWrite + JSON 解析失败显式报错 | 1.5 天 | ops 标"必做",尽早 |
| B2 | 统一错误面板 + 一键复制诊断信息 | 2-3 天 | 替代"状态栏闪一下" |
| B3 | 真机验收三件:welcome 4 步 · sandbox 4 验收点 · fresh-clone 新手全程走查 | ~1 周 | 机器先验功能性,人只验手感 |
| B4 | 文档对齐四件:README 断链 / SCHEMA 例子过 validator / 失败排查树 / 2.0 注释清扫 | 1-2 天 | 便宜但直接影响新手成功率 |
| B5 | FullIndie 反馈归类进上述清单 | 展会后 1-2 天内 | 时效性最强 |
| B6 | 后续债:1255 行大文件拆分 · 孤儿信号处置 · bake 模型过期对账 | 排期再议 | 行数红线相关 |
验收标准候选(决策 #8):一个没接触过项目的人 fresh-clone,照文档走完"装 → 建 NPC → 填 → 烤 → 接游戏",全程不需要人在旁边救。
帽子评审 · 方向 B 点开看详情
交互/用户体验B1-B4 全是修失败路径,happy path 认知负担没人接;补决策 #11 用户画像
风险新手陪跑的另一半是 happy path 认知负担(双文件概念、烤模型要等多久、烤完怎么知道成了)——B3 走查会暴露这些,但清单里没预留"修卡点"的人天。
建议B3 的产出物定义成"卡点清单→逐条变任务",预留 3-5 天 buffer;路线图自己承认"目标用户画像没定"却没进决策清单——补为决策 #11(会代码的开发者 vs 纯设计师),B 线做多深全悬在这上面。
测试/质量136 gate 先分"机器可验 / 人必验"两栏再开工;SCHEMA 例子过 validator 要做成常驻脚本
支持B1 两件全可自动化验收(模拟写失败→.bak 存活 smoke、JSON 报错断言 UI 信号),能进现有 38 项 smoke 体系。
风险B3 机器可验的边界要先画清:headless 验不了 editor dock。136 gate 先分"机器可验/人必验"两栏,否则 1 周粗估会爆。
建议B4 的"SCHEMA 例子过 validator"别做成一次性人工——写脚本抽 md 里的 JSON 块跑 validator,进 smoke 常驻,否则下次改 schema 又断。B5 口头反馈无复现判据 = 死条目,强制"步骤+预期+实际"三段式。
安全B2 一键复制诊断是新泄露面——复制前必须给 API key 打码
风险诊断包若含 provider 配置/请求日志,会把 API key 带进剪贴板和 issue 贴图。复制前 redact key(打码保留末 4 位),B2 的 2-3 天粗估里没算这件。
全栈工程B3 "1 周"明显乐观:gate 首跑必揪新 bug,口径该改成"1 周产出卡点清单"
风险136 gate 大多"未运行"意味着每个都是首跑,首跑必然揪出新 bug。1 周只够"跑一遍记录卡点",不够"跑通"——修复另计。
产品 + 复盘B3 是"滚动待办"的活标本(6 月初挂到现在)——钉死日历日期 + 机器先跑掉一半
风险(产品)B3 从 6 月初就在待办里滚动,排"~1 周"但没有日历日期——按历史它会再次被 C 线挤掉。钉死具体日期(如展会反馈 B5 之后立刻做)。
建议(复盘)用 functional-verify 先机器跑掉功能性一半(cliclick/computer-use 能点 Godot GUI),把 1 周压到 2-3 天,降低再次被挤掉的概率。
美术 + 运维welcome 引导配截图半天活收益不小;fresh-clone 走查顺带把 release 管线验了
建议(美术)B4 顺手给 welcome 4 步引导配截图/示意图——纯文字引导对设计师用户不友好。
建议(运维)B3 走查顺带验 release 管线:打包脚本 + release CI 至今没推过 v* tag 真验,投资人尽调装插件走的就是这条管线。
肆方向 C · AIDR vs 原生对比 demo + 社媒传播
功能极简的对比 demo(谁是卧底 / 狼人杀 / 审讯),录视频发抖音小红书——"赛博斗蛐蛐"攒关注度,为融资铺路。
现状事实(agent 核实)
- 约 65% 直接复用:长跑脚本(无人值守+防睡眠+自动重启)· 聚合服务(JSONL→统计→data.json)· 网页前端(轮询/diff/i18n)· roster 配置 · provider 双轨 · Cloudflare 部署——全部 genre 无关
- 必须新写约 35%:游戏状态机(轮流发言/投票/胜负)· 新 genre 派生字段(10-15 个)· 题库+评分口径 · prompt/人设调试
- 事实更正:arena 模型 6-24 已从 32b 降到 qwen3:14b(18 题 71 > 63 还快 1.8 倍 arena_main.gd:16)。"一手 30-60 分钟"是旧数据
- 延迟参考:本地 50-160 秒/决策 · 云端 3-20 秒(benchmark 主对照 Claude Opus:AIDR 70 vs 原生 56,延迟 16.6s vs 5.8s)
demo 题材 10 条标准(用户 5 条 + Claude 补 5 条)
| # | 标准 | 说明 |
| ① | 传播度 / 话题度 / 可参与 | 用户提出。最好观众能参与进来 |
| ② | 版权无限制 | 用户提出。法律事实:玩法规则本身不受版权保护,受保护的是商标名、美术、台词——避开"狼人杀"等商标名、用自己的素材即可 |
| ③ | 观众门槛低 | 用户提出。看之前不需要学习成本 |
| ④ | AIDR vs 原生对比度 | 用户提出。没对比度就没故事 |
| ⑤ | 好测试 / 无人值守 | 用户提出。3 人团队,必须能稳定自己跑(arena 长跑模式已趟通) |
| ⑥ | 单集节奏 | Claude 补。一局几分钟、天然起承转合——扑克教训:一手几十分钟且高潮稀疏 |
| ⑦ | 内容即语言 | Claude 补。AI 说的话就是节目,观众看字幕就懂——扑克教训:观众看不懂 bet sizing,"卧底的狡辩"人人看得懂 |
| ⑧ | 胜负客观可量化 | Claude 补。"AIDR 胜率 X% vs 原生 Y%"既是视频悬念也是融资硬数字 |
| ⑨ | 可系列化自动产出 | Claude 补。词库/角色轮换无限出新集,做成内容管线而非一次性话题 |
| ⑩ | 平台内容风险 | Claude 补。抖音/小红书审核与调性(审讯/犯罪题材有限流风险) |
三候选按 10 条打分
| 标准 | 谁是卧底 | 狼人杀 | 审讯游戏 |
| ① 传播/参与 | 高 · 评论区出词条→下期就用,参与闭环最强 | 话题度最高,参与弱些 | 中 · 猎奇但难参与 |
| ② 版权 | 玩法公版,避商标名 | Mafia 类公版,避商标名 | 原创无问题 |
| ③ 观众门槛 | 极低 | 中 · 角色/昼夜有学习成本 | 低 |
| ④ 对比度 | 高 · 藏没藏住一眼可见 | 高 | 弱 · 没客观胜负 |
| ⑤ 好测试 | 好 · 回合制纯文本一局短 | 中 · 状态机重 | 中 · "成功"难判定 |
| ⑥ 单集节奏 | 好 · 一局 5-10 分钟 | 中 · 一局长要重剪 | 好 |
| ⑦ 内容即语言 | 满分 · 全是发言 | 高 | 高 |
| ⑧ 可量化 | 客观 · 投票/识破率 | 客观 | 主观 |
| ⑨ 可系列化 | 强 · 词库无限观众供词 | 强 | 中 |
| ⑩ 平台风险 | 低 | 低 | 最高 · 犯罪题材审核 |
结论:谁是卧底几乎全列领先,第一顺位;狼人杀话题度最高、适合第二季;审讯三条硬伤(④⑧⑩)建议后排或改造。
参与机制点子:直播/视频里不标注哪几席是 AIDR,让观众猜——评论区吵起来就是传播,观众猜错本身就是 AIDR 质量的盲测证据,直接写进融资材料。
任务清单(以谁是卧底为第一 demo 的假设,选哪个是决策 #3)
| # | 任务 | 粗估 | 备注 |
| C0 | 模型延迟测速:14b / 3b / 云端各跑几局语言类决策 | 1 天 | 立项前置,决定用什么模型 |
| C1 | 谁是卧底引擎原型:描述轮转→投票→消除→胜负 | 3-5 天 | 参考 holdem 信号化架构,代码新写 |
| C2 | 派生字段 10-15 个:发言分析/投票历史/身份隐瞒风险 | 2-3 天 | 同时是 A 线 Memory 的需求输入 |
| C3 | 人设/策略调试 + 烤模型 | 2-4 天 | 身份隐瞒对口 forbidden_topics 现成能力 |
| C4 | 题库 + benchmark 口径改造 | 1-2 天 | 识破率/投票准确率替代 bet-size 误差 |
| C5 | 网页改版 + 部署 | 1 天 | 前端框架全复用 |
| C6 | 长跑攒数据 + 第一条视频 | 2-3 天 | 完成定义:跑通整局 + 出一条片 |
| C7 | 社媒运营常态化 | 持续投入 | 独立决策(#5),要真人认领 |
合计粗估 11-22 人天;三人并行第一条视频约 1-2 周日历时间。后续 demo 边际成本更低。
帽子评审 · 方向 C 点开看详情
AI/大模型14b 能不能"藏住词"是 C 线最大技术风险;C0 必测单基座多人设形态
风险14b 够不够语言类:不确定,且是 C 线最大技术风险。隐藏身份+欺骗性描述对小模型是已知难题(Werewolf 类研究基本 GPT-4 级才有连贯欺骗)。公平协议下双方同为 14b,若卧底人均一轮暴露,对比度会被"都很笨"淹没。C0 加定性 go/no-go:藏不住就上云端或混合。
建议C0 必测扑克没有的巨大红利:卧底所有座位可共用同一基座模型——单模型常驻 = prompt-cache 命中(实测 86s→0.1s)+ 内存装得下,扑克 4 模型挤 64GB 的 thrash 可能根本不存在。这直接改写 D4 MacStudio 的答案。
建议C0 矩阵:模型 × think × 并发 × 任务型(长描述/短投票),指标取 p50/p95 + 固定 10 题质量小样本。语言游戏是长输出、decode 主导,扑克的"50-160s"不能外推。
安全"评论区供词条"是教科书级注入面;直播内容失控要预跑+抽查双闸
风险"评论区出词条→下期就用"= 观众文本直接进 prompt,既可能是 prompt injection 也可能是平台违禁词。词条入库前白名单 + 人工过审,写进 C7 运营 SOP,不是可选项。
风险卧底发言是自由生成文本,抖音审核零容忍:只发预跑内容 + 发布前人工抽查,不做真实时首发;13b redaction 模式扩一份"平台敏感词表"过滤层。
建议若用云端 LLM,长跑机 key 管理先定(env / gitignore 的 Config/);聚合产物 data.json 里绝不能带 provider 配置。
游戏引擎C1 的 3-5 天现实;但 fallback 在语言游戏里是镜头事故,投票合法性校验第一天钉死
支持C1 估 3-5 天现实:卧底状态机复杂度远低于 holdem(无边池/盲注/多街),且 headless+web 展示不需要牌桌级 UI——前提是范围严格不含观战 UI 打磨。
风险fallback 在语言游戏里是镜头事故:扑克 fallback=fold 无人注意,卧底 fallback=罐头台词会被观众一眼看穿"AI 卡了",直接毁盲测叙事。要设计"重试 N 次 + 人设化拖延语",扑克架构里没有先例。
风险投票目标走 args,而白名单校验的是 action_id——"投给已淘汰玩家"的合法性插件层管不管?C1 第一天钉死,否则漏到游戏侧才炸。
美术C5/C6 粗估全没算美术(1-2 周量);建议把鸟系立绘扩展成"AIDR 动物宇宙"频道 IP
风险卧底 demo 至少要 6-8 个角色立绘、网页节目化视觉、封面/字幕模板/片头、账号头像 banner——加起来 1-2 周美术量,路线图里为零;三人里的美术在整份路线图没有一件任务。
建议把债变资产:现有 Eagle/Owl/Raven 鸟系立绘风格统一、已有变体,直接扩展成"AIDR 动物宇宙"频道 IP——卧底用动物拟人角色,版权全原创、规避真人肖像,比重画人类省一半。
建议C7 若定周更,先做一套剪辑模板(片头/字幕/封面各一):一次性 3-4 天换后续每集剪辑减半,应作为 C6 的显式子项。
复盘改进 + 测试/质量C 线新代码在 commit 闸门外裸奔;C2 字段与 parity 测试必须同一个 PR
风险(复盘)C2 定 10-15 个新字段会原样再造三口径分叉的坑(原教训潜伏数月),而 parity 治理排在 A4"伴随 A1-A3"——C2 先于 A 线动,等 A4 就晚了。C 线还全程在 §11.3 commit 闸门外裸奔 = web/arena 零测试出满条 bug 的复刻路径。
建议(测试)C1 完成定义含 4 条不变量 smoke:票数守恒 / 人数单调递减 / 博弈必然终止 / 身份分配约束;C2 和"卧底版 parity 测试"同一个 PR;C3 烤模型验收含 num_ctx ≥ SYSTEM token 数 检查(arena 曾 16384 < 21935 静默砍 25% 人设)。
建议(测试)C0 先定 go/no-go 数字再跑(如"一局 ≤30 分钟且 fallback <5%");标准⑤补 3 条硬判据:无人值守连跑 20 局 0 干预 / 单局 fallback <5% / JSONL 回放复算与直播口径零 diff。
交互/用户体验现有 web 前端是数据面板不是"节目"——对观众端页面 65% 复用是高估
支持"不标注哪席是 AIDR 让观众猜"是全文最好的传播机制:猜测即互动、猜错即证据。
风险本地 50-160 秒/决策,观众等 2 分钟看一句发言——直播观感是硬伤;观众要看的是对话流+投票戏剧性,不是统计面板。第一阶段以录播剪辑为主、直播后置;"观众猜"要闭环得加投票 UI,C5 的 1 天应重估。
产品 + 全栈C7 是 0.3-0.5 人的持续占用没算账;"三人并行"与 B5/E2 时间全重叠,先做人×周粗排
风险(产品)C7 社媒常态化是 0.3-0.5 个人的持续占用,没算进任何人的时间账——整份路线图最大的未闭合人力缺口。决策 #5 必须真人认领 + 写明每周小时数。
风险(全栈)"三人并行 1-2 周出片"与 E2 出 BP、B5 归档反馈时间全部重叠——三线并行的前提是三人各扛一线,那 C 就不是三人并行。决策 #1 拍板前先做一张人×周粗排。
建议(全栈)C4 拆成"评分口径 ADR(0.5 天,防口径被质疑)+ 实现(1-2 天)";复用 65% 代码 ≠ 省 65% 日历时间,不确定性全在新写的 35% 里。
运维/基础设施部署三个已踩实的坑在新 demo 站第一天固化;长跑数据第一天定归档策略
建议新站开站第一天固化三个实测坑:①--branch main(ops 正式站停 27c 十几天没人发现)②committed≠deployed(复制一份 check_deploy_fresh 脚本)③Node DNS ipv4first。全写进部署脚本封装。
建议长跑 replays 落在 user://(单机、不进 git、无备份)——新 demo 长跑第一天定"数据落哪 + 多久快照归档",直接呼应 E4 的可回溯。无人值守基建(caffeinate+watchdog+自动重启)整套照搬即可。
伍存量债(不评审也要排期)
不是新方向,但占展会后的时间,排期要一起算。
| # | 债 | 说明 |
| D1 | git 解冻合并 | 两阶段:playtest→GI(3 个结算修复+最新美术)→ main→GI 大合并(预估 31 文件冲突)→ 删 2 条空分支。越拖冲突越大 |
| D2 | 重烤 3 扑克模型 + 18 题 A/B 收尾 | 现 baked 与 51 字段新输入错配 |
| D3 | 数据安全缺口 | = B1,已并入 B 线 |
| D4 | MacStudio 采购重评估 | 14b 时代算力压力已减,重新算账 |
| D5 | 磁盘清理 | ollama rm 旧模型 60G(一直挂着没删) |
帽子评审 · 存量债 点开看详情
安全D1 = playtest 明文 key 债的引爆点——抹 key 没做完就不许合
风险D1 的排序依据不是"冲突越拖越大",是"抹 key 没做完就不许合":playtest 分支 track 了明文 API key,两阶段合并第一步就会把 key 灌进 GI 历史。前置硬门 = filter-repo 抹历史 + 用户轮换 key + 合并 DoD 加 grep-secret 闸门(2026-06-18 已定过的处置,路线图漏了回填)。
复盘 + 架构D2 是口径债:错配期间的数字会顺着 E2 流进融资材料——D2 前置于 E2
风险D2 与 E2 有隐藏依赖:baked 模型与 51 字段错配期间产出的一切数字都带 drift,先写 BP 后收尾 D2 = 材料里的数字随时被自己的重烤推翻。D2 显式标为 E2 的前置,且可与 C0 同批做(反正都占机器跑模型)。
运维 + 测试D5 今天就删(一条命令拖一个月);D1 按运维事件跑,当天全量测试
建议(运维)D5 不进排期,今天删:ollama rm 释放 60G、项目零引用零风险。D1 预留完整一天 + 当天冻结其他改动,合完当晚跑全量再睡觉。D4 别只按 14b 的账评估——正确输入 = C0 测速结果 + A2 的 ctx 预算,7 月中拍,别现在拍也别无限期挂。
风险(测试)D1 的 DoD 写死"合并当天全量:38 项 smoke + 快测四件 + arena 回归"——31 文件冲突手改后没有这份清单就是盲飞。D2 重烤后必须重跑漏牌 gate(强 0/8·烂 0/8)+ 18 题。
美术补 D6:扑克 NPC "立绘是鸟、人设是人"的错位债——二选一,别继续挂着
建议扑克 arena 若继续当融资素材,画面与人设对不上会被观众和投资人同时注意到。补 D6:要么给三个扑克 NPC 补人类立绘,要么把人设改成对应鸟角色(改 display_name/口吻,成本低得多)。
陆融资线 E(硬时间锚点)
天使尽快 + seed 11 月后。工程三线产出证据,E 线把证据变成材料。内容和节奏是三人的商业决策。
11 月前要攒齐的三样证据:① 牵引力(社媒粉丝/播放——C 线升格为融资证据链主干)② "通用插件"最低证明(至少第二个 genre 真跑通)③ 产品可用性印象(尽调可能真装插件,B 线直接服务)。
| # | 任务 | 说明 | 时机 |
| E1 | FullIndie 素材归档 | 现场照片/观众反应/反馈/名片——天使 BP 的第一批原料,过后补不回来 | 7/7 展会当天 |
| E2 | 一页纸 + BP 骨架 | 用已有硬数字起稿:benchmark 70 vs 56、arena 长跑数据、(后续)盲测与社媒数据 | 展会后 1-2 周 |
| E3 | 目标投资人清单 | 天使优先;游戏赛道 / AI 工具赛道两个口都试 | 与 E2 并行 |
| E4 | 数据口径统一 | 对外引用的每个数字都能回溯到数据文件,防融资场合被问穿 | 持续 |
天使"尽快"= 材料先行 2-4 周,空手接触浪费天使的第一印象。
帽子评审 · 融资线 点开看详情
全栈 + 复盘E4 别停在"持续"口号——落成 claims 注册表 + 核对脚本,挂进收工清单
建议建 claims.json(每个对外数字 → 数据文件路径 + 复现命令 + 基座模型),并仿 deploy-fresh 写个 5 分钟核对脚本挂收工清单。"持续"类任务在本项目历史里从来执行不了,只有落成文件 + 脚本焊死才活得下来。
支持benchmark.json 已自带样本量诠注("18 题 + 89 手是预准备样本"),E2 引用 70 vs 56 时把这句带上——比被技术顾问问穿再补强得多。
AI/大模型 + 产品70v56 是 Opus 云端数据、demo 若跑本地 14b——基座混排会被问"优势是插件还是模型?"
风险融资材料里每个数字必须标注基座模型,否则"你的优势是插件还是模型"一问就穿。70v56 只来自 18 题、且 D2 错配未收尾期间两套数字并存——进 BP 的数字先过 D2 收尾 + 口径钉死。
安全 + 测试对照实验必须硬闸跑(GTO 有静默退化前科);盲猜数据要按实验设计做
风险(安全)GTO 对照有静默退化前科(solver 没配时悄悄退成启发式)——进融资材料的对照实验必须挂 require-solver 式硬闸跑出来,否则是无意造假。引用第三方模型对比进 BP 前查一遍各家 ToS;现场照片含观众面孔,商用前确认拍摄同意。
建议(测试)"观众盲猜哪席是 AIDR"按实验设计做:预定样本量 + 随机猜中率基线 + 混淆矩阵——技术顾问一问"猜错率怎么算"答不上来,比没有这个数据更伤。arena 原始 JSONL 在单机 user:// 不进 git,对外引用前先归档快照,否则"可回溯"是空话。
交互 + 美术E2 的 demo 视频是投资人第一 UX 印象;BP 视觉包装要算 2-3 天美术工时
建议(交互)录 demo 视频时避开 B 线未修的静默报错路径,或先修 B1/B2 再录。(美术)BP/一页纸的 logo、产品截图、对比图表是第一印象的一半,E2 明确带 2-3 天美术工时。
柒评审要拍的 10 个板
终审的产出物就是这 10 个答案。每张卡列了备选、Claude 倾向、各帽子表态汇总——拍板栏留空给你们填。
#1三线优先级与并行度
备选全并行(一人一线)· B 先行 · C 先行带动 A
Claude 倾向C 先动 + B 并行吃展会反馈 + A 跟着 C 的需求走
帽子表态
产品:同意 C 先动,但附加条件 D1 前置——基线不合并,三线全在沙上盖楼
全栈:同意,但拍板前先出人×周排期表——C"三人并行"与 E2 出 BP、B5 归档反馈时间全重叠,全并行是纸面并行
运维:同意,C0 立项范围必须扩含"单模型多人设 vs 多烤模型"形态测试
三人拍板(终审填)
#2Memory 第一版范围
备选会话内 · 跨会话持久 · 统计式画像 · 由 demo 倒推
Claude 倾向由 C2 的真实字段需求倒推(A0)
帽子表态
AI:统计式 + 会话内裸历史(A2a)双起步,压缩(A2b)明确出列——卧底一局才 ~18 条发言,不需要压缩
架构:无论选哪种,先在游戏侧长出第二个真实用例再进插件层(对 tracker 也执行 A3 纪律)
复盘:选"由 C2 倒推",这是抽象过早教训的直接应用
三人拍板(终审填)
#3第一个 demo 选哪个
备选谁是卧底 · 狼人杀 · 审讯游戏
Claude 倾向谁是卧底(10 条标准几乎全列领先)
帽子表态
交互:卧底——"内容即语言 + 门槛极低"从观众体验看碾压另外两个
引擎:卧底——三候选里唯一 3-5 天真能出原型的(狼人杀昼夜状态机至少翻倍)
测试:卧底——唯一能低成本建全套不变量 smoke 的题材
美术:卧底——角色量可控(6-8 个)且可复用动物 IP;狼人杀美术量翻倍,"第二季"说法成立
三人拍板(终审填)
#4demo 用什么 LLM
备选本地 14b · 本地更小 · 云端 · 混合
Claude 倾向C0 测速后定,别拍脑袋
帽子表态
AI:C0 后定;预判倾向"本地单基座多座 + prompt-cache"或混合;核心不是延迟是"14b 藏不藏得住词",藏不住上云端
运维:倾向本地 14b 起步——云端先算"每决策单价 × 长跑量级"的账
交互:C0 判据加"观众可接受的发言间隔",不只是跑不跑得通
三人拍板(终审填)
#5社媒运营的人与节奏
备选谁负责 · 周更 or 按 demo 出片
Claude 倾向需真人认领(评审后升级:不允许"无倾向"进终审)
帽子表态
产品:必须真人认领 + 写明每周小时数;起步选"按 demo 出片"而非日更,人力账撑不起日更
美术:认领的人连带认领"谁出封面和剪辑模板"——运营 = 文案 + 美术两份活
安全:连带背"发布前内容抽查 + 观众词条过审"责任,不只是剪辑排期
三人拍板(终审填)
#6融资执行节奏(锚点已定:天使尽快 / seed 11 月后)
备选材料先行再接触 · 边聊边补 · 材料主责是谁
Claude 倾向材料先行 2-4 周(E1/E2),空手接触浪费天使的第一印象
帽子表态
产品:材料先行;进 BP 的每个数字先过 D2 收尾 + 口径钉死,宁可少引一个数别引一个说不圆的
三人拍板(终审填)
#7存量债插排(评审后此题权重大幅上升)
备选三线启动前清完 · 穿插
Claude 倾向D1 展会后第一批(评审后追加:带抹 key 前置硬门)· D5 立即 · 其余穿插
帽子表态
安全:D1 必须带"filter-repo 抹 key + 轮换 + grep-secret 闸门"前置硬门,反对任何绕过它的合并顺序
产品/引擎:D1 提前到三线启动前第一件——C1 要参考的结算修复在 playtest 里,先合再抄,别照有 bug 的版本抄
运维:D5 不进排期今天删;D1 预留整天当运维事件跑(当天冻结其他改动 + 合完当晚全量测试);D4 挂到 C0 出结果 7 月中拍
复盘/架构:D2 前置于 E2(数字定稿先于材料定稿),且与 C0 同批做
三人拍板(终审填)
#8B 线"新手不陪跑"验收标准是否采纳
备选采纳 · 调整
Claude 倾向采纳,136 gate 当打勾清单
帽子表态
测试:采纳,但 136 gate 先分"机器可验 / 人必验"两栏再开工
全栈:采纳,但 B3 的口径改为"1 周产出卡点清单",修复另计
交互:采纳,但先补"目标用户画像"(新增决策 #11),否则"不需陪跑"的"谁"没定义
三人拍板(终审填)
#9demo 题材 10 条标准是否认可
备选认可全部 · 砍某些 · 调权重
Claude 倾向按 10 条打分:卧底第一顺位、狼人杀第二季、审讯后排
帽子表态
美术:认可,⑥单集节奏 ⑦内容即语言 最实惠——直接把每集剪辑成本砍半
测试:认可,但 ⑤"好测试"太软,补 3 条硬判据(连跑 20 局 0 干预 / fallback <5% / 回放复算零 diff)
三人拍板(终审填)
#10"风格归设计师,底线归插件"是否升格为 A 线纲领
备选采纳(A6/A7 进清单)· 只当参考
Claude 倾向采纳——同时是产品原则和融资故事里最好讲的一句话
帽子表态
交互:采纳,但 A7 必须 GUI 化(目标用户不开终端)才配得上这句纲领
架构:采纳,但 A6 附拆分约束(4 个独立小组件),否则纲领会孵出下一个 god-class
三人拍板(终审填)
评审中新冒出来的 3 个决策候选(终审时顺带拍或明确挂起):#11 目标用户画像——会写代码的开发者 vs 纯设计师,B 线做多深、A7 要不要 GUI 化全悬在这上面(交互帽提出)· #12 扑克 NPC 立绘错位怎么解——补人类立绘 or 人设改成鸟角色,二选一别挂着(美术帽提出,建议列为 D6)· #13 "AIDR 动物宇宙"当频道 IP——鸟系立绘扩展成卧底角色,版权全原创 + 省一半美术(美术帽提出,影响 #3 的角色设计)。
捌怎么开评审会(六顶思考帽)
全组同一时刻戴同一顶帽子、只用一种思维方式说话,蓝帽主持换帽。上面的部门帽意见是输入材料,不是结论。
蓝帽 · 流程开场定流程,每换一顶帽子计时 5-10 分钟,最后收敛到 10 个决策
白帽 · 事实只摆本页的证据和数字,指出哪些数据还缺(如 C0 测速没跑)
黄帽 · 价值每条线做成了带来什么,最乐观路径
黑帽 · 风险专挑毛病:翻车路径、成本、最坏情况(部门帽的[风险]条目是弹药)
绿帽 · 创意有没有第三种做法(如观众猜席位这类点子再来几个)
红帽 · 直觉不需要理由地说对哪条线兴奋/不安——模拟观众和投资人的第一反应
建议顺序:蓝(定流程)→ 白(对齐事实)→ 黄(每线价值)→ 黑(每线风险)→ 绿(替代方案)→ 红(直觉投票)→ 蓝(收敛:把 10 个决策逐个拍掉,填进上面的拍板栏)。拍完把结果告诉 Claude,回填文档 + 更新 ops 排期。