AIDR

展会后路线图 · 评审版

三方向 + 存量债 + 融资线 · 11 顶部门帽评审意见已就位 · 等三人戴六帽终审

← 返回 OPS 看板

流程整理 ✓ → 部署 ✓ → 确认清单+帽子评审 ← 现在 → 三人戴六帽终审 融资锚点 天使尽快 · seed 11 月后展会 FullIndie 7/7 r1 · 2026-07-02

壹结论先行：三个方向是否合理

三个探索 agent 深读代码后的判定。所有"现状"结论带文件+行号证据（正文各节标注）。

A · 插件能力通用化

合理 · 有 60% 雏形基础

依据：派生事实层 + 对手统计已在扑克验证有效，但全在游戏侧代码里，插件层目前零记忆——"抽到插件层"是边界清晰的真实工程。

要害：只有扑克一个领域验证过，凭空抽象容易抽错，必须有第二个 genre 校准。

B · 新手引导 / UX

合理 · 清单现成

依据：三个真窟窿钉死了位置（静默丢数据 / 报错不醒目 / 保存无备份），加文档断链，全部可立即执行；展会反馈再补一批。

要害：目标用户画像没定，做多深没锚点；真机验收一直欠着。

C · 对比 demo + 社媒

合理 · 管线可复用约 65%

依据：arena 的调度/聚合/网页/部署全部 genre 无关；模型已换 qwen3:14b，延迟顾虑比预想轻。

要害：游戏状态机必须新写；社媒运营是持续的人力投入，不是工程做完就结束。

三线联动：C 线做新 demo 时要定义的派生字段（投票历史、发言分析）正是 A 线 Memory 最真实的需求来源。推荐顺序：C 先动 → A 跟着 C 的需求走 → B 独立并行吃展会反馈。融资锚点（天使尽快 / seed 11 月后）把 C 线从"可选宣传"升格为融资证据链的主干：11 月前要攒齐社媒牵引力 + 第二个 genre 跑通 + 产品可用性三样证据。

帽子评审最重的 6 个发现（3 组独立 agent · 11 顶部门帽 · 互不看结论）

① playtest 明文 key 债是路线图最大遗漏（安全帽）：D1 git 合并正是引爆点——playtest 分支 track 了明文 API key，不先做"filter-repo 抹历史 + 轮换 key + grep-secret 闸门"就合并，key 会灌进 GI 历史。这必须成为 D1 的前置硬门。
② 美术是系统性盲区（美术帽）：三人里有一位美术，但整份路线图零美术任务。卧底 demo 要 6-8 个角色立绘 + 网页节目化 + 封面/字幕模板，约 1-2 周美术量没算；扑克 NPC "立绘是鸟、人设是人"的错位债也没列。
③ C7 社媒运营是最大人力缺口（产品帽）：0.3-0.5 个人的持续占用没算进任何人的时间账，决策 #5 不能带着"无倾向"进终审。
④ C 线新代码在 commit 闸门外裸奔（复盘+测试帽）：现有快测四件全是扑克/arena 的，卧底引擎从第一天就没守门——这是 web/arena 当初零测试出满条 bug 的复刻路径。C1 立项就写不变量 smoke、C2 字段和 parity 测试同一个 PR。
⑤ C0 测速漏了最关键维度（运维+AI 帽）：卧底所有座位可共用同一基座模型（扑克 4 模型挤 64GB 的 thrash 在卧底可能根本不存在，prompt-cache 已实测 86s→0.1s）——"单模型多人设 vs 多烤模型"必须进 C0 矩阵，结果直接改写 D4 MacStudio 的答案。
⑥ 14b 能不能"藏住词"是 C 线最大技术风险（AI 帽）：隐藏身份+欺骗性描述对小模型是已知难题，若双方都笨，AIDR vs 原生的对比度会被淹没。C0 要加定性 go/no-go，藏不住就上云端或混合。

贰方向 A · 插件能力通用化（Memory 等）

把扑克里验证过的"对 LLM 有提升的东西"抽象成通用插件能力，支持大部分游戏类型的 NPC。

现状事实（agent 核实）

派生事实层（51 字段）完全在游戏侧，不在插件层 holdem_inputs_adapter.gd:20-128，插件目录内无对应实现
对手统计（统计式记忆的雏形）也在游戏侧：纯内存、跨手累积、四个维度硬编码，带样本量置信度分级 opponent_stats_tracker.gd
插件层目前零记忆：每次决策都是单轮 fresh prompt，函数名就叫 build_single_turn_system_prompt aidr_npc.gd:317-334
schema 不用扩：v2.1 现有类型（string_array / string）就能声明记忆输入，要改的是喂数据的管道 SCHEMA_V2.md:253-258
三大已知障碍：三口径同步（游戏 adapter / benchmark / bake 必须一致）· 改老字段触发重烤 · 防"规则味" derived-facts-audit-2026-06-22.md:84-88

设计原则（用户 7/2 提出，待拍板升格为 A 线纲领）：「好的设计师不一定是好玩家」

设计围棋 NPC 的人下不过顶尖棋手——但他设计的 NPC 不应因此没有基本水准。AIDR 的回答：风格归设计师，底线归插件。设计师只声明性格与风格，"看懂局面"由派生事实层保障，"不犯低级错误"由脚手架 + 重试 + fallback 保障。

这不是新想法，是扑克已验证、只差没说出口的事实：同一个 Opus 模型，AIDR 70 分 vs 原生 56 分——差距不来自设计师牌技，来自插件喂的信息结构。丽姐被故意设计成"松被动"，但她仍看得懂牌面："看得懂局面"和"选择打什么风格"是分离的。

任务清单

#	任务	是什么	粗估
A0	定义 Memory 第一版范围	会话内 / 跨会话持久 / 统计式画像三选或组合，建议由 C 线 demo 真实需求倒推	决策，非工程
A1	对手统计通用化	把 tracker 从扑克四维硬编码改成"维度接口"，挪进插件层	~2 周
A2	会话内记忆注入	chat/action 历史喂给 LLM + 长序列压缩（滑动窗口/摘要）防 context 爆炸	~2-4 周
A3	派生事实框架抽象	给新游戏一个"状态→LLM 事实"的参考模板。先写第二个游戏的具体 adapter 再归纳，别先设计框架	最大件，分期
A4	三口径同步治理	字段定义收口成单一真源，parity 测试模式推广	持续
A5	Memory 持久化选型	内存 / 文件 / 混合，写 ADR	ADR + 1 周
A6	能力底线组件化	"基本水准保障"打包成插件组件：事实层 + 脚手架 + 重试 fallback + 可选 solver，落实上面的原则	伴随 A3 分期
A7	设计师侧测评工具	18 题 benchmark 泛化成"给你的 NPC 出题打分"——设计师不会玩也能验收 NPC 下限	~1-2 周

帽子评审 · 方向 A 11 顶部门帽中有实质意见的列出，点开看详情

AI/大模型Memory 先后：统计式 > 会话内 > 跨会话；A2 该拆两半，压缩出列

建议三种 Memory 的先后：统计式画像 > 会话内 > 跨会话。A2 拆成 A2a 裸历史注入（3-5 天，卧底必需——一局才 ~18 条发言几 KB，根本不用压缩）和 A2b 压缩策略（推迟，那是千手长跑/RPG 的问题）。捆在 2-4 周里会让 C 线白等。

风险C2 的字段很多不是确定性代码能算的（"谁最可疑"本身是 NLP 任务）。C2 必须先分类：可代码算的（词面重合度/投票统计/发言长度异常）进派生层，需要判断的留给 NPC 自己——否则 A 线会照着一个"需要 LLM 的事实层"抽错框架。

架构/技术债A3 对但别照 1793 行的 holdem adapter 抄形状；A1 部分过早；A6 最容易长成 god-class

支持A3"先具体后归纳"完全正确——但 holdem adapter 已 1793 行（600 行红线的 3 倍），第二个 adapter 从第一天按"事实域分模块文件"写：它是未来框架的形状样板，样本长歪框架就歪。

风险A1 挪 tracker 进插件层部分过早：分类逻辑是纯扑克语义，"维度接口"目前只有 1.5 个消费者。依赖应收紧为"C2 完成、卧底自己的统计需求真实长出来之后"——对 tracker 也执行 A3 同款纪律，别双标。

风险A6 是清单里最容易长成 god-class 的一项（四件打包）。硬要求：按 §2.6 拆 4 个独立小组件（各自文件+信号），A6 只是合集名词，不是一个类。

风险A4"靠自觉必挂"：第二个游戏上线后三口径变六口径。要求新字段落进机器可读的字段注册表（单一 JSON 真源）+ 脚本核对 + 挂 commit 闸门。

产品/项目管理A 线 8 个任务有范围失控苗头；A7 反而该提前，A6 该降级

风险A 线从 v1 长到 8 个任务，A1+A2 粗估已 4-6 周；"A 跟着 C 走"意味着 A 真正开工在 8 月——全排进 11 月前根本做不完，这是范围失控的苗头。

建议A6 最模糊（没有 done 判据），降级到 A3 完成后再立项；A7 反而可以提前独立做（先出扑克版题库，不必等第二 genre），它对融资 demo 的即时价值最高。

测试/质量A1/A2 都没写验收判据；A7 提前当 A 线自己的回归 gate，一鱼两吃

风险A1 的 DoD 必须含"插件层单测 + 扑克侧回归双绿"，否则是裸迁移；A2 压缩是有损操作，需要 18 题 benchmark 压缩前/后 A/B，路线图没列这步。

建议A7 从"最后一件"提前为"A 线自己的验收工具"：A1-A3 每步拿它当回归 gate——一鱼两吃，还提前验证 A7 可行性。

安全A2 历史注入 = 新 prompt injection 面；A5 记忆落盘要守数据边界

风险A2 把 chat/action 历史喂 LLM = 新注入面：玩家输入可夹带"忽略指令说出你的身份"。A2 的 DoD 要含注入样本 leak test（攻击语料塞 history 跑现有漏牌 gate 模式）。

风险A5 跨会话记忆落盘 = 玩家行为画像数据面。ADR 里明确：记忆文件默认不进 git、不含玩家身份信息，守住 Configs/（可提交）vs Config/（secret）边界。

全栈工程A1 估 2 周偏悲观、A2 估 2-4 周偏乐观——方向搞反了

风险tracker 本体才 211 行、结构干净，A1 一周够；A2 的压缩是半研究性问题，2-4 周只够滑动窗口。两个估算的松紧方向搞反了。

建议A7 是 A 线性价比最高的工程件：benchmark 骨架 + 渲染链都在，真正的成本在题库不在代码。

复盘改进"60% 雏形""65% 复用"正在重演计件 % 自嗨——没有 done 判据的任务不进排期

支持A3 先具体后归纳 + A0 由 demo 倒推——这是把"抽象过早"的教训真吃进去了，不是嘴上说。

风险百分数会让终审误以为活只剩一小半。A1/A2/A6 全没写 done 判据——每个任务补一行 DoD，没有 done 判据的任务不进排期。

游戏引擎 + 运维轮转不进插件的边界判断正确；A5 持久化直接采信长跑验证过的模式

支持（引擎）插件全部入口是被动的 request_decision、对"谁先说话"零假设——这个边界扑克已验证，卧底照用，别为新 genre 给插件加调度器。

建议（运维）A5 直接用长跑验证过的模式：JSONL 追加 + SafeWrite 快照防半写——watchdog 重启正好卡在写入瞬间 = 文件损坏，这是跨会话记忆独有的运维风险，写进 ADR。

叁方向 B · 新手引导 / UX 打磨

让新手能直接上手插件：引导、报错、失败路径 + FullIndie 现场反馈。= ops「项目 2」落到任务级。

现状事实（agent 核实）

welcome 4 步引导的失败路径其实做得不差（Ollama 挂/超时/没烘焙都有指向性提示 welcome_page.gd:732-762），但 4 步全没真机验过
三个真窟窿：JSON 解析失败静默丢数据 copilot_window_v2.gd:253 一带 · 出错只在底部状态栏闪一下 · game world 三处保存无备份保护，而 NPC 保存有 SafeWrite——保护不对称 game_world_editor.gd:253/315
文档断链：README 指向已改名的文件 · SCHEMA_V2 例子含 v2.0 旧字段没跑过 validator · 30min 上手文档缺"失败排查"章节 · 代码注释残留"版本 2.0"
review-dashboard 有 136 条验收 gate 大多"未运行"，是现成的验收打勾清单

任务清单

#	任务	粗估	备注
B1	数据安全两件：game world 保存接 SafeWrite + JSON 解析失败显式报错	1.5 天	ops 标"必做"，尽早
B2	统一错误面板 + 一键复制诊断信息	2-3 天	替代"状态栏闪一下"
B3	真机验收三件：welcome 4 步 · sandbox 4 验收点 · fresh-clone 新手全程走查	~1 周	机器先验功能性，人只验手感
B4	文档对齐四件：README 断链 / SCHEMA 例子过 validator / 失败排查树 / 2.0 注释清扫	1-2 天	便宜但直接影响新手成功率
B5	FullIndie 反馈归类进上述清单	展会后 1-2 天内	时效性最强
B6	后续债：1255 行大文件拆分 · 孤儿信号处置 · bake 模型过期对账	排期再议	行数红线相关

验收标准候选（决策 #8）：一个没接触过项目的人 fresh-clone，照文档走完"装 → 建 NPC → 填 → 烤 → 接游戏"，全程不需要人在旁边救。

帽子评审 · 方向 B 点开看详情

交互/用户体验B1-B4 全是修失败路径，happy path 认知负担没人接；补决策 #11 用户画像

风险新手陪跑的另一半是 happy path 认知负担（双文件概念、烤模型要等多久、烤完怎么知道成了）——B3 走查会暴露这些，但清单里没预留"修卡点"的人天。

建议B3 的产出物定义成"卡点清单→逐条变任务"，预留 3-5 天 buffer；路线图自己承认"目标用户画像没定"却没进决策清单——补为决策 #11（会代码的开发者 vs 纯设计师），B 线做多深全悬在这上面。

测试/质量136 gate 先分"机器可验 / 人必验"两栏再开工；SCHEMA 例子过 validator 要做成常驻脚本

支持B1 两件全可自动化验收（模拟写失败→.bak 存活 smoke、JSON 报错断言 UI 信号），能进现有 38 项 smoke 体系。

风险B3 机器可验的边界要先画清：headless 验不了 editor dock。136 gate 先分"机器可验/人必验"两栏，否则 1 周粗估会爆。

建议B4 的"SCHEMA 例子过 validator"别做成一次性人工——写脚本抽 md 里的 JSON 块跑 validator，进 smoke 常驻，否则下次改 schema 又断。B5 口头反馈无复现判据 = 死条目，强制"步骤+预期+实际"三段式。

安全B2 一键复制诊断是新泄露面——复制前必须给 API key 打码

风险诊断包若含 provider 配置/请求日志，会把 API key 带进剪贴板和 issue 贴图。复制前 redact key（打码保留末 4 位），B2 的 2-3 天粗估里没算这件。

全栈工程B3 "1 周"明显乐观：gate 首跑必揪新 bug，口径该改成"1 周产出卡点清单"

风险136 gate 大多"未运行"意味着每个都是首跑，首跑必然揪出新 bug。1 周只够"跑一遍记录卡点"，不够"跑通"——修复另计。

产品 + 复盘B3 是"滚动待办"的活标本（6 月初挂到现在）——钉死日历日期 + 机器先跑掉一半

风险（产品）B3 从 6 月初就在待办里滚动，排"~1 周"但没有日历日期——按历史它会再次被 C 线挤掉。钉死具体日期（如展会反馈 B5 之后立刻做）。

建议（复盘）用 functional-verify 先机器跑掉功能性一半（cliclick/computer-use 能点 Godot GUI），把 1 周压到 2-3 天，降低再次被挤掉的概率。

美术 + 运维welcome 引导配截图半天活收益不小；fresh-clone 走查顺带把 release 管线验了

建议（美术）B4 顺手给 welcome 4 步引导配截图/示意图——纯文字引导对设计师用户不友好。

建议（运维）B3 走查顺带验 release 管线：打包脚本 + release CI 至今没推过 v* tag 真验，投资人尽调装插件走的就是这条管线。

肆方向 C · AIDR vs 原生对比 demo + 社媒传播

功能极简的对比 demo（谁是卧底 / 狼人杀 / 审讯），录视频发抖音小红书——"赛博斗蛐蛐"攒关注度，为融资铺路。

现状事实（agent 核实）

约 65% 直接复用：长跑脚本（无人值守+防睡眠+自动重启）· 聚合服务（JSONL→统计→data.json）· 网页前端（轮询/diff/i18n）· roster 配置 · provider 双轨 · Cloudflare 部署——全部 genre 无关
必须新写约 35%：游戏状态机（轮流发言/投票/胜负）· 新 genre 派生字段（10-15 个）· 题库+评分口径 · prompt/人设调试
事实更正：arena 模型 6-24 已从 32b 降到 qwen3:14b（18 题 71 > 63 还快 1.8 倍 arena_main.gd:16）。"一手 30-60 分钟"是旧数据
延迟参考：本地 50-160 秒/决策 · 云端 3-20 秒（benchmark 主对照 Claude Opus：AIDR 70 vs 原生 56，延迟 16.6s vs 5.8s）

demo 题材 10 条标准（用户 5 条 + Claude 补 5 条）

#	标准	说明
①	传播度 / 话题度 / 可参与	用户提出。最好观众能参与进来
②	版权无限制	用户提出。法律事实：玩法规则本身不受版权保护，受保护的是商标名、美术、台词——避开"狼人杀"等商标名、用自己的素材即可
③	观众门槛低	用户提出。看之前不需要学习成本
④	AIDR vs 原生对比度	用户提出。没对比度就没故事
⑤	好测试 / 无人值守	用户提出。3 人团队，必须能稳定自己跑（arena 长跑模式已趟通）
⑥	单集节奏	Claude 补。一局几分钟、天然起承转合——扑克教训：一手几十分钟且高潮稀疏
⑦	内容即语言	Claude 补。AI 说的话就是节目，观众看字幕就懂——扑克教训：观众看不懂 bet sizing，"卧底的狡辩"人人看得懂
⑧	胜负客观可量化	Claude 补。"AIDR 胜率 X% vs 原生 Y%"既是视频悬念也是融资硬数字
⑨	可系列化自动产出	Claude 补。词库/角色轮换无限出新集，做成内容管线而非一次性话题
⑩	平台内容风险	Claude 补。抖音/小红书审核与调性（审讯/犯罪题材有限流风险）

三候选按 10 条打分

标准	谁是卧底	狼人杀	审讯游戏
① 传播/参与	高 · 评论区出词条→下期就用，参与闭环最强	话题度最高，参与弱些	中 · 猎奇但难参与
② 版权	玩法公版，避商标名	Mafia 类公版，避商标名	原创无问题
③ 观众门槛	极低	中 · 角色/昼夜有学习成本	低
④ 对比度	高 · 藏没藏住一眼可见	高	弱 · 没客观胜负
⑤ 好测试	好 · 回合制纯文本一局短	中 · 状态机重	中 · "成功"难判定
⑥ 单集节奏	好 · 一局 5-10 分钟	中 · 一局长要重剪	好
⑦ 内容即语言	满分 · 全是发言	高	高
⑧ 可量化	客观 · 投票/识破率	客观	主观
⑨ 可系列化	强 · 词库无限观众供词	强	中
⑩ 平台风险	低	低	最高 · 犯罪题材审核

结论：谁是卧底几乎全列领先，第一顺位；狼人杀话题度最高、适合第二季；审讯三条硬伤（④⑧⑩）建议后排或改造。

参与机制点子：直播/视频里不标注哪几席是 AIDR，让观众猜——评论区吵起来就是传播，观众猜错本身就是 AIDR 质量的盲测证据，直接写进融资材料。

任务清单（以谁是卧底为第一 demo 的假设，选哪个是决策 #3）

#	任务	粗估	备注
C0	模型延迟测速：14b / 3b / 云端各跑几局语言类决策	1 天	立项前置，决定用什么模型
C1	谁是卧底引擎原型：描述轮转→投票→消除→胜负	3-5 天	参考 holdem 信号化架构，代码新写
C2	派生字段 10-15 个：发言分析/投票历史/身份隐瞒风险	2-3 天	同时是 A 线 Memory 的需求输入
C3	人设/策略调试 + 烤模型	2-4 天	身份隐瞒对口 forbidden_topics 现成能力
C4	题库 + benchmark 口径改造	1-2 天	识破率/投票准确率替代 bet-size 误差
C5	网页改版 + 部署	1 天	前端框架全复用
C6	长跑攒数据 + 第一条视频	2-3 天	完成定义：跑通整局 + 出一条片
C7	社媒运营常态化	持续投入	独立决策（#5），要真人认领

合计粗估 11-22 人天；三人并行第一条视频约 1-2 周日历时间。后续 demo 边际成本更低。

帽子评审 · 方向 C 点开看详情

AI/大模型14b 能不能"藏住词"是 C 线最大技术风险；C0 必测单基座多人设形态

风险14b 够不够语言类：不确定，且是 C 线最大技术风险。隐藏身份+欺骗性描述对小模型是已知难题（Werewolf 类研究基本 GPT-4 级才有连贯欺骗）。公平协议下双方同为 14b，若卧底人均一轮暴露，对比度会被"都很笨"淹没。C0 加定性 go/no-go：藏不住就上云端或混合。

建议C0 必测扑克没有的巨大红利：卧底所有座位可共用同一基座模型——单模型常驻 = prompt-cache 命中（实测 86s→0.1s）+ 内存装得下，扑克 4 模型挤 64GB 的 thrash 可能根本不存在。这直接改写 D4 MacStudio 的答案。

建议C0 矩阵：模型 × think × 并发 × 任务型（长描述/短投票），指标取 p50/p95 + 固定 10 题质量小样本。语言游戏是长输出、decode 主导，扑克的"50-160s"不能外推。

安全"评论区供词条"是教科书级注入面；直播内容失控要预跑+抽查双闸

风险"评论区出词条→下期就用"= 观众文本直接进 prompt，既可能是 prompt injection 也可能是平台违禁词。词条入库前白名单 + 人工过审，写进 C7 运营 SOP，不是可选项。

风险卧底发言是自由生成文本，抖音审核零容忍：只发预跑内容 + 发布前人工抽查，不做真实时首发；13b redaction 模式扩一份"平台敏感词表"过滤层。

建议若用云端 LLM，长跑机 key 管理先定（env / gitignore 的 Config/）；聚合产物 data.json 里绝不能带 provider 配置。

游戏引擎C1 的 3-5 天现实；但 fallback 在语言游戏里是镜头事故，投票合法性校验第一天钉死

支持C1 估 3-5 天现实：卧底状态机复杂度远低于 holdem（无边池/盲注/多街），且 headless+web 展示不需要牌桌级 UI——前提是范围严格不含观战 UI 打磨。

风险fallback 在语言游戏里是镜头事故：扑克 fallback=fold 无人注意，卧底 fallback=罐头台词会被观众一眼看穿"AI 卡了"，直接毁盲测叙事。要设计"重试 N 次 + 人设化拖延语"，扑克架构里没有先例。

风险投票目标走 args，而白名单校验的是 action_id——"投给已淘汰玩家"的合法性插件层管不管？C1 第一天钉死，否则漏到游戏侧才炸。

美术C5/C6 粗估全没算美术（1-2 周量）；建议把鸟系立绘扩展成"AIDR 动物宇宙"频道 IP

风险卧底 demo 至少要 6-8 个角色立绘、网页节目化视觉、封面/字幕模板/片头、账号头像 banner——加起来 1-2 周美术量，路线图里为零；三人里的美术在整份路线图没有一件任务。

建议把债变资产：现有 Eagle/Owl/Raven 鸟系立绘风格统一、已有变体，直接扩展成"AIDR 动物宇宙"频道 IP——卧底用动物拟人角色，版权全原创、规避真人肖像，比重画人类省一半。

建议C7 若定周更，先做一套剪辑模板（片头/字幕/封面各一）：一次性 3-4 天换后续每集剪辑减半，应作为 C6 的显式子项。

复盘改进 + 测试/质量C 线新代码在 commit 闸门外裸奔；C2 字段与 parity 测试必须同一个 PR

风险（复盘）C2 定 10-15 个新字段会原样再造三口径分叉的坑（原教训潜伏数月），而 parity 治理排在 A4"伴随 A1-A3"——C2 先于 A 线动，等 A4 就晚了。C 线还全程在 §11.3 commit 闸门外裸奔 = web/arena 零测试出满条 bug 的复刻路径。

建议（测试）C1 完成定义含 4 条不变量 smoke：票数守恒 / 人数单调递减 / 博弈必然终止 / 身份分配约束；C2 和"卧底版 parity 测试"同一个 PR；C3 烤模型验收含 num_ctx ≥ SYSTEM token 数 检查（arena 曾 16384 < 21935 静默砍 25% 人设）。

建议（测试）C0 先定 go/no-go 数字再跑（如"一局 ≤30 分钟且 fallback <5%"）；标准⑤补 3 条硬判据：无人值守连跑 20 局 0 干预 / 单局 fallback <5% / JSONL 回放复算与直播口径零 diff。

交互/用户体验现有 web 前端是数据面板不是"节目"——对观众端页面 65% 复用是高估

支持"不标注哪席是 AIDR 让观众猜"是全文最好的传播机制：猜测即互动、猜错即证据。

风险本地 50-160 秒/决策，观众等 2 分钟看一句发言——直播观感是硬伤；观众要看的是对话流+投票戏剧性，不是统计面板。第一阶段以录播剪辑为主、直播后置；"观众猜"要闭环得加投票 UI，C5 的 1 天应重估。

产品 + 全栈C7 是 0.3-0.5 人的持续占用没算账；"三人并行"与 B5/E2 时间全重叠，先做人×周粗排

风险（产品）C7 社媒常态化是 0.3-0.5 个人的持续占用，没算进任何人的时间账——整份路线图最大的未闭合人力缺口。决策 #5 必须真人认领 + 写明每周小时数。

风险（全栈）"三人并行 1-2 周出片"与 E2 出 BP、B5 归档反馈时间全部重叠——三线并行的前提是三人各扛一线，那 C 就不是三人并行。决策 #1 拍板前先做一张人×周粗排。

建议（全栈）C4 拆成"评分口径 ADR（0.5 天，防口径被质疑）+ 实现（1-2 天）"；复用 65% 代码 ≠ 省 65% 日历时间，不确定性全在新写的 35% 里。

运维/基础设施部署三个已踩实的坑在新 demo 站第一天固化；长跑数据第一天定归档策略

建议新站开站第一天固化三个实测坑：①--branch main（ops 正式站停 27c 十几天没人发现）②committed≠deployed（复制一份 check_deploy_fresh 脚本）③Node DNS ipv4first。全写进部署脚本封装。

建议长跑 replays 落在 user://（单机、不进 git、无备份）——新 demo 长跑第一天定"数据落哪 + 多久快照归档"，直接呼应 E4 的可回溯。无人值守基建（caffeinate+watchdog+自动重启）整套照搬即可。

伍存量债（不评审也要排期）

不是新方向，但占展会后的时间，排期要一起算。

#	债	说明
D1	git 解冻合并	两阶段：playtest→GI（3 个结算修复+最新美术）→ main→GI 大合并（预估 31 文件冲突）→ 删 2 条空分支。越拖冲突越大
D2	重烤 3 扑克模型 + 18 题 A/B 收尾	现 baked 与 51 字段新输入错配
D3	数据安全缺口	= B1，已并入 B 线
D4	MacStudio 采购重评估	14b 时代算力压力已减，重新算账
D5	磁盘清理	ollama rm 旧模型 60G（一直挂着没删）

帽子评审 · 存量债点开看详情

安全D1 = playtest 明文 key 债的引爆点——抹 key 没做完就不许合

风险D1 的排序依据不是"冲突越拖越大"，是"抹 key 没做完就不许合"：playtest 分支 track 了明文 API key，两阶段合并第一步就会把 key 灌进 GI 历史。前置硬门 = filter-repo 抹历史 + 用户轮换 key + 合并 DoD 加 grep-secret 闸门（2026-06-18 已定过的处置，路线图漏了回填）。

复盘 + 架构D2 是口径债：错配期间的数字会顺着 E2 流进融资材料——D2 前置于 E2

风险D2 与 E2 有隐藏依赖：baked 模型与 51 字段错配期间产出的一切数字都带 drift，先写 BP 后收尾 D2 = 材料里的数字随时被自己的重烤推翻。D2 显式标为 E2 的前置，且可与 C0 同批做（反正都占机器跑模型）。

运维 + 测试D5 今天就删（一条命令拖一个月）；D1 按运维事件跑，当天全量测试

建议（运维）D5 不进排期，今天删：ollama rm 释放 60G、项目零引用零风险。D1 预留完整一天 + 当天冻结其他改动，合完当晚跑全量再睡觉。D4 别只按 14b 的账评估——正确输入 = C0 测速结果 + A2 的 ctx 预算，7 月中拍，别现在拍也别无限期挂。

风险（测试）D1 的 DoD 写死"合并当天全量：38 项 smoke + 快测四件 + arena 回归"——31 文件冲突手改后没有这份清单就是盲飞。D2 重烤后必须重跑漏牌 gate（强 0/8·烂 0/8）+ 18 题。

美术补 D6：扑克 NPC "立绘是鸟、人设是人"的错位债——二选一，别继续挂着

建议扑克 arena 若继续当融资素材，画面与人设对不上会被观众和投资人同时注意到。补 D6：要么给三个扑克 NPC 补人类立绘，要么把人设改成对应鸟角色（改 display_name/口吻，成本低得多）。

陆融资线 E（硬时间锚点）

天使尽快 + seed 11 月后。工程三线产出证据，E 线把证据变成材料。内容和节奏是三人的商业决策。

11 月前要攒齐的三样证据：① 牵引力（社媒粉丝/播放——C 线升格为融资证据链主干）② "通用插件"最低证明（至少第二个 genre 真跑通）③ 产品可用性印象（尽调可能真装插件，B 线直接服务）。

#	任务	说明	时机
E1	FullIndie 素材归档	现场照片/观众反应/反馈/名片——天使 BP 的第一批原料，过后补不回来	7/7 展会当天
E2	一页纸 + BP 骨架	用已有硬数字起稿：benchmark 70 vs 56、arena 长跑数据、（后续）盲测与社媒数据	展会后 1-2 周
E3	目标投资人清单	天使优先；游戏赛道 / AI 工具赛道两个口都试	与 E2 并行
E4	数据口径统一	对外引用的每个数字都能回溯到数据文件，防融资场合被问穿	持续

天使"尽快"= 材料先行 2-4 周，空手接触浪费天使的第一印象。

帽子评审 · 融资线点开看详情

全栈 + 复盘E4 别停在"持续"口号——落成 claims 注册表 + 核对脚本，挂进收工清单

建议建 claims.json（每个对外数字 → 数据文件路径 + 复现命令 + 基座模型），并仿 deploy-fresh 写个 5 分钟核对脚本挂收工清单。"持续"类任务在本项目历史里从来执行不了，只有落成文件 + 脚本焊死才活得下来。

支持benchmark.json 已自带样本量诠注（"18 题 + 89 手是预准备样本"），E2 引用 70 vs 56 时把这句带上——比被技术顾问问穿再补强得多。

AI/大模型 + 产品70v56 是 Opus 云端数据、demo 若跑本地 14b——基座混排会被问"优势是插件还是模型？"

风险融资材料里每个数字必须标注基座模型，否则"你的优势是插件还是模型"一问就穿。70v56 只来自 18 题、且 D2 错配未收尾期间两套数字并存——进 BP 的数字先过 D2 收尾 + 口径钉死。

安全 + 测试对照实验必须硬闸跑（GTO 有静默退化前科）；盲猜数据要按实验设计做

风险（安全）GTO 对照有静默退化前科（solver 没配时悄悄退成启发式）——进融资材料的对照实验必须挂 require-solver 式硬闸跑出来，否则是无意造假。引用第三方模型对比进 BP 前查一遍各家 ToS；现场照片含观众面孔，商用前确认拍摄同意。

建议（测试）"观众盲猜哪席是 AIDR"按实验设计做：预定样本量 + 随机猜中率基线 + 混淆矩阵——技术顾问一问"猜错率怎么算"答不上来，比没有这个数据更伤。arena 原始 JSONL 在单机 user:// 不进 git，对外引用前先归档快照，否则"可回溯"是空话。

交互 + 美术E2 的 demo 视频是投资人第一 UX 印象；BP 视觉包装要算 2-3 天美术工时

建议（交互）录 demo 视频时避开 B 线未修的静默报错路径，或先修 B1/B2 再录。（美术）BP/一页纸的 logo、产品截图、对比图表是第一印象的一半，E2 明确带 2-3 天美术工时。

柒评审要拍的 10 个板

终审的产出物就是这 10 个答案。每张卡列了备选、Claude 倾向、各帽子表态汇总——拍板栏留空给你们填。

#1三线优先级与并行度

备选全并行（一人一线）· B 先行 · C 先行带动 A

Claude 倾向C 先动 + B 并行吃展会反馈 + A 跟着 C 的需求走

帽子表态

产品：同意 C 先动，但附加条件 D1 前置——基线不合并，三线全在沙上盖楼

全栈：同意，但拍板前先出人×周排期表——C"三人并行"与 E2 出 BP、B5 归档反馈时间全重叠，全并行是纸面并行

运维：同意，C0 立项范围必须扩含"单模型多人设 vs 多烤模型"形态测试

三人拍板（终审填）

#2Memory 第一版范围

备选会话内 · 跨会话持久 · 统计式画像 · 由 demo 倒推

Claude 倾向由 C2 的真实字段需求倒推（A0）

帽子表态

AI：统计式 + 会话内裸历史（A2a）双起步，压缩（A2b）明确出列——卧底一局才 ~18 条发言，不需要压缩

架构：无论选哪种，先在游戏侧长出第二个真实用例再进插件层（对 tracker 也执行 A3 纪律）

复盘：选"由 C2 倒推"，这是抽象过早教训的直接应用

三人拍板（终审填）

#3第一个 demo 选哪个

备选谁是卧底 · 狼人杀 · 审讯游戏

Claude 倾向谁是卧底（10 条标准几乎全列领先）

帽子表态

交互：卧底——"内容即语言 + 门槛极低"从观众体验看碾压另外两个

引擎：卧底——三候选里唯一 3-5 天真能出原型的（狼人杀昼夜状态机至少翻倍）

测试：卧底——唯一能低成本建全套不变量 smoke 的题材

美术：卧底——角色量可控（6-8 个）且可复用动物 IP；狼人杀美术量翻倍，"第二季"说法成立

三人拍板（终审填）

#4demo 用什么 LLM

备选本地 14b · 本地更小 · 云端 · 混合

Claude 倾向C0 测速后定，别拍脑袋

帽子表态

AI：C0 后定；预判倾向"本地单基座多座 + prompt-cache"或混合；核心不是延迟是"14b 藏不藏得住词"，藏不住上云端

运维：倾向本地 14b 起步——云端先算"每决策单价 × 长跑量级"的账

交互：C0 判据加"观众可接受的发言间隔"，不只是跑不跑得通

三人拍板（终审填）

#5社媒运营的人与节奏

备选谁负责 · 周更 or 按 demo 出片

Claude 倾向需真人认领（评审后升级：不允许"无倾向"进终审）

帽子表态

产品：必须真人认领 + 写明每周小时数；起步选"按 demo 出片"而非日更，人力账撑不起日更

美术：认领的人连带认领"谁出封面和剪辑模板"——运营 = 文案 + 美术两份活

安全：连带背"发布前内容抽查 + 观众词条过审"责任，不只是剪辑排期

三人拍板（终审填）

#6融资执行节奏（锚点已定：天使尽快 / seed 11 月后）

备选材料先行再接触 · 边聊边补 · 材料主责是谁

Claude 倾向材料先行 2-4 周（E1/E2），空手接触浪费天使的第一印象

帽子表态

产品：材料先行；进 BP 的每个数字先过 D2 收尾 + 口径钉死，宁可少引一个数别引一个说不圆的

三人拍板（终审填）

#7存量债插排（评审后此题权重大幅上升）

备选三线启动前清完 · 穿插

Claude 倾向D1 展会后第一批（评审后追加：带抹 key 前置硬门）· D5 立即 · 其余穿插

帽子表态

安全：D1 必须带"filter-repo 抹 key + 轮换 + grep-secret 闸门"前置硬门，反对任何绕过它的合并顺序

产品/引擎：D1 提前到三线启动前第一件——C1 要参考的结算修复在 playtest 里，先合再抄，别照有 bug 的版本抄

运维：D5 不进排期今天删；D1 预留整天当运维事件跑（当天冻结其他改动 + 合完当晚全量测试）；D4 挂到 C0 出结果 7 月中拍

复盘/架构：D2 前置于 E2（数字定稿先于材料定稿），且与 C0 同批做

三人拍板（终审填）

#8B 线"新手不陪跑"验收标准是否采纳

备选采纳 · 调整

Claude 倾向采纳，136 gate 当打勾清单

帽子表态

测试：采纳，但 136 gate 先分"机器可验 / 人必验"两栏再开工

全栈：采纳，但 B3 的口径改为"1 周产出卡点清单"，修复另计

交互：采纳，但先补"目标用户画像"（新增决策 #11），否则"不需陪跑"的"谁"没定义

三人拍板（终审填）

#9demo 题材 10 条标准是否认可

备选认可全部 · 砍某些 · 调权重

Claude 倾向按 10 条打分：卧底第一顺位、狼人杀第二季、审讯后排

帽子表态

美术：认可，⑥单集节奏 ⑦内容即语言最实惠——直接把每集剪辑成本砍半

测试：认可，但 ⑤"好测试"太软，补 3 条硬判据（连跑 20 局 0 干预 / fallback <5% / 回放复算零 diff）

三人拍板（终审填）

#10"风格归设计师，底线归插件"是否升格为 A 线纲领

备选采纳（A6/A7 进清单）· 只当参考

Claude 倾向采纳——同时是产品原则和融资故事里最好讲的一句话

帽子表态

交互：采纳，但 A7 必须 GUI 化（目标用户不开终端）才配得上这句纲领

架构：采纳，但 A6 附拆分约束（4 个独立小组件），否则纲领会孵出下一个 god-class

三人拍板（终审填）

评审中新冒出来的 3 个决策候选（终审时顺带拍或明确挂起）：#11 目标用户画像——会写代码的开发者 vs 纯设计师，B 线做多深、A7 要不要 GUI 化全悬在这上面（交互帽提出）· #12 扑克 NPC 立绘错位怎么解——补人类立绘 or 人设改成鸟角色，二选一别挂着（美术帽提出，建议列为 D6）· #13 "AIDR 动物宇宙"当频道 IP——鸟系立绘扩展成卧底角色，版权全原创 + 省一半美术（美术帽提出，影响 #3 的角色设计）。

捌怎么开评审会（六顶思考帽）

全组同一时刻戴同一顶帽子、只用一种思维方式说话，蓝帽主持换帽。上面的部门帽意见是输入材料，不是结论。

蓝帽 · 流程开场定流程，每换一顶帽子计时 5-10 分钟，最后收敛到 10 个决策

白帽 · 事实只摆本页的证据和数字，指出哪些数据还缺（如 C0 测速没跑）

黄帽 · 价值每条线做成了带来什么，最乐观路径

黑帽 · 风险专挑毛病：翻车路径、成本、最坏情况（部门帽的[风险]条目是弹药）

绿帽 · 创意有没有第三种做法（如观众猜席位这类点子再来几个）

红帽 · 直觉不需要理由地说对哪条线兴奋/不安——模拟观众和投资人的第一反应

建议顺序：蓝（定流程）→ 白（对齐事实）→ 黄（每线价值）→ 黑（每线风险）→ 绿（替代方案）→ 红（直觉投票）→ 蓝（收敛：把 10 个决策逐个拍掉，填进上面的拍板栏）。拍完把结果告诉 Claude，回填文档 + 更新 ops 排期。