REEL · 00 · PORTFOLIO INDEX · 2026 SPRING

我训练了 一个 AI 学会造 顶级网站

不是给它更聪明的模型,是让它反复被独立 critic 揭穿—— Reward hacking 在这里被破解, 49 条 principles、28 条 rubric、4.95/5 的 holdout 成绩,最终封进一个可复用的 protocol。

0P 0R 0/ 5 S-tier 0Showcases
SECTION · 02 / HOW

HOW · 我是怎么
把它训练出来

01
观察

把领域里公认优秀的样本摊在桌上,看够,找规律。先不要急着抽象。

53 SAMPLES · BENCHMARK
02
提炼

写下能去掉案例还成立的规则。每条都要有反例、有明确边界、能被违反。

49 PRINCIPLES · P-001 → P-049
03
量化

把规则切成可独立打分的 rubric 项,分技术 / 审美 / 品味三轴。0~5 分锚点写死。

28 RUBRICS · A 30% / B 35% / C 35%
04
审视

独立 critic 上场——重打一遍 rubric、grep 验证每条 P-XXX 声明、揭穿 +0.8 ~ +1.5 的自评虚高。

CRITIC · INDEPENDENT · NO INFLATE
05
S
闭环

在 holdout 任务上跑通——4.95/5。这一刻起协议被封存,下一轮训练拿它当起点。

HOLDOUT · 4.95 / 5 · S-TIER LOCKED

这五步不是一次跑完的。前后跑了 3 轮 critic 复评,每一轮都把上一版的虚高打回去。

读完整方法论
SECTION · 03 / ABOUT

ABOUT ·

与其训练自己
成为某个产品的用户,
不如训练 AI
成为自己的协作者。

IDENTITY · 身份

上外在读,AI 产品独立开发者

住在上海。一台 M 系列 Mac 当作整个工作室。
相信好产品来自 反复跟自己较劲,不是来自更多功能。

CURRENTLY · 正在做

三件互相喂的事

WeFlow — 2025 冬,从一个 Mac 上四个未付的微信群手动 export 开始,做成了今天的微信数据提取工具。

ip-website-studio — 2026 春,看了一个晚上的训练营群消息后想:为什么 AI 总在 6/10 卡住?于是有了把文稿封装成网站的 Claude Code 工作流。

ip-website-craft training — 一份给自己 AI 的 post-training 协议,49 P · 28 R · 4.95 S 档闭环,就是你正在看的这个网站本身。

FIND ME · 找我

在 GitHub 上

github.com/kaijie0074-art

WeFlow 仓库在那。issue / discussion 都看;合作 / 接单 / 闲聊都从这里来。