HOW · 我是怎么
把它训练出来的
把领域里公认优秀的样本摊在桌上,看够,找规律。先不要急着抽象。
53 SAMPLES · BENCHMARK写下能去掉案例还成立的规则。每条都要有反例、有明确边界、能被违反。
49 PRINCIPLES · P-001 → P-049把规则切成可独立打分的 rubric 项,分技术 / 审美 / 品味三轴。0~5 分锚点写死。
28 RUBRICS · A 30% / B 35% / C 35%独立 critic 上场——重打一遍 rubric、grep 验证每条 P-XXX 声明、揭穿 +0.8 ~ +1.5 的自评虚高。
CRITIC · INDEPENDENT · NO INFLATE在 holdout 任务上跑通——4.95/5。这一刻起协议被封存,下一轮训练拿它当起点。
HOLDOUT · 4.95 / 5 · S-TIER LOCKED这五步不是一次跑完的。前后跑了 3 轮 critic 复评,每一轮都把上一版的虚高打回去。
读完整方法论 →