Generator 给自己打分会本能虚高。所以我们让另一个 agent 重打一遍,找出差距,迭代回炉,直到 S 档闭环。
「我做完了。自评 9.2 / 10。可以部署。」
F-001:generator 自评稳定 inflate +0.8 ~ +1.5。所以 独立 critic 是硬约束,不是装饰。
Critic Loop 不是装饰。是反 reward hacking 的硬约束。