用harness engineering去做生成式任务

用 harness engineering 的方法去做生成式任务，因为它在开始时就具备可量化的特性。

经过几轮 Agent Loop 的评分反馈，它会得到比单次生成更好的效果。你可以通过这种方式去追踪并迭代，从而获得更优的结果。

这种方法在生成式任务中非常实用，比如写 Listing：

首先，通过 Plan 去规划，然后通过约束去搭建出 Harness 的结构。

然后是中间层，让 Generator 和 Evaluator 进行几轮的 Agent Loop。经过这样几个循环之后，可以得到更好的结果，这已经是通过数据证明过的。

所以如果把范围扩大的话，相对于图片的生成和前端的制作，它们本身都属于生成式的内容。

之前大多是通过人为去判断的，如果现在能经过几轮 feedback loop 的循环，从而得出更好的效果，这确实非常有意义。

所以刚开始的时候，基于业务经验建立 Benchmark，然后不断去调整这个评分。通过在测试当中测试几轮，结合自己的实际工作流，把这种东西做稳定。