用 harness engineering 的方法去做生成式任务,因为它在开始时就具备可量化的特性。
经过几轮 Agent Loop 的评分反馈,它会得到比单次生成更好的效果。你可以通过这种方式去追踪并迭代,从而获得更优的结果。
这种方法在生成式任务中非常实用,比如写 Listing:
-
如果你只是简单生成一把 Listing,可能只跑了一轮循环。
-
即使你加了很多 Rule Set(规则集),但如果没有经过 Feedback Loop 的多次循环,它本身依然是无法量化的。
首先,通过 Plan 去规划,然后通过约束去搭建出 Harness 的结构。
然后是中间层,让 Generator 和 Evaluator 进行几轮的 Agent Loop。经过这样几个循环之后,可以得到更好的结果,这已经是通过数据证明过的。
所以如果把范围扩大的话,相对于图片的生成和前端的制作,它们本身都属于生成式的内容。
之前大多是通过人为去判断的,如果现在能经过几轮 feedback loop 的循环,从而得出更好的效果,这确实非常有意义。
所以刚开始的时候,基于业务经验建立 Benchmark,然后不断去调整这个评分。通过在测试当中测试几轮,结合自己的实际工作流,把这种东西做稳定。
