跳到内容
跨境Ai视界 跨境Ai视界
Go back

用harness engineering去做生成式任务

用 harness engineering 的方法去做生成式任务,因为它在开始时就具备可量化的特性。

经过几轮 Agent Loop 的评分反馈,它会得到比单次生成更好的效果。你可以通过这种方式去追踪并迭代,从而获得更优的结果。

这种方法在生成式任务中非常实用,比如写 Listing:

  1. 如果你只是简单生成一把 Listing,可能只跑了一轮循环。

  2. 即使你加了很多 Rule Set(规则集),但如果没有经过 Feedback Loop 的多次循环,它本身依然是无法量化的。

首先,通过 Plan 去规划,然后通过约束去搭建出 Harness 的结构。

然后是中间层,让 Generator 和 Evaluator 进行几轮的 Agent Loop。经过这样几个循环之后,可以得到更好的结果,这已经是通过数据证明过的。

所以如果把范围扩大的话,相对于图片的生成和前端的制作,它们本身都属于生成式的内容。

之前大多是通过人为去判断的,如果现在能经过几轮 feedback loop 的循环,从而得出更好的效果,这确实非常有意义。

所以刚开始的时候,基于业务经验建立 Benchmark,然后不断去调整这个评分。通过在测试当中测试几轮,结合自己的实际工作流,把这种东西做稳定。

Image


Share this post on:

上一篇
工作流自动化
下一篇
飞书开源Lark CLI