最近一直在搞视频方案、视频生成的项目,我觉得价值巨大。因为做一个视频的成本很高,但视频本身的效果很好,对转化率有一定的提升。
一开始我还是想用代码的形式,直接出视频。但是调到最后发现,Gemini的api成本太高了,目前来说相当不适合。
通义万相的效果也可以,但是图生视频无法很好的实现。阿里云对底图要求用公开的URL,可能由于某些原因。

所以准备换策略,把视频方案确定出来后,直接用谷歌最新的Flow结合Veo3生成视频,最后再手动剪辑一下。这样的效果,目前来说可以直接上传到亚马逊使用了。
其中有很多的逻辑,比如我一直以为这些项目中最重要的是整体流程等等。现在我意识到,最关键的就是提示词。因为只要大模型足够强,给他丰富的提示词,就可以出来好的效果。

那提示词从哪里来?就是私有数据,来自于竞品,无论是竞品词库,图片识别,视频识别,本质是一个思路。
**大模型是金字塔底层,私域数据是中层,上层给定制规则。**这样一套思路下来,足以解决大部分的问题。即使AGI实现之后,这样的结构也很抗打。
这是我提取出来的核心内容了。我的目标是做一套AI解决方案,现在看来已经有了雏形了。从市场调查,到竞品分析,素材准备,前期可以节省大量的人力物力。

关于视频,一个关键的思路是。首先视频分为文生视频,图生视频。图生视频分为三个:默认图片生视频、特定图片生视频、上一帧生视频。
这个思路太棒了!一定能解决AI产品视频的问题,包括一致性。而且谷歌新出的Flow已经可以解决一部分图生视频的问题了。
后面我会一直优化AI视频的部分,潜力巨大。如果你能理解我在说什么,一定也会很激动。
接下来,我会整理思路,其中一部分内容会在知无不言0620的厦门线下聚会中分享。
这是用Veo2在谷歌Flow中生成的效果,整体偏渲染风格,主要用了图生视频。可以看到产品一致性的问题得到了很好的解决,剩下的就是优化提示词了。
这是用Veo3文生视频的效果,可以看到没有产品的限制,可以生成更多真实场景的分镜。产品虽然控制不了,但是会有写意镜头。可以把不同的分镜剪辑到一起,想象空间很大。