前段时间做了一个程序,用AI分析竞品图片,提取关键特征,到做出做图方案。当时有想法说,看能不能直接生成参考图。但是那个项目的代码已经超过cursor可以高效处理的量了,就暂时没有往下走。
https://www.amzalysis.com/article/ai-amazon-pictures-design
这几天,我把竞品分析的项目用Python模块的形式给结构化了。这样就有了一些复用的小组件。同时,也让我有了重构老项目的想法。
前两天,我发布了用AI分析视频,做成视频方案的程序。同样是用到了,AI图片方案的小组件。还是同样的想法,可以用视频方案去生成视频。我简单测试了下,效果比图片好很多。我感觉视频差不多可以直接用。
因为视频和图片不同,图片一定要展示产品。但是视频可以有很多分镜,可以用写意镜头来过渡。不用一直展示产品,我可以展示场景,可以用剪辑方法穿插起来。而且视频的制作成本很高。如果能用视频方案做出视频,那想象空间很大,可以节省很多成本。
思路
言归正传,今天用图片方案做参考图的大致思路是,先让AI识别图片方案,提取出每张图片的关键信息,让大模型总结成提示词。再把提示词给到视觉大模型去生成参考图。
这里面有个关键问题,就是图片一致性。经过几轮测试,我的解决方法是,先在AI转化提示词的地方控制一下,保证提示词上的一致性。然后用图生图的方法,先把自己的图片作为参考图,再加上优化过的提示词。两个东西给到视觉大模型去生图,大大提高了图片的一致性。
当然,我几乎是用不到这个参考图的。而且参考图其实可以直接看竞品的,用AI再生成一遍有点画蛇添足。不过,今天是主要实现想法,我想看能不能出一些场景图可以直接用。同时,为下一次视频方案出AI视频打基础。
执行
这里用到了视觉大模型的图生图功能。一开始我想用阿里云的通义万相,而且也调好了图片方案文生图的代码。但是准备接图生图的时候,发现阿里云马上会下线图生图的api。。而字节的即梦适合角色类、人物娱乐场景的,对商用图片效果没那么好。
所以我想到了,上次测试图片方案生图还是用的Gemini。那么,这次我直接就用Gemini图生图了。加上我们需要一些外国人的模特和英文字体,那就更合适了。
下面这张图片是上次用Gemini生成的产品图,这次作为图生图的参考图测试。
https://www.amzalysis.com/article/ai-photo-design-gemini

同时我测试了Google的veo2直接生视频,效果很好,直接给我生成了几个分镜。作为一个略懂视频剪辑的运营,我感觉瞬间发现了新大陆,这些分镜是基于视频方案出来的。
好吧,可以看出来,我还是很期待视频的部分。我们再回到图片。
首先用代码把图片方案的小标题识别出来,然后提取内容,让AI大模型识别,并总结成提示词,再附带控制图片的一致性。
然后让视觉大模型参考自己提供的产品图,开始图生图。
图片太多了,效果展示放到文章最后。


总结
想法太多了,连一个晚上都存不了。只能连夜码字输出来,怕睡个觉就忘了。我本身打字还算快的,用的是小鹤双拼。再加上写的多了,有一种练出来的感觉。1000字的文章纯码字的话,最多1个小时吧。
我知道目前这个图片方案生成参考图还可以在哪里优化。但是因为我暂时用不到这个参考图,还是用交给美工做细致一点的图片。所以就直接过了,后面有时间再优化。
完整的提示词和图片,我还是会放到飞书共享文档。
因为我已经迫不及待的去做视频方案生成视频的程序了。如果能够做成直接可以用的视频,那简直是oh my god!想想还有点小激动。。





