进化！AI图片方案，到生成AI参考图

前段时间做了一个程序，用AI分析竞品图片，提取关键特征，到做出做图方案。当时有想法说，看能不能直接生成参考图。但是那个项目的代码已经超过cursor可以高效处理的量了，就暂时没有往下走。

这几天，我把竞品分析的项目用Python模块的形式给结构化了。这样就有了一些复用的小组件。同时，也让我有了重构老项目的想法。

前两天，我发布了用AI分析视频，做成视频方案的程序。同样是用到了，AI图片方案的小组件。还是同样的想法，可以用视频方案去生成视频。我简单测试了下，效果比图片好很多。我感觉视频差不多可以直接用。

因为视频和图片不同，图片一定要展示产品。但是视频可以有很多分镜，可以用写意镜头来过渡。不用一直展示产品，我可以展示场景，可以用剪辑方法穿插起来。而且视频的制作成本很高。如果能用视频方案做出视频，那想象空间很大，可以节省很多成本。

思路

言归正传，今天用图片方案做参考图的大致思路是，先让AI识别图片方案，提取出每张图片的关键信息，让大模型总结成提示词。再把提示词给到视觉大模型去生成参考图。

这里面有个关键问题，就是图片一致性。经过几轮测试，我的解决方法是，先在AI转化提示词的地方控制一下，保证提示词上的一致性。然后用图生图的方法，先把自己的图片作为参考图，再加上优化过的提示词。两个东西给到视觉大模型去生图，大大提高了图片的一致性。

当然，我几乎是用不到这个参考图的。而且参考图其实可以直接看竞品的，用AI再生成一遍有点画蛇添足。不过，今天是主要实现想法，我想看能不能出一些场景图可以直接用。同时，为下一次视频方案出AI视频打基础。

这里用到了视觉大模型的图生图功能。一开始我想用阿里云的通义万相，而且也调好了图片方案文生图的代码。但是准备接图生图的时候，发现阿里云马上会下线图生图的api。。而字节的即梦适合角色类、人物娱乐场景的，对商用图片效果没那么好。

所以我想到了，上次测试图片方案生图还是用的Gemini。那么，这次我直接就用Gemini图生图了。加上我们需要一些外国人的模特和英文字体，那就更合适了。

下面这张图片是上次用Gemini生成的产品图，这次作为图生图的参考图测试。

同时我测试了Google的veo2直接生视频，效果很好，直接给我生成了几个分镜。作为一个略懂视频剪辑的运营，我感觉瞬间发现了新大陆，这些分镜是基于视频方案出来的。

好吧，可以看出来，我还是很期待视频的部分。我们再回到图片。

首先用代码把图片方案的小标题识别出来，然后提取内容，让AI大模型识别，并总结成提示词，再附带控制图片的一致性。

然后让视觉大模型参考自己提供的产品图，开始图生图。

图片太多了，效果展示放到文章最后。

想法太多了，连一个晚上都存不了。只能连夜码字输出来，怕睡个觉就忘了。我本身打字还算快的，用的是小鹤双拼。再加上写的多了，有一种练出来的感觉。1000字的文章纯码字的话，最多1个小时吧。

我知道目前这个图片方案生成参考图还可以在哪里优化。但是因为我暂时用不到这个参考图，还是用交给美工做细致一点的图片。所以就直接过了，后面有时间再优化。

完整的提示词和图片，我还是会放到飞书共享文档。

因为我已经迫不及待的去做视频方案生成视频的程序了。如果能够做成直接可以用的视频，那简直是oh my god！想想还有点小激动。。