上次在做竞品分析的时候,想到了把一个代码文件给模块化。平常我都是只有一个文件,最高记录就是AI图片方案的代码,有2000多行。。
作为一个非科班选手,并没有觉得有什么不妥。直到我发现,Cursor在处理1000行以上的文件会很慢,而且会乱七八糟的改,越改越乱。
平常我也会用一些github开源项目,看多了就发现,他们的结构很清晰,有很多小程序。
报告老师,这题我会。我也学过前端啊,这不就前端组件嘛。。
这时我才知道,有python模块化这个东西,相见恨晚啊。。
想法
首先我把之前的AI图片方案的屎山代码,用模块化给重构了,瞬间清爽很多,而且可以在这个项目的基础上接API生图了。
之前我是有这个想法,但奈何cursor处理不了这么大的文件。但是这次重构之后,我想是可以试试接api生图的,直接把参考图做出来,那就有点意思了。
因为有了AI图片方案的模块化代码,我觉得可以在这个基础上做下一个项目了。
那就是用AI视觉模型去分析拆解视频,做出产品视频策划方案。
这份方案的含金量比图片方案更高,因为毕竟做一个视频很贵。稍微能上效果的、有真人出镜的,都是500美金起。后面打视频广告基本都会用这个视频,转化率就靠他了。
同时,亚马逊不断加强视频出现的频次,一个好的品牌产品视频很重要。
执行
首先我把AI图片方案的项目直接给Gemini去分析,让他提取框架和重点内容,给出新项目的建议。

视频理解和图片理解最大的不同就是视频是动态的,图片是静止的。视频是由多个帧数的图片组成的,那分析的时候就会用到抽帧。
抽帧就很专业了,如果只用openai兼容的库去调试的话,有些功能实现不了,比如说定义抽帧秒数,所以就要用到各家单独的库。
豆包的抽帧是两种方式,一种是固定秒数,一种是固定帧数。代码封装的有点复杂。
而阿里支持动态抽帧,限制少很多,不过当然成本更高。为了效果,这次我选择用通义千问测试。
由于模块化的结构很清晰,cursor给我了很好的反馈。在讨论几回后,直接调 Claude的Agent写代码。他竟然一下就把整个项目写好了,太牛杯了!

迭代
我直接就运行成功出方案了。不过,我发现视频方案出的有点图片方案的感觉。而且,我想要的效果是他把场景拆分开,找出几秒的一个场景是什么。

这时,我突然明白了,原来这种项目最大的黑盒子并不是流程,而是提示词。天才!
但是提示词哪里找的?图片方案用到的分析方法,包括构图,颜色,背景等等专业的分析方法。那视频的分析方法包括脚本,运镜,拍摄手法等等。哪里有个完整的体系呢?
我去年写过一个万字长文,介绍如何拆解产品视频。当时的阅读量很低,我还一度把它当作反面案例。花最多的时间,收获最少的结果,这就是自说自话的后果。
https://www.amzalysis.com/article/amazon-video-secret

因为做产品视频的并没有那么多吧,或者没有这么详细的,都是直接给老外外包,但是肯定不会给老外方案。因为我也一直在做视频,之前是不给老外方案的,让他们自由发挥。
但从效果来说,你给他方案,限制一下,还是需要的,不然他自由发挥,有时候效果不可控。
我的意思是说,这篇文章确实很小众,但当时我为什么突发奇想,写了个万字长文。。。
灵光乍现,转念一想,这篇万字长文,不就是最好的知识库吗!我突然想到了李云龙那个表情包,你他娘真是个天才,哈哈哈!!
所以这个项目还是热乎着了,两个小时前刚刚完成,文章也是一气呵成,难道这就是功不唐捐吗?

总有一件事会把你之前所有的经历全串起来,当你真的很想做成一件事的时候,会有一种无人阻挡的感觉,全世界都会为你让路。
当你积累足够多的这种感觉和事情的时候,你的人生就会发生改变。很神奇,有时候世界也没那么客观,相由心生。
效果展示




总结
现在,我已经抽离出了几个可以复用的模块,包括视觉分析、推理模型、文案模型等等。后面有类似项目的话,可以很迅速的拿来用。
整体来说,得益于图片方案模块化项目,这个AI视频拆解项目做的超级快,是我目前这些项目中做的最快的一个。
现在,我也更加明白了如用利用Cursor。先是和AI讨论出一个大的框架,给他一些参考案例,再开始写代码。
关于视频拆解的结果,还是去飞书文档查看。感兴趣的朋友,可以找我跑下代码。