依然硬核！用AI拆解亚马逊视频，出视频策划（原来我一直没有用好Cursor）

上次在做竞品分析的时候，想到了把一个代码文件给模块化。平常我都是只有一个文件，最高记录就是AI图片方案的代码，有2000多行。。

作为一个非科班选手，并没有觉得有什么不妥。直到我发现，Cursor在处理1000行以上的文件会很慢，而且会乱七八糟的改，越改越乱。

平常我也会用一些github开源项目，看多了就发现，他们的结构很清晰，有很多小程序。

报告老师，这题我会。我也学过前端啊，这不就前端组件嘛。。

这时我才知道，有python模块化这个东西，相见恨晚啊。。

想法

首先我把之前的AI图片方案的屎山代码，用模块化给重构了，瞬间清爽很多，而且可以在这个项目的基础上接API生图了。

之前我是有这个想法，但奈何cursor处理不了这么大的文件。但是这次重构之后，我想是可以试试接api生图的，直接把参考图做出来，那就有点意思了。

因为有了AI图片方案的模块化代码，我觉得可以在这个基础上做下一个项目了。

那就是用AI视觉模型去分析拆解视频，做出产品视频策划方案。

这份方案的含金量比图片方案更高，因为毕竟做一个视频很贵。稍微能上效果的、有真人出镜的，都是500美金起。后面打视频广告基本都会用这个视频，转化率就靠他了。

同时，亚马逊不断加强视频出现的频次，一个好的品牌产品视频很重要。

首先我把AI图片方案的项目直接给Gemini去分析，让他提取框架和重点内容，给出新项目的建议。

视频理解和图片理解最大的不同就是视频是动态的，图片是静止的。视频是由多个帧数的图片组成的，那分析的时候就会用到抽帧。

抽帧就很专业了，如果只用openai兼容的库去调试的话，有些功能实现不了，比如说定义抽帧秒数，所以就要用到各家单独的库。

豆包的抽帧是两种方式，一种是固定秒数，一种是固定帧数。代码封装的有点复杂。

而阿里支持动态抽帧，限制少很多，不过当然成本更高。为了效果，这次我选择用通义千问测试。

由于模块化的结构很清晰，cursor给我了很好的反馈。在讨论几回后，直接调 Claude的Agent写代码。他竟然一下就把整个项目写好了，太牛杯了！

我直接就运行成功出方案了。不过，我发现视频方案出的有点图片方案的感觉。而且，我想要的效果是他把场景拆分开，找出几秒的一个场景是什么。

这时，我突然明白了，原来这种项目最大的黑盒子并不是流程，而是提示词。天才！

但是提示词哪里找的？图片方案用到的分析方法，包括构图，颜色，背景等等专业的分析方法。那视频的分析方法包括脚本，运镜，拍摄手法等等。哪里有个完整的体系呢？

我去年写过一个万字长文，介绍如何拆解产品视频。当时的阅读量很低，我还一度把它当作反面案例。花最多的时间，收获最少的结果，这就是自说自话的后果。

因为做产品视频的并没有那么多吧，或者没有这么详细的，都是直接给老外外包，但是肯定不会给老外方案。因为我也一直在做视频，之前是不给老外方案的，让他们自由发挥。

但从效果来说，你给他方案，限制一下，还是需要的，不然他自由发挥，有时候效果不可控。

我的意思是说，这篇文章确实很小众，但当时我为什么突发奇想，写了个万字长文。。。

灵光乍现，转念一想，这篇万字长文，不就是最好的知识库吗！我突然想到了李云龙那个表情包，你他娘真是个天才，哈哈哈！！

所以这个项目还是热乎着了，两个小时前刚刚完成，文章也是一气呵成，难道这就是功不唐捐吗？

总有一件事会把你之前所有的经历全串起来，当你真的很想做成一件事的时候，会有一种无人阻挡的感觉，全世界都会为你让路。

当你积累足够多的这种感觉和事情的时候，你的人生就会发生改变。很神奇，有时候世界也没那么客观，相由心生。

现在，我已经抽离出了几个可以复用的模块，包括视觉分析、推理模型、文案模型等等。后面有类似项目的话，可以很迅速的拿来用。

整体来说，得益于图片方案模块化项目，这个AI视频拆解项目做的超级快，是我目前这些项目中做的最快的一个。

现在，我也更加明白了如用利用Cursor。先是和AI讨论出一个大的框架，给他一些参考案例，再开始写代码。

关于视频拆解的结果，还是去飞书文档查看。感兴趣的朋友，可以找我跑下代码。