解放双眼，用AI视觉模型识别，亚马逊竞品主图

在产品开发，或者竞品调查的时候，第一步会去用插件找和我们产品相似的竞品，再把所有的ASIN收集起来，再下载。

在挑竞品ASIN的时候，就需要人工筛选。这是一项很枯燥，而且容易出错的，并很主观的事情。一是要找足够数量的竞品ASIN，二是判断什么样的产品和我们类似。很多时候，总是在纠结，这个产品到底是不是竞品。

想法

经过上次用算法给关键词评分的经验后，这次我很容易就想到了，是否可以让AI的视觉模型识别竞品的主图，然后经过多模态，对比我们的产品，再通过相似度评分，从而在一定程度上客观的挑选相似竞品。

在询问Claude后，他经过思考，就给我了四个方案。第一个方案是，纯语义识别标题和描述，这个准确性很难保证。

第二个方案是，基于tensorflow图像相似度分析，高端但是没必要，就那200个产品，还要吃电脑的CPU。

第三个方案是，结合前两个方案，综合评分，有点意思了。

第四个方案，和我的想法有点接近了。用预训练的视觉模型去理解图像。

然后，我询问他是否可以用多模态的视觉模型结合方案四去优化。这时，他就给了一个完整的方案，结合OpenAI兼容的模型去理解图像，再和标题描述文本结合，去综合评分。

由于视觉模型不涉及英文的输出，同时考虑到速度原因，优先选择国内的模型。阿里模型太多了，傻傻分不清楚，而且免费的少，主要适合2b商用。

智谱GLM-4V-flash虽然免费，但版本有点老，好像是24年的。

字节跳动的豆包模型是25年1月出来的，还新鲜热乎的，而且正赶上送50万token的活动，那就不好意思了，嘿嘿。

依然选择老牌测试员“投影仪”，我选择了一个筒状的mini投影仪作为对比产品。

经过第一轮ASIN的合并去重清洗，剩下了200个产品，然后直接让豆包模型去跑。

代码启动，泡上一杯茶，运行5分钟后完成，得到了跑分结果。

可以看到每个产品后都给了文本评分和视觉评分，最后得出综合总分，真正的实现把主观的判断用评分去量化。

最后把相似度前20输出成html方便查看。到这里，我可以按相似度评分降序，把低分不相似的产品全部删除，保留我需要的产品，可以大大提高筛选竞品的效率。

这是我用Cursor扫描整个代码，用Claude做出的流程图。

第一步，设置api key，写关键词，放对比图片。

第二步，用TF-IDF把文本向量化，包括标题，五点，描述等，计算文本相似度

第三步，用多模态AI大模型分析图片，计算视觉相似度

第四步，计算综合评分，保存到表格，生成HTML报告。

不得不说，Claude 3.7的编程能力很强，只要简单的一句话就能生成一个简单的项目。剩下的就是需要我们有足够多的想法，去改造工作流程，实实在在用AI提高效率。

由于篇幅有限，我把相似度评分的表格和HTML的完整报告放到了飞书文档，感兴趣的朋友，可以加我微信领取。

PS:

由于之前开源过一版关键词清洗库，所以很多朋友会问我python安装问题。其实我建议，这种程序报错的问题，可以直接去问AI，效率会更高。可以把你自己的电脑系统也告诉AI，更容易出解决方案。