VLM (MLLM)系列——论文解读总结

建议

以下几篇都看一下吧,因为这几篇相对出发点都有新意,并且也都在同期的思南评测中有排名。

CLIP

*数据:用了4亿的互联网自有图文对数据。

*模型:由一个视觉编码器、一个文本编码器

*训练:一阶段预训练,在 32768 的batch size 下做的对比学习。

中文CLIP

*数据:由LAION 5B等构成一个2亿的图文对数据。

*模型:整体和CLIP类似,由一个视觉编码器、一个文本编码器。

*训练:两阶段预训练,权重来自CLIP等。第一阶段32768的batch size下冻结图像编码器,训练文本编码器;第二阶段,训练图像和文本编码器,batch size 和学习率降低。

BLIP 

*1数据:4M的混合数据,coco、LAION等。数据清洗流程capFlit。

*模型:统一了文本生成任务和图文检索任务。整体由图像编码器、bert 增加了cross attention、因果attention等。有ITC、ITM、ITG三个loss构成。

*训练:一阶段预训练,ITC仿照moco用了队列扩展大小,ITM采用了困难样本

本文来自网络,不代表协通编程立场,如若转载,请注明出处:https://net2asp.com/4e2f3eb61a.html