VLM （MLLM）系列——论文解读总结

1天前 • 移动开发

建议

以下几篇都看一下吧，因为这几篇相对出发点都有新意，并且也都在同期的思南评测中有排名。

CLIP

*数据：用了4亿的互联网自有图文对数据。

*模型：由一个视觉编码器、一个文本编码器

*训练：一阶段预训练，在 32768 的batch size 下做的对比学习。

中文CLIP

*数据：由LAION 5B等构成一个2亿的图文对数据。

*模型：整体和CLIP类似，由一个视觉编码器、一个文本编码器。

*训练：两阶段预训练，权重来自CLIP等。第一阶段32768的batch size下冻结图像编码器，训练文本编码器；第二阶段，训练图像和文本编码器，batch size 和学习率降低。

BLIP

*1数据：4M的混合数据，coco、LAION等。数据清洗流程capFlit。

*模型：统一了文本生成任务和图文检索任务。整体由图像编码器、bert 增加了cross attention、因果attention等。有ITC、ITM、ITG三个loss构成。

*训练：一阶段预训练，ITC仿照moco用了队列扩展大小，ITM采用了困难样本

本文来自网络，不代表协通编程立场，如若转载，请注明出处：https://net2asp.com/4e2f3eb61a.html

AIGC 人工智能图像处理深度学习算法计算机视觉

赞 (0)

Python中的while循环，知其然知其所以然

« 上一篇 1天前

搭建一套洗衣洗鞋上门预约小程序系统有多个方便

下一篇 » 1天前

编程语言

【Qt】Qt配置

需要云服务器等云产品来学习Linux的同学可以移步/腾讯云–>腾讯云<–/阿里云–>阿里云<–/华为云&#8…

1天前
编程语言

第十七篇【传奇开心果系列】Python的OpenCV库技术点案例示例：自适应阈值二值化处理图像提取文字

传奇开心果短博文系列系列短博文目录 Python的OpenCV库技术点案例示例系列短博文目录前言一、自适应阈值二值化处理图像提取文字轮廓的初步示例代码：二、扩展思路介绍 …

1天前
编程语言

【C语言】指针笔试题解析

大家好，我是苏貝，本篇博客带大家了解指针和数组笔试题解析，如果你觉得我写的还不错的话，可以给我一个赞👍吗，感谢❤️ 1. 下面程序的结果是什么？ int main(…

1天前
编程语言

Vue项目中实现ElementUI按需引入

🐱 个人主页：不叫猫先生 🙋‍♂️ 作者简介：2022年度博客之星前端领域TOP 2，前端领域优质作者、阿里云专家博主，专注于前端各领域技术，共同学…

1天前
编程语言

【C语言趣味教程】(4) 变量：代码注释 | 变量的声明 | 初始化与赋值 | 变量的命名 | 关键字 | 标识符 | 变量名的命名规范

? 《C语言趣味教程》? 猛戳订阅！！！ Ⅰ. 代码注释（Comment） 0x00 引入：注释的作用 “程序员最讨厌两种人：一种是不写注释的人，一种是让我写注释的人…

1天前
编程语言

C/C++数据结构——队列

个人主页：仍有未知等待探索_C语言疑难,数据结构,小项目-CSDN博客专题分栏：数据结构_仍有未知等待探索的博客-CSDN博客目录一、前言二、队列的基本操作（循环队） 1、…

1天前
编程语言

C语言——小细节和小知识9

一、大小端字节序 1、介绍在计算机系统中，大小端（Endianness）是指多字节数据的存储和读取顺序。它是数据在内存中如何排列的问题，特别是与字节顺序相关。C语言中的数据存储大…

1天前
基于Python淘宝服装销售数据可视化系统设计与实现(Django框架) 研究背景与意义、国内外研究现状

博主介绍：黄菊华老师《Vue.js入门与商城开发实战》《微信小程序商城开发》图书作者，CSDN博客专家，在线教育专家，CSDN钻石讲师；专注大学生毕业设计教育和辅导。所有项目都…

编程语言 1天前
编程语言

C++初阶之一篇文章让你掌握vector（模拟实现）

vector（模拟实现） 1.为什么要模拟实现vector? 2.模拟实现vector需要注意哪些问题? 3.vector模拟实现 3.1 命名空间vector的成员变量定义 3….

1天前
编程语言

【C++进阶(四)】STL大法–list深度剖析&list迭代器问题探讨

💓博主CSDN主页:杭电码农-NEO💓 ⏩专栏分类:C++从入门到精通⏪ 🚚代码仓库:NEO的学习日记🚚 …

1天前