BLIP-2

  • BLIP2-图像文本预训练论文解读

    文章目录 摘要 解决问题 算法 模型结构 通过frozen图像编码器学习视觉语言表征 图像文本对比学习(ITC) 基于图像文本生成(ITG) 图文匹配(ITM) 从大规模语言模型学…

    1天前