当前位置:首页 > 编程笔记 > 正文
已解决

多模态论文阅读之BLIP

来自网友在路上 171871提问 提问时间:2023-11-07 10:14:00阅读次数: 71

最佳答案 问答题库718位专家为你答疑解惑

BLIP泛读

  • Title
  • Motivation
  • Contribution
  • Model

Title

BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation

Motivation

  1. 模型角度:clip albef等要么采用encoder-base model 要么采用encoder-decoder model. However, encoder-based models are less straightforward to directly transfer to text generation tasks(e.g. image captioning), whereas encoder-decoder models have not been sucessfully adopted for image-text retrieval tasks. 那有没有一个统一的框架呢?
  2. 数据角度:SOTA的方法(如CLIP、ALBEF等)都在从web上收集到的图文对上进行预训练。尽管通过扩展数据集获得了性能提升,但本文的研究表明,对于视觉语言学习来说,有噪声的网络文本是次优(suboptimal)的。

Contribution

  1. Bootstrapping: 从网页上获得了嘈杂的数据集训练一个模型,再通过一些方法获得一个更干净的数据集,能不能训练处一个更好的模型。
  2. Unified:caption filter

Model

在这里插入图片描述

查看全文

99%的人还看了

猜你感兴趣

版权申明

本文"多模态论文阅读之BLIP":http://eshow365.cn/6-34448-0.html 内容来自互联网,请自行判断内容的正确性。如有侵权请联系我们,立即删除!