当前位置：首页 > 编程笔记 > 正文

已解决

多模态论文阅读之VLMo

来自网友在路上 176876提问提问时间：2023-11-06 00:59:25阅读次数： 76

最佳答案问答题库768位专家为你答疑解惑

VLMo泛读

Title
Motivation
Contribution
Model
Expertiments
Summary

Title

VLMo:Unified Vision_Langugae Pre-Training with Mixture-of-Modality-Experts

Motivation

CLIP和ALIGN都采用dual-encoder的方式分别编码图像和文本，模态之间的交互采用cosine similarity ，这种方法对retrieval tasks(检索任务)及其有效；但是如此shallow intersection between images and text is not enough to handle complex VL classfication tasks. In ViLT, find that CLIP gives a relatively low accuracy on visual resaoning(VR) task; 后来一系列的tasks，采用的fusion encoder 的方式，即一开始分来images and text 然后采用transformer的encoder 做cross-modal 的intersection，这样的architecture 弥补了dual encoder architecture的drawback，But it requires to jointly encode all possible image-text pairs to compute similarity scores for retrieval tasks. The quadratic time complexity leads to a much slower inference speed than the dual-encoder models models whos time complexity is linear. So, 有没**有一种融合上述两种架构的方法呢？**做检索任务的时候用 dual-encoder架构，做classfication的时候用fusion encoder，所以本文提出了Mixture-of-Modality-Experts
VLMo的训练loss是image-text contrastive(ITC), image-text matching(ITM), masked Language modeling(MLM)和ALBEF是一样的。提出了一个stagewise的预训练方法分别vision 和NLP中的large-scale corpus：首先在vision上训练好，再预训练language experts on text-only data，最后将模型用于vision-language pre-training。

Contribution

模型上的改进：Mixture-of-Modality-Experts
训练方式上的改进：分阶段模型预训练

Model

overview of the model

模型中所有的multi-head self-Attention都是share weights的
模型inference的时候很灵活，要做那个任务，切换到那个架构上就行。
分阶段训练策略

Expertiments

比ALBEF性能好很多
在更大的数据集上训练，数据变得更好。

Summary

就是把transformer里的encoder中的FFN分为了几个FFN

查看全文

99%的人还看了

相似问题

猜你感兴趣

版权申明

本文"多模态论文阅读之VLMo"：http://eshow365.cn/6-33171-0.html 内容来自互联网，请自行判断内容的正确性。如有侵权请联系我们，立即删除！

上一篇: 硬科技企业社区“曲率引擎”品牌正式发布
下一篇: 基于猎食者算法的无人机航迹规划-附代码

晴海小常识分享

晴海小常识分享

多模态论文阅读之VLMo

最佳答案问答题库768位专家为你答疑解惑

VLMo泛读

Title

Motivation

Contribution

Model

Expertiments

Summary

99%的人还看了

相似问题

猜你感兴趣

版权申明

推荐回答

晴海小常识分享

晴海小常识分享

多模态论文阅读之VLMo

最佳答案 问答题库768位专家为你答疑解惑

VLMo泛读

Title

Motivation

Contribution

Model

Expertiments

Summary

99%的人还看了

相似问题

猜你感兴趣

版权申明

推荐回答

最佳答案问答题库768位专家为你答疑解惑