已解决
多模态论文阅读之VLMo
来自网友在路上 176876提问 提问时间:2023-11-06 00:59:25阅读次数: 76
最佳答案 问答题库768位专家为你答疑解惑
VLMo泛读
- Title
- Motivation
- Contribution
- Model
- Expertiments
- Summary
Title
VLMo:Unified Vision_Langugae Pre-Training with Mixture-of-Modality-Experts
Motivation
- CLIP和ALIGN都采用dual-encoder的方式分别编码图像和文本,模态之间的交互采用cosine similarity ,这种方法对retrieval tasks(检索任务)及其有效;但是如此shallow intersection between images and text is not enough to handle complex VL classfication tasks. In ViLT, find that CLIP gives a relatively low accuracy on visual resaoning(VR) task; 后来一系列的tasks,采用的fusion encoder 的方式,即一开始分来images and text 然后采用transformer的encoder 做cross-modal 的intersection,这样的architecture 弥补了dual encoder architecture的drawback,But it requires to jointly encode all possible image-text pairs to compute similarity scores for retrieval tasks. The quadratic time complexity leads to a much slower inference speed than the dual-encoder models models whos time complexity is linear. So, 有没**有一种融合上述两种架构的方法呢?**做检索任务的时候用 dual-encoder架构,做classfication的时候用fusion encoder,所以本文提出了Mixture-of-Modality-Experts
- VLMo的训练loss是image-text contrastive(ITC), image-text matching(ITM), masked Language modeling(MLM)和ALBEF是一样的。提出了一个stagewise的预训练方法分别vision 和NLP中的large-scale corpus:首先在vision上训练好,再预训练language experts on text-only data,最后将模型用于vision-language pre-training。
Contribution
- 模型上的改进:Mixture-of-Modality-Experts
- 训练方式上的改进:分阶段模型预训练
Model
- 模型中所有的multi-head self-Attention都是share weights的
- 模型inference的时候很灵活,要做那个任务,切换到那个架构上就行。
- 分阶段训练策略
Expertiments
- 比ALBEF性能好很多
- 在更大的数据集上训练,数据变得更好。
Summary
- 就是把transformer里的encoder中的FFN分为了几个FFN
查看全文
99%的人还看了
相似问题
- 最新AIGC创作系统ChatGPT系统源码,支持最新GPT-4-Turbo模型,支持DALL-E3文生图,图片对话理解功能
- 思维模型 等待效应
- FinGPT:金融垂类大模型架构
- 人工智能基础_机器学习044_使用逻辑回归模型计算逻辑回归概率_以及_逻辑回归代码实现与手动计算概率对比---人工智能工作笔记0084
- Pytorch完整的模型训练套路
- Doris数据模型的选择建议(十三)
- python自动化标注工具+自定义目标P图替换+深度学习大模型(代码+教程+告别手动标注)
- ChatGLM2 大模型微调过程中遇到的一些坑及解决方法(更新中)
- Python实现WOA智能鲸鱼优化算法优化随机森林分类模型(RandomForestClassifier算法)项目实战
- 扩散模型实战(十一):剖析Stable Diffusion Pipeline各个组件
猜你感兴趣
版权申明
本文"多模态论文阅读之VLMo":http://eshow365.cn/6-33171-0.html 内容来自互联网,请自行判断内容的正确性。如有侵权请联系我们,立即删除!
- 上一篇: 硬科技企业社区“曲率引擎”品牌正式发布
- 下一篇: 基于猎食者算法的无人机航迹规划-附代码