当前,多模态大模型(MLLM)在多项视觉任务上展现出了强大的认知理解能力,也成为CVPR2024备受瞩目的热门领域之一。
我整理了210篇多模态最新研究成果140份多模态和大模型报告、多模态大模型最全综述、多模态大模型免费公开课、8节多模态前沿系列课!
这些多模态大模型学习资料都是免费领的!希望能帮助大家获得论文创新点的启发。
扫码回复“多模态”
前沿资料全部免费领取
这次公开课,我邀请了沃恩智慧联合创始211高校副教授Kimi 老师在6月5号晚20:00点带领同学们探索多模态大模型的最新发展,此外,课程中还将免费分享多个顶会级的idea。
  • 课程大纲
1. 解析最新多模态大模型技术
2. 多模态大模型发高质量论文方法
3. 解析最新多模态大模型的idea
扫码回复“多模态”
预约6月5号晚20:00直播
  • 多模态系列课
这次我还联系多位顶会审稿人做了8节《多模态前沿系列课》,帮助同学们了解多模态最新前沿知识和相关论文解读。
扫码回复“多模态”
0.01元解锁《多模态前沿系列课》
01
多模态-LISA
CVPR2024最新成果!Rick老师带你一步一步剖析Lisa模型的详细原理,了解Lisa的具体实现
02
处理任意视觉提示的多模态大模型
剖析ViP-LLaVA模型原理
了解ViP-LLaVA的具体实现
03
多模态Transformer的七十二变     
Transformer用于多模态的背景及优势
各种变式及原因
04
多模态情感分析未来的研究方向
更为复杂的情感分析
基于提示机制的多模态情感分析
05
大模型时代的多模态情感分析
预训练模型
针对多模态的大模型训练
代表性论文解读
06
多模态情感分析:主流方法与应用 
多模态情感分析背景 
跨模态特征提取与表示
对比学习训练
滑动查看课程详情 →
另外我们还免费附赠210篇多模态论文合集140份最新多模态风口分析报告以及多模态大模型最全综述,从论文到行业风口报告,一网打尽。
1.港大和字节提出Groma:多模态大模型新范式!模拟人类先感知后认知,精确定位图中物体!

2.Pink:图像细粒度指代理解多模态大模型

3.NExT-GPT:任意对任意多模态 LLM
4.DreamLLM:协同多模态理解与创造
5.具有动态离散视觉标记化的 LLM 统一语言视觉预训练
扫码回复“多模态”
领210篇多模态前沿论文
6.MoE-LLaVA:大型视觉语言模型专家组合
7.语言增强型多模态接地模型LEGO:Language Enhanced Multi-modal Grounding Model
8.InternLM-XComposer2:掌握视觉语言大模型中的自由格式文本图像合成和理解
9.mPLUG-PaperOwl:使用多模态大型语言模型进行科学图表分析
10.LION:赋能具有双级视觉知识的多模态大型语言模型
※仅展示前10篇
扫码回复“多模态”
领210篇多模态前沿论文
多模态大模型最全综述,由微软7位华人研究员撰写,足足119页—Multimodal Foundation Models:From Specialists to General-Purpose Assistants。
腾讯, A Lab 发表了一篇关于多模态大模型的最新综述《MM-LLMs: Recent Advances in MultiModal Largelanguage Models》,整理归纳了现在多模态大模型的整体架构设计方向,并且提供了现有主流的 26 个多模态大模型的简介。
扫码回复“多模态”
领最全大模型综述
最后,为了帮助大家紧抓多模态大模型的风口,我还整理了最新的多模态和大模型行业发展报告,总共140份,全部无偿分享!
扫码回复“多模态”
领140份多模态和大模型前沿报告
继续阅读
阅读原文