在计算机视觉领域,骨干网络一直是特征提取的重要部件。从 AlexNet 到 ResNet,卷积网络 CNN 在很长一段时间内一直是视觉任务的标配。近年来,基于注意力机制的 Transformer 和以全连接层为主的 MLP 网络也开始在计算机视觉领域崭露头角。与现有主流 CNN 模型相比,基于 Transformer 或 MLP 的模型在视觉任务上也显示出了良好的性能。
直到现在,关于谁是更好的视觉骨干网络还是一个仍在探索和颇具争议的课题。传统的卷积网络将图像视作一个矩阵或网格,通过滑动窗口对邻域像素点或特征点进行聚合;视觉 Transformer 或 MLP 则是输入图片切分为若干个图像块,形成一个序列,用注意力机制或全连接层处理序列关系。网格或序列表示方法,对于图像来说显得不够灵活。比如一个人往往由头部、四肢和躯干构成,这些部位之间有一定连接关系,是一种非规则化的会变化的模式。
针对这些情况,华为诺亚方舟实验室联合中国科学院软件研究所、北大等机构的研究者在论文《Vision GNN: An Image is Worth Graph of Nodes》中,提出了一种新型视觉图神经网络(Vision GNN),它能够更灵活地对图像表征进行建模,在图像识别和目标检测等通用视觉任务取得了不错的效果。
机器之心最新一期线上分享邀请到了论文共同一作、华为诺亚方舟实验室研究员韩凯,为大家详细解读如何只用 GNN 来做视觉任务。
分享主题:Vision GNN: An Image is Worth Graph of Nodes
分享嘉宾:韩凯,华为诺亚方舟实验室研究员,主要研究方向为深度学习和计算机视觉。他在 NeurIPS/CVPR/TPAMI 等顶会顶刊发表 20 余篇论文,多项研究成果应用于华为产品线。他的谷歌学术引用 2000+,其中 GhostNet 和 TNT 入选 PaperDigest Most Influential Papers 榜单。
分享摘要:华为诺亚实验室的研究员联合高校发现图神经网络(GNN)也能做视觉骨干网络。将图像表示为图结构,通过简洁高效的适配,提出一种新型视觉网络架构 ViG,表现优于传统的卷积网络和 Transformer。在 ImageNet 图像识别任务,ViG 在相似计算量情况下 Top-1 正确率达 82.1%,高于 ResNet 和 Swin Transformer。
论文链接:https://arxiv.org/pdf/2206.00272.pdf

加群看直播

直播间:关注机动组视频号预约直播,北京时间6月29日19:00开播。
交流群:本次直播有QA环节,欢迎加入本次直播交流群探讨交流。
机器之心 · 机动组
机动组是机器之心发起的人工智能技术社区,聚焦于学术研究与技术实践主题内容,为社区用户带来技术线上公开课、学术分享、技术实践、走近顶尖实验室等系列内容。机动组也将不定期举办线下学术交流会与组织人才服务、产业技术对接等活动欢迎所有 AI 领域技术从业者加入
  • 点击阅读原文,访问机动组官网,观看往期回顾;
  • 关注机动组服务号,获取每周直播预告
继续阅读
阅读原文