MLNLP
社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。

社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。
ACM MM(Multimedia)是由美国计算机学会(Association for Computing Machinery)主办的计算机视觉和多媒体处理领域的顶级国际会议。每年大会特设主题挑战竞赛(Grand Challenges),遴选自全球相关领域的前沿主题。由天津大学、新加坡国立大学、哈工大深圳等单位联合组织的“Visual Spatial Description Challenge”,入选本届ACM MM2024挑战赛议题。欢迎相关学术界、工业界感兴趣同学踊跃报名参与挑战!

1. 赛事背景

视觉空间理解是当前人工智能需要解决的核心问题之一,对未来人工智能技术发展和应用落地起着重要的作用。本次挑战赛聚焦图像空间信息描述上,通过图文生成的形式实现对图像场景的空间信息理解。挑战赛旨在促进相关领域学者的交流合作,推动AI空间理解技术的发展。“MM2024 视觉空间理解-空间描述生成(VSD)挑战赛”于今日开启,面向全球范围接受报名。竞赛最终排名靠前者将收到获奖证明,并将被推荐撰写技术论文投稿发表至ACM ToMM Special Issue。

2. 比赛详情

挑战赛基于两版图像空间描述数据集(VSD Dataset),此数据集基于空间关系判断数据SpatialSense重新标注,包括约3万条英文图文对数据,涵盖各类真实的室内、室外场景。该数据为促进视觉空间理解研究提供了有力的数据支撑
目前,对平面图像的空间信息理解仍然存在困难。一方面是由于平面图像表现的信息有限,对其直接提取空间信息一直是一个难点,尤其是在存在透视错觉和远近景遮挡的场景。另一方面,对空间场景的描述生成存在不准确、不合理的情况,而符合人类的表达方式则需要合理的引入参照物,从而让人能够精准的定位和理解所描述物体和其空间关系。本次挑战者鼓励参赛者以引入人类先验知识的方式更准确的提取图像信息和表达空间关系。
挑战赛具体包括三个子任务:
  • 任务一:空间关系分类
此任务要求构建一个分类模型,根据输入图像和指定两个物体,从9中关系标签中分类他们的空间关系
  • 任务二:单个空间关系描述
此任务要求构建一个图像文本生成模型,根据输入图像和指定两个物体,生成一个合理的句子描述他们空间关系。
  • 任务三:多样性空间关系描述
此任务要求在任务二的基础上,生成3句根据不同视角、参照物进行的空间描述。

3. MM2024比赛时间节点

4. 参赛方式

进入比赛网页填写报名表:https://lllogen.github.io/vsd-challenge.github.io/

5. 组织者

赵煜,天津大学
费豪,新加坡国立大学
李波波,武汉大学
张梅山,哈尔滨工业大学(深圳)
张民,哈尔滨工业大学(深圳)

关于我们

MLNLP 社区是由国内外机器学习与自然语言处理学者联合构建的民间学术社区,目前已经发展为国内外知名的机器学习与自然语言处理社区,旨在促进机器学习,自然语言处理学术界、产业界和广大爱好者之间的进步。
社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。
继续阅读
阅读原文