点击蓝字 · 关注我们
近日,计算机学院媒体智能实验室硕士研究生邵镇炜的一作论文被人工智能与计算机视觉领域的CCF A类顶级会议CVPR 2023主会(main conference)录用。第一作者邵镇炜1岁那年,被诊断患有“进行性脊肌萎缩症”,肢体一级残疾,没有生活自理能力,生活和学习需要母亲的全程照顾。因为对知识的渴求,这个身体瘦弱的男孩,在漫长的19年里,与病魔抗争,同轮椅为伴,努力克服因身体缺陷带来的种种不便,坚持学业。2017年高考,他考取了644分,超出浙江省一段线67分,以第一名的成绩被杭州电子科技大学计算机专业录取,期间获得2018年中国大学生自强之星、2020年度国家奖学金和浙江省优秀毕业生等荣誉。2021年通过研究生推免的方式加入余宙教授课题组攻读硕士研究生。
在论文“Prompting Large Language Models with Answer Heuristics for Knowledge-based Visual Question Answering”中,课题组研究了如何利用“外部知识”进行跨媒体推理的挑战性问题。GPT-3、ChatGPT这样的大规模语言模型(LLM)已经展现了其内部蕴含了丰富的知识,如何将其作为隐式知识库来进行推理是跨媒体研究的挑战问题。本文提出的Prophet方法提出一种 “答案启发”(answer heuristics)的通用的跨媒体推理框架,通过在大模型上游引入一个可学习的任务相关的视觉问答小模型,来更好地激发大模型的潜力。提出方法在多个外部知识推理的视觉问答数据集上取得了当前最好结果,在OK-VQA数据集上表现显著超越了OpenAI的Flamingo大模型(800亿参数)。该项研究为如何在计算资源受限情况下开展大模型研究提供了一种新思路。论文第一作者为研究生邵镇炜,通讯作者为余宙教授。
CVPR(Computer Vision and Pattern Recognition)是人工智能与计算机视觉领域最高级别的国际顶级学术会议,也是中国计算机学会(CCF)推荐的A类国际学术会议,每年六月召开一次。会议于6月18日-22日在加拿大温哥华召开,今年CVPR共收到了创纪录的9155篇投稿论文,录用2360篇论文,录用率约为25.78%。
近日被CVPR会议录用的还有我院其他两篇论文,计算机学院媒体智能实验室(MIL)论文《ANetQA: A Large-scale Benchmark for Fine-grained Compositional Reasoning over Untrimmed Videos》和计算机学院iGame实验室论文《Masked and Adaptive Transformer for Exemplar Based Image Translation》。
该论文第一作者为余宙教授,通讯作者为俞俊教授
论文实验效果展示
该论文第一作者为计算机学院2021级硕士研究生蒋畅,通讯作者为高飞副教授
实验室介绍
计算机学院媒体智能实验室(MIL)现有全职教师8人,博士/硕士研究生100余名,围绕人工智能、多媒体、计算机视觉的核心研究方向,近五年实验室发表高水平期刊会议100篇,其中IEEE/ACM 会刊和CCF A类会议40余篇,10余篇入选ESI高被引论文,4次获得IEEE权威期刊/会议最佳论文奖。团队主持国家重点研发计划、国家自然科学基金重点项目、科技创新2030重大项目课题在内的20余项国家级项目。因在相关领域的突出贡献,研究成果分别获2020年度浙江省自然科学一等奖和2018年度教育部自然科学二等奖。
计算机学院智能可视建模与仿真实验室(iGame-Lab)目前有教师7名,博士/硕士研究生60余名,以数字经济中的智能制造、虚拟仿真与数字几何处理为研究主线,致力于面向智能制造与虚拟现实的高精度数值仿真、数字几何计算关键理论与方法、深度学习与三维视觉相关研究,取得了一系列创新性研究成果。相关研究得到国家自然科学基金重点/面上项目、国家数值风洞重大工程项目、国家重点研发计划项目、浙江省重点研发计划项目以及之江实验室课题资助。
编辑:何璞玉
校对:杨骏伟
责任编辑:葛梦真
发布:何璞玉
继续阅读
阅读原文