运用机器学习教计算机“看懂”视频

当你家长辈将一段视频上传到云端，它很可能就要孤零零地躺在那里而无人问津，除非这位长辈比我奶奶更善于为视频添加标签和标题——我奶奶特别喜欢用手机拍视频，只要有家庭聚会就拍个不停，但是很可惜，尽管她拍的内容都很有趣，她却不知道怎样才能吸引观众注意。于是，她拍的视频，基本上除了我和我姐姐追着看，其他人一无所知。

我知道你家长辈（还有朋友、同事以及其他亲戚）的情况可能跟我奶奶差不多，为什么？因为用户上传、储存在云端的视频，有很大一部分根本没人会看，因为想看的观众不知道在哪里可以看到这些视频。

台湾国立清华大学电子工程系教授林嘉文和孙民想到了借助机器学习解决这个问题。简单说就是他们研发出一套系统，由机器人“观看”视频并找出其中最精彩的部分，再创建一个便于搜索的标题，推荐给想要观看此类视频的观众。

就是这样简单，这研究的目的就是让我们的视频多几个观众而已？当然不是。孙教授说：“这项研究让我们朝视觉智能这一目标迈进了一大步，让机器学会理解用户上传视频中的视觉内容。”

具体而言，孙教授开发出一种自动生成视频标题的新方法，该方法利用深度学习自动找出视频中的精彩瞬间，并据此生成一个准确有趣的标题。与此同时，林教授研发出一种能自动在视频中检测人脸的方法，这能为视频生成更丰富的摘要，并为分享这些视频的用户提供相关推荐。通过合作，他们的算法能检测视频的重点内容、生成描述语句，并标记出潜在观众。

他们的研究受到了微软COCO（常用物体图像识别）的启发。COCO是一种新的图像识别、分割、描述数据集，通过人工标记了超过300,000张图像的语义；由于视频从本质上看是一连串连续的图像，因此这个数据集也可用于辅助生成视频标题。2015年，两位教授同微软亚洲研究院多媒体搜索与挖掘组资深研究员梅涛博士合作，利用COCO已有图像及图像描述信息进行句子增强，并利用MSCOCO 的数据训练他们的系统。他们这一研究成果发表在ECCV 2016（欧洲计算机视觉大会，论文链接：https://arxiv.org/abs/1608.07068）上。

目前，孙、林两位教授这一系统已分析了 18,000 部视频并生成了 44,000 个标题/描述。为进一步改进系统，孙教授和他的学生参加了由梅博士组织的微软Video To Text 挑战赛（赛事链接：http://ms-multimedia-challenge.com/challenge），利用比赛中发布的数据来验证他们的系统。孙民教授和梅涛博士则已开始进入下一个阶段的合作，研究如何从个人照片出发，通过学习算法自动讲述更加生动和丰富的故事。

如果你也对视觉智能前沿研究感兴趣，欢迎你尝试微软的计算机视觉 API 。它能从图像中提取丰富的信息，并对视觉数据进行分类和处理，甚至，你也可以用微软在GitHub上发布的实例亲自动手做一个生成视频标题的 App。现在就试试看吧！

微软计算机视觉API专题链接：

https://www.microsoft.com/cognitive-services/en-us/computer-vision-api

微软实例链接：

https://github.com/Microsoft/Cognitive-Samples-VideoFrameAnalysis/

你也许还想看：

下面是福利时间：

11月14日星期一，微软亚洲研究院院友会就要成立了，届时，曾在研究院学习、工作过的200余位来自海内外企业界、学术界和科研领域的院友代表将齐聚一堂，回顾研究院18年来一步一个脚印发展成为中国、亚洲乃至全球范围计算机科学研究重镇的历程。

当天下午，“让世界充满AI-人工智能研讨会”将在微软亚洲研究院召开，来自微软亚洲研究院、Face＋＋，旷视科技、浙江大学、天普大学、苏州天准科技、格灵深瞳、清华大学、阿里云及地平线机器人共计九位演讲嘉宾，将畅谈他们对人工智能最新发展趋势的分析与展望，下图是直播加入方式，亦可直接戳篇末阅读原文：

感谢你关注“微软研究院AI头条”，我们期待你的留言和投稿，共建交流平台。来稿请寄：[email protected]。

微软小冰进驻微软研究院微信啦！快去主页和她聊聊天吧。

继续阅读

阅读原文

运用机器学习教计算机“看懂”视频

计算机视觉：就在你我身边

微软研究员在ImageNet计算机视觉识别挑战中实现里程碑式突破

刷新神经网络新深度：ImageNet计算机视觉挑战赛微软中国研究员夺冠

计算机视觉——让冰冷的机器看懂这个多彩的世界

大会|回顾ACM Multimedia 2016

感谢你关注“微软研究院AI头条”，我们期待你的留言和投稿，共建交流平台。来稿请寄：[email protected]。