海归学者发起的公益学术平台
分享信息,整合资源

交流学术,偶尔风月
原文作者:Meeyoung Cha & Kunwoo Park

翻译作者:Miao YU
【译者注:近年来,各类视频直播平台的兴起吸引了大量用户,催生了巨大的娱乐市场。直播过程中精彩片段(Highlight)或史诗时刻(Epic Moments)的自动识别和提取,对生成标签、视频分类及内容推荐等方面都是至关重要的。】
如何在视频直播的内容中发现那些难忘的或“史诗般的”时刻?Meeyoung Cha和Kunwoo Park在这篇博客中介绍了他们最近在EPJ Data Science上发表的工作,该研究使用了深度学习模型来识别这些直播中的史诗时刻。
图片来源: Jack B, Unsplash
现在,流媒体直播已经成为一种流行的互联网文化。TikTok和Twitch等平台的月活跃用户已超过6000万至1.4亿。事实上,任何人都可以在这些平台上发布内容,这使得识别视频中的有趣时刻变得非常困难,因为这些看起来平凡而冗长的视频数量非常庞大。
EPJ Data Science上发表的一项新研究中,我们展示了人工智能(AI)如何帮助视频编辑们快速发现直播内容中的有趣片段。
识别史诗时刻的判断依据包括观众在聊天信息中的反应、视频帧的结构、观看次数和流媒体信息。其中,表情符号和观众的反应是指导人工智能算法的关键因素。
我们利用深度学习算法从多模态数据中提取“史诗时刻(Epic Moments)”的特征,然后根据学习到的特征去推荐各种情景下的有趣视频片段,包括胜利(victory)、有趣(funny)、窘迫(awkward)和尴尬(embarrassing)时刻。
通过用户研究进行测试后发现,该人工智能推荐算法在识别史诗时刻方面可以达到与专家建议相媲美的程度。
使用推荐的史诗片段剪辑作为指导数据
为了训练算法,我们需要能够代表“epicness”的指导数据。在Twitch上,有人工制作的“(有趣片段)剪辑”或“Twitch 精彩时刻”,这些视频是由主播和观众提供的,时长在5秒至60秒。
图1是一段时长11分55秒的直播内容示例,其中有两个片段被列为“推荐片段”,分别为53秒和30秒。
图1. 流媒体直播的有趣片段示例。每个片段分别获得了21次观看和17万次观看。通过收集这些片段,我们可以构建一种算法来自动检测“史诗时刻”。© The Authors (2021)
第二个片段达到了170000多次观看,说明这个片段的内容更符合“史诗时刻”。该图还显示了用户对所选视频片段的反应。表情符号或特定的Twitch符号在聊天中很常见。
我们收集了200万用户推荐的视频片段和相关的用户对话记录,以了解构成史诗时刻的“要素”。在本研究中,我们将“史诗般的时刻”定义为:令人愉快的、对一段长视频内容的简短总结。
史诗时刻(Epic Moments)与视频亮点(Video Highlights)相似,即它们都是长视频的简短总结,但两者的功能却是不同的。史诗时刻代表着“令人愉快的”时刻,而精彩时刻本质上是指“信息丰富的”。
作为史诗时刻线索的社交信号
我们发现表情和用户反应在寻找史诗时刻的过程中起着关键作用。
利用t-分布随机邻居嵌入(t-SNE)识别用户聊天中出现的表情,将聚类结果绘制在二维视图中(图2)。
不同的颜色表示集群类别,图中展示了与各个情感集距离最近的五个示例单词标记。我们可以在Twitch上看到类似的表情功能。
图2. 每个子集的表情及相关文本示例。(上图)是每个表情嵌入向量,(下图)是示例表情及相关文本标记。由t-SNE绘制,通过表情集和词向量之间的距离选择相关标记。© The Authors (2021)
通过以上思路,我们构建了一个“可解释性多模态检测(Multimodal Detection with INTerpretability,MINT)”深度学习模型,该模型融合并分析了聊天、视频元数据和视频观看次数计算等关键功能。
这三个方面的综合特征捕捉到了史诗时刻的不同方面,将这些线索结合在一起可以得到更好的预测结果。
另外一项用户研究也证实,算法推荐与人类推荐的视频一样有趣。
此外,算法推荐涉及各种情景,如失败的游戏时刻、有趣的舞蹈动作、游戏期间的意外翻盘和非游戏时刻等,如图3所示。
图3. 关于史诗时刻算法推荐的示例。MINT模型可以发现(a)失败,(b)有趣,(c)胜出,和(d)自由说唱(非游戏时刻)。© The Authors (2021)
随着越来越多的人花时间在互联网上观看直播内容,人工智能推荐算法可以帮助编辑和观众发现史诗般的时刻。
对MINT算法代码和用于训练的剪辑数据集感兴趣的研究人员,可以在我们的GitHub页面上找到更多信息https://github.com/dscig/twitch-highlight-detection
长按识别二维码 阅读论文
Meeyoung Cha & Kunwoo Park
Meeyoung Cha是韩国基础科学研究所(IBS)的首席研究员和韩国高级科学技术院(KAIST)的副教授。她的研究方向是数据科学,重点是对与社会相关的信息传播过程进行建模。
Kunwoo Park是韩国崇实大学(SSU)人工智能融合学院的助理教授。他的研究兴趣是通过数据科学方法和社会数据解决社会问题。
点击“阅读原文”阅读论文原文。
本文系网易新闻·网易号“各有态度”特色内容
媒体转载联系授权请看下方
继续阅读
阅读原文