来源
:ACM MMSys2022

主讲人
:Andreas Husa

内容整理
:曹靖宜

为了解决足球视频中的缩略图选择,本文基于现有研究对于一个好的缩略图属性定义了一个规则集并基于规则集实现了一个端到端、自动化、模块化、可配置的缩略图选择框架 HOST-ATS,实验结果证明该框架性能优于静态选择及 Hecate 算法。
目录
  • 研究背景
  • 本文算法
  • 实验结果
    • 数据集
    • 模块结果
    • 复杂度测试
    • 与其他算法比较
  • 总结

研究背景

与足球相关的内容量,例如视频片段或统计数据,数量巨大同时快速增长,需要提供更好的剪辑及摘要。这些剪辑需要质量高且整洁的缩略图。
  • 突出显示剪辑
    • 精彩片段是显示足球比赛中重要事件的短视频
    • 许多职业足球联盟在其网站的图库中展示精彩片段
    • 突出显示剪辑需要有吸引力的缩略图
  • 缩略图选择现有方法
    • 手动选择:需要花费较多时间和资源,但可以得到高质量的结果
    • 静态选择:对于所有的视频使用相同的规则,可以降低时间和成本,但无法保证缩略图质量
    • 自动选择:使用机器学习算法选择图像,可以降低时间资源,也可能潜在提供高质量的图像
基于以上背景,主讲人提出本文的研究问题:如何从足球目标视频中自动选择出好的缩略图?

本文算法

基于现有研究和作者观察:缩略图应该具有较高的相关性吸引力,提出以下七个规则。
提出的七个规则
  • 规则1:缩略图应当是视频中的某一帧
  • 规则2:缩略图应当是人的特写
  • 规则3:缩略图应当包含人脸
  • 规则4:缩略图不应当包含特定图像,例如LOGO
  • 规则5:缩略图不应当包含渐变过渡的视觉效果
  • 规则6:缩略图不应当是模糊的
  • 规则7:缩略图画面不应当较暗
作者基于以上规则建立了一个决策树,图像被分类为四个不同的优先群体,优先级越高的组有越大概率被选为缩略图。如果图像包含 LOGO,将会被排序到优先级最低的组;如果图像包含特写镜头或者特定人脸,将被排序到最高优先级。
在此基础上作者提出 HOST-ATS(HOST Autimatic Thumbnail Selection System),这是一个端到端、自动化、模块化、可配置的缩略图选择算法。
HOST-ATS
  • 第一步:预处理
    • 预处理包括裁剪、下采样、缩小等,可以减少处理时间并更容易得到相关图像
预处理
  • 第二步:内容分析和优先级分配
    • 包括LOGO检测、人脸检测等
  • 第三步:图像质量分析
    • 过滤掉低质量图片

实验结果

数据集

数据集用于训练及测试不同的LOGO检测及人脸检测算法。
数据集

模块结果

LOGO检测

LOGO检测结果及定量评价结果如下所示:
LOGO检测结果
LOGO检测定量结果

特写镜头检测

特写镜头检测示例及定量评价结果如下所示:
特写镜头检测结果
特写镜头检测定量结果

人脸检测

使用Dlib、MTCNN、Haar和DNN四种模型进行人脸检测,结果如下所示:
人脸检测结果
人脸检测定量结果
在足球图像中对四种人脸检测算法进行比较:
  • Dlib:几乎没有错误检测,但是检测速度慢于Haar和DNN
  • MTCNN:比其他模型检测速度慢,但是在观众(人脸较小)检测中性能较好
  • Haar:检测速度快,但准确率较低
  • DNN:和 Haar 检测速度相当,与其他模型相比可以检测到更多的特写人脸(人脸较大)

图像质量预测

在图像质量预测中,对于输入图像给出一个分数指示图像质量,较低的分数意味着更好的质量。
图像质量预测结果

模糊检测

使用拉普拉斯算子和 SVD 两种方法。
  • 拉普拉斯算子(OpenCV):越高的分数表示模糊越少(下图右侧)
  • SVD(Numpy):越低的分数表示模糊越少(下图左侧)
模糊检测结果

复杂度测试

运行时间

运行时间
根据运行时包含的模块,每个视频剪辑的执行时间可以在1.5-4秒之间,该算法可应用于实时完成足球视频制作。

与其他算法比较

与Hecate比较
  • 相似的运行时间
    • Hecate:3.4s
    • HOST-ATS:3.7s
  • Hecate 没有关注到任何与上下文相关的缩略图
  • 相比之下,HOST-ATS 更倾向于人的特写图像
此外,作者还基于网络实现用户研究,左侧为一段足球视频,中间给出两种算法得出的缩略图,用户选择哪一个是给定视频最好的。实验中共包含22段视频,对比了 HOST-ATS 和手工选择及静态选择,同时对用户年龄、性别、视频编辑经历等进行统计。
基于网络的用户研究
用户研究结果
根据用户研究结果可以看出:HOST-ATS 击败了静态选择,而仍然无法打败手动选择的缩略图,说明本算法仍然具有一定的改进空间。
作者询问用户“什么方面在缩略图中是重要的?”,结果如下图所示,排名前三的答案是:高质量图像、动作图像、球员的脸。

总结

  • 通过调研相关工作对于一个好的缩略图属性定义了一个规则集
  • 基于规则集实现了一个端到端、自动化、模块化、可配置的缩略图选择框架
  • 通过用户研究验证了该框架所选择的缩略图是较好的
  • 对于系统性能进行分析并评估其实时表现
  • 与其他最先进的缩略图自动选择算法进行比较
图形用户界面
附上演讲视频:
继续阅读
阅读原文