采访讲师 
王豪(天野)
阿里云智能视频云资深技术专家
在谈及自己的工作时,王豪总称自己非常幸运:幸运地遇到了多媒体技术爆发性发展的时间段,幸运地遇到了从零打造一款商用视频编码器的机会...... 时隔两年,LiveVideoStack 再次采访到王豪,对方依旧年轻,依旧在思考、在探索、在开拓属于自己的崭新的道路。但这一次,我们想探究这位年轻资深技术专家“幸运”背后的故事。
 Make Video Codec Great Again
2010-2011
2010年,王豪从华中科技大学毕业,此后便投身于多媒体方向的技术开发,最初的工作一直聚焦在音频领域的研发。
2013
工作开始聚焦在视频方向后,从流媒体、视频编码、视频处理到质量评价,王豪都有所涉及,并从零开始打造了一款广泛商用的视频编码器及其前后处理系统。
2020
加入阿里云智能视频云后,王豪负责视频编码与增强算法团队,团队聚焦在视频编码、视频前后处理以及质量评价方向,目的是为用户提供极致的视频体验。
Q1.
您最近关注的技术趋势有哪些,以及有哪些是您认为比较有发展前景的?

我个人的技术栈一直聚焦在视频编码和处理方向,也一直在思考,在这个方向上,我们短期和长期的布局是什么,中短期布局如何保证竞争力,以及长期布局如何避免系统性踏空。
利用 AI 辅助视频压缩是业界非常关注的一个方向,它有这几种思路:
1. 私有编码模式:端到端的视频压缩,基于深度学习的模块级视频压缩优化;
2. 基于实时图像生成的视频压缩,因为GAN生成人脸和人体比较成熟,但在其他场景成熟度不够,因此这个方向在会议场景比较火,我们也在持续关注和尝试。
3. 基于标准编解码器的视频编码与处理联合优化,包括两部分:利用视频处理提升编码压缩率和利用视频编码提升视频处理效果。
这其中,我最关注“基于标准编解码器的视频编码与处理联合优化”。针对视频后处理,还有如何进行编码决策优化(包括模式和码率),同时扩展到分层编码,这个方向是整个端云联合优化的核心,对工业界应用有很大价值,希望到时候和大家一起探讨。
Q2.
您进入新团队后主要承担哪些工作,最大的感受是什么?
我目前负责视频编码与增强方向,团队主要寻求质量、码率、成本的最优平衡,所有任何能帮助压缩率提升的技术我们都有所涉及,包括视频编码、视频处理、质量评价以及任何能帮助压缩和质量提升的 high level 的技术。
加入阿里云智能视频云后,我最大的感受是——“脚踏实地,天马行空”, 脚踏实地的意思是要保持对技术的敬畏,不能脱离技术实质;而天马行空讲的是创新,有要敢于引领,敢于有争做世界第一的魄力和担当。
Q3.
您曾经参与上线过许多重要的音视频业务,能和我们分享这其中让您印象深刻的一个吗?
印象最深的肯定是当下正在做的业务。我们团队正在进行窄带高清第二代的算法优化升级,在如何持续提画质和降码率的过程中走了很多弯路。
目前,在窄带第二代优化中,我们从人眼视觉出发,将客观最优转向主观最优,同时利用AI进行视频增强,再加上视频编码处理联合优化,使得码率节省的同时,主观质量也明显得到优化,这项技术更适合高热内容场景的处理,能够为客户带来更大的商业价值。
如果要为想从事视频编解码优化工作的同学推荐一本书/一门课,你会推荐什么?
编码优化是一个“理论+标准+工程”的流程,需要不断地去迭代、循环,带着理论的疑问,在标准中思考原因,在工程优化中发现问题,再从理论中寻找答案。
理论方面,视频编码属于信源编码(Source Coding)方向,一般应用都为有损压缩,因此,想要从事相关工作的同学在信源编码和率失真优化(Rate Distoriton Optimization)方面都需要积累基础的理论知识。
标准方面,中文书推荐杨付正老师的《新一代高效视频编码 H.265/HEVC:原理、标准与实现》,英文书推荐 High Efficiency Video Coding.Algorithms and Architectures,可以看一个标准入门,不用贪多。
工程方面,建议大家可以拿一个开源编码器入手,比如x265,还可以和HM对比着看,思考两者的差异,包括数据结构的设计、模块架构、码控等等,这样会更有感觉。
Q4.
您此前接受咱们的采访时,有讨论过视频Codec的未来格局
“先说结论:视频codec的未来格局必然是群雄争霸的局面,并且在中美贸易战的影响可能出现新的变数。由于HEVC专利池的各种问题,H.264一家独大的优势不复存在,目前AV1在国外基于谷歌生态的优势,已经在流媒体领域站住了脚跟,形成三强争霸的局面。对于下一代编码器而言,AV2预计距发布还有一定的时间,这里先不评价,已经发布的AVS3基于当前贸易战的形式下可能有新的机会,而对于EVC和VVC,专利策略将是市场是否接受的关键因素,目前还不好说。”
—— 在VVC定稿、神经视频编码进一步突破、AV1不断普及的一年后,您对此有哪些的看法与思考呢?
现在依然是群雄争霸的局面,主流也依然是 H.264VP9 因为压缩率没有真正和 H.264 拉开差距,虽然生态也很全面,但使用不多。H.265 的硬件解码在消费电子和智能电视上被广泛支持,唯一的软肋是浏览器。目前,在流媒体领域,H.265 依然是除 264 外最合适的 codec。
去年,AV1AVS3 都找到了自己的优势场景。AV1 凭借谷歌在 WebRTC、浏览器以及安卓的生态里被广泛推广,因此在浏览器和 WebRTC 上的应用都有优势,但硬件编码器的支持还是不足,尤其在消费电子领域,目前还没有看到对 AV1 的相关支持。此外,Sisvel 专利池的问题也还没看到官方回应。而AVS3 在国内电视广播行业成了超高清的事实标准,央视也用 AVS3 进行了 8K 直播。
VVC 从技术上来看是最先进的视频压缩协议,最合适在业务闭环场景下应用,但目前其专利费结构最早要到今年年中才能获知,个人认为专利问题很难解决,同时硬件解码支持不明朗,需要持续观察。
Q5.
除去已经被多次讨论的在线教育、语音社交等领域,在您看来,视频云行业还有哪些领域将迎来井喷式的发展,以及您个人是如何思考这个问题的?
目前视频的生产、制作和处理远远还不成熟,视频制作依然存在门槛,视频处理的带宽也依然很大。如何满足整个行业对视频化的需求、如何帮助社会和行业降低视频制作的门槛、降低视频处理的成本,使视频能够普惠化,这些都是亟待解决的问题,而解决该矛盾的核心就是视频生成和处理领域的技术,因此我们非常看好内容生产与处理领域。
阿里云智能视频云希望能推动这个时代将大部分内容的表达方式和信息的传播媒介从图文进化为视频,这个方向也是我们的发力点。当然,这中间还有很多关键技术需要持续提升和突破,例如实时渲染技术,AI在生产制作领域的进化等。

Q6.
视频云行业的蛋糕会在未来持续变大吗,还是说当前的一片繁荣景象只是“蛋糕正在被重新分配”,由此带来了更加激烈的竞争而已?阿里云智能视频云又为挣得“更大的蛋糕”而在视频编码等相关领域做了哪些预调研、产品方案以及技术储备?
目前视频已经广泛地应用于各行各业,视频也开始承载越来越多的社会信息,很多交互都从线下转到线上,随着 5G 时代的到来,相信视频领域将会不可避免地迎来更猛烈的爆发。为帮助各行各业更好地承载信息,视频技术的演进方向也会越来越云化、数字化、普惠化,视频云行业会持续高速增长。
我们一直致力于如何将视频技术普惠化,普惠化的核心是成本和体验,基于这个思路,在视频编码和处理方向,最核心的就是如何帮客户提升质量,同时降低带宽成本和服务器成本。
我们所有技术布局都围绕这个目的,总的来讲做了如下方向的布局和持续突破:
1.  编码内核:软硬一体,编码器持续降成本;
2.  AI辅助压缩,场景自适应编码;
3.  下一代编码器优化,持续打造编码竞争力。
Make Video Codec Great Again!
Q:您的职业发展伴随着视频编解码技术的不断迭代升级,能和我们分享您在编解码技术上的学习心得以及您自己的职业理想吗?
感觉自己比较幸运,个人发展正好遇到了多媒体技术爆发性发展的时间段,尤其是视频技术。看到越多越多的视频压缩和处理技术不断涌现出来,是一件非常爽的事情。

关于个人职业发展,我觉得最重要的还是兴趣驱使,这对于行业入门以及后续的个人提升都非常重要。尤其是入门期间,需要真正由兴趣驱动,才能在繁忙的工作中强行抽出时间去真正熟悉一项技术。
其次,有关个人技术的升级,我觉得这就是一个不断地自我否定和自我肯定的过程:自我否定能帮助我们找到提升自己的方向,自我肯定则能帮助我们在困难的时候继续走下去。理想的话,目前是希望能做出真正能改变世界、影响世界的技术和算法,能改变人们的沟通和交互方式;从技术上来说的话,希望和同行们一起 Make Video Codec Great Again
Q7.
本次参与 LiveVideoStackCon 2021 上海站,您将带来有关阿里云智能视频云窄带高清的优化思路,可以稍微和我们剧透一些您的演讲内容吗?观众将会从您的演讲中收获哪些干货?届时,您最期待与业内同行进行哪些问题的具体探讨?
主要会分享:
1.  我们在窄带高清方面的思考,窄带高清归根结底是一个压缩问题,随着深度学习的发展,视频处理,视频生成辅助压缩成为学术界和工业界的研究重点,在这个方向我们的观点是什么?窄带高清的终极目标是什么?
2.  为达到这个终极目的,我们对窄带高清技术的短期思路和长期思路分别是什么?为什么对窄带来讲,评价的唯一方式是主观?
3.  基于该思路,我们在短期进展及对未来的布局和思考。
Q8.
对于这次 LiveVideoStackCon 2021 上海站的所有演讲阵容中,您对哪方面的分享内容最感兴趣?
从个人来讲,视频编码和处理方向的技术我都很感兴趣,比如如何利用 AI 辅助传统视频编码提升压缩率、传输哪些 bit 对视频后处理质量提升最大、编解码联动时编码器的决策需要做哪些优化、如何利用 bit 帮助视频处理降低复杂度,以及编码器前处理如何保证编码后质量最优等问题。
除技术外,我对技术商业策略方向也非常感兴趣。目前视频技术已经慢慢变成了一个社会、行业的基础能力,在这个背景下,视频如何更好地服务于各行各业,对技术、产业、商业提出的挑战是什么?跨在技术和商业落地之间的鸿沟是什么?以及如何跨越这些鸿沟等,都是很值得讨论的话题。
编辑:Coco Liang
LiveVideoStackCon 2021 上海站
时间:2021年4月16日-4月17日
我们准备好全新的内容,在上海欢迎您的到来
点击【阅读原文】了解更多详情
继续阅读
阅读原文