火山引擎总经理谭待
6月10日,火山引擎召开品牌发布会。在发布会上的演讲中,火山引擎总经理谭待提到要把字节跳动最好的技术开放出去,而经过抖音、西瓜等产品的千锤百炼,服务过数亿用户的火山引擎视频云产品就是其中之一。从to C到to B,火山引擎视频云可以延续哪些C端优势?如何利用这些优势为客户提供更好的服务和体验?面对竞争激烈的市场,它又如何突破重围?未来还有哪些值得期待的音视频新场景?
近日,LiveVideoStack来到字节跳动采访了火山引擎视频云产品负责人Keith,他和大家分享了火山引擎视频云的情况,以及对音视频技术未来趋势的看法。
音视频技术的发展和应用
音视频技术在最近几年飞速发展,并应用到各行各业,消除人与人之间的距离。尤其是去年疫情期间,音视频技术给我们的生活带来了巨大的便利,在线课堂、视频会议、直播购物、视频聊天……这些音视频技术的应用场景,让疫情间无法面对面交流的人们,又可以重新相聚在一起。

音视频技术现在和接下来很长一段时间内,依然会不断地深入到各行各业。Keith表示:“我觉得自己很幸运,能够站在这条赛道上,和我的同事们一起,把火山引擎视频云的产品做得更加专业化、更加普适化,并能够在整个社会信息不断视频化的过程中,为来自各行各业的客户和那些需要数字化转型的企业提供服务,使他们能够更便捷地应用音视频技术,并在此基础之上快速发展自己的业务。
Keith说,未来音视频领域的发展应该是更加互动、更加实时的。他认为,视频会议、在线课堂、电商直播购物等将依然是音视频技术大规模应用的热点领域。比如,线上购物不再局限于过去的产品展示,买家可以通过与卖家实时的视频交流获得更好的购物体验;在线课堂使得偏远地区的学生也可以获得优秀的教育资源,消除距离带来的不平等。
“事实上,音视频技术的每一次爆发都跟应用场景有关。场景就像是催化剂,不断刺激着音视频领域的发展。”
火山引擎视频云拥有“与生”俱来的视频播放体验
当下,火山引擎已经推出了统一基础服务、技术中台、智能应用、行业解决方案四层架构,包括A/B测试、智能推荐、veCompass、飞连、增长分析、视频点播、云编辑……等,这些产品都是字节跳动最佳实践的产品化。
视频云属于火山引擎中台层面的服务,Keith认为,其中台最大的优势是与生俱有的视频播放体验。这背后是字节不断打磨抖音播放技术,以及在用户体验上持续迭代的结果。
Keith举了一个具体的例子,他们曾经用8个月的时间,在抖音上试验了100多次,优化自研播放器与解码能力。这在其他云厂商看来,基本上是不可能的,但在抖音这种大场景的实战过程中,这些都是他们需要解决的细节和体验问题,而这些问题,其实是所有音视频App发展到一定规模后必然会遇到的。
“我们会在抖音和西瓜这种大场景中,不断去探索视频播放体验的极致,同时解决这个过程中出现的大规模问题。而这些问题的解决方案,我们会把它沉淀成方法论,然后融合到火山引擎视频云的产品中去,再推向市场。我们的客户在遇到同样问题的时候,就可以从中汲取一些现成的、真实可用的方法,来解决他们所遇到的问题。”
Keith说,其他云厂商可能不会单独投入这么多人去做这种研发、运营,以及数据收集出来后的再优化,也没有这么大的业务场景去做A/B测试,所以很难打磨出火山引擎视频云这样的播放体验。
这里拿移动端举个例子,抖音在多媒体SDK上有很多新需求,比如说视频预加载、预渲染,于是拿A/B测试不断优化产品。当字节的技术同学把体验打磨到最佳后(首创了“零首帧”技术)发现,虽然整个视频云是一个红海,但这块在视频云里还是一个空白,没有人去布局,因为其他视频云厂商对于这类新的需求一时之间难以理解。
产品设计原子化
当然,火山引擎视频云产品化的过程并非一帆风顺,也会遭遇各种挑战。
Keith剖析道,这主要是因为要面对处在不同发展阶段、不同层次的客户,于是他们开始思考如何才能设计出一套产品适用于所有的客户。
“这其实非常考验产品架构师对整个产品的设计。为了解决这个问题,我们的架构师会把产品做最小颗粒的切割然后在同一套API和SDK架构体系里,把它们组合成一套解决方案。因为不同客户会用到其中的不同部分,所以要保证产品颗粒的独立性和耦合性,并用工作流将全部功能串联起来,这样的话,在一套API体系里就能满足不同客户的需求。”
目前,火山引擎视频云逐步推出按照客户需求打包而成的SDK,这种原子化的抽象都会在整个产品推向市场的过程中逐步开放给客户。之后大家可能会看到几百个这样的产品功能点,但这些功能点都是在一套API里可以获取到的。
“但这并不意味着我们要去做产品定制化,我们的产品功能是标准的客户只是取走与他们业务相适应的功能我希望我们的产品能够灵活地匹配到客户需求,产品变得更加灵活化,降低客户的迁移成本和使用成本。”Keith强调。
他解释道,目前从整个行业来看SDK toB并不容易做,主要原因有两个:一是后期服务成本太高,客户每天的反馈量非常大,工作量太大的话,整个团队会变得非常忙碌,无法来做自己正常的迭代;二是客户的付费意愿很低。
为什么字节能去做?Keith认为也有两点:一是在内部服务字节的大量产品,经历的业务复杂度是非常大的,我们做了各种各样足够多的业务适配,无论是否toB,都已经在这个基础上形成了一套通用层的能力;第二就是整个字节上下追求极致的企业文化,让我们可以在技术上做得特别深。
从to C 到 to B
火山引擎视频云团队在字节跳动内部的定位也是技术中台,会关心很多C端的业务问题。因此,他们在支撑C端业务需求的时候,都会主动思考如何横向复制、推广和沉淀,尤其看重解决业务具体问题所沉淀下来的技术和方法,如节省成本、体验优化等。
实际上,无论是抖音、头条,还是西瓜视频,它们在规模和创新上都会有很多的挑战。Keith表示,在解决这些挑战的过程中,会积累很多有价值的技术经验,而这些经验会第一时间经过验证、沉淀,然后开放给客户。
LiveVideoStack得知,火山引擎视频云的B端和抖音这样的C端是完全打通的,无论是能力、还是技术团队人员基本是一样的,这也使得他们在做B端服务的时候,会更直接地从C端的角度去考虑问题。这可能跟很多云厂商不一样,因为他们的B端和C端是不同团队在支撑。
Keith指出,同一套人马做to C和to B,还有一个优势之处是:他们会有很多产品玩法的构想,可以帮助客户在业务上进行创新。
“因为C 端会比较关心怎么把用户吸引进来,以及留住他们,这涉及很多基于直播、连麦和 PK 的玩法。而这些玩法,我们做B端服务时,自然而然形成完整的解决方案,然后输出给客户。”
未来一两年内技术应用
采访中,LiveVideoStack也与Keith聊了音视频技术的未来趋势。
他认为,从音视频的体验来讲,一到两年的时间范围内,会整体向前迭代一层。比如说,直播技术上,电商和教育领域中信息传播的效率和同步问题会得到改善,包括可以支持大规模的课堂和大规模购物这样的场景。另外,火山引擎一直探索的H.266超轻压缩技术,也可以让大家在观感上能够有一个体验的提升。从技术方面来看,RTC技术将会成为整个互联网 App 的一个标配,也会成为下一代互联网通信标准的基础和模式。
技术层面再去深挖的话,如何在全链路上提升画质可能是一个趋势。火山引擎视频云已经在开始对H.266做小规模的试验,预计在两年内做推广。
另外,火山引擎也在持续优化全链路画质的评估技术,在A环节弱化,然后在B环节增强,这种组合会变得更丰富。Keith举了个具体的例子:“比如在抖音的生产端,由于要兼顾投稿率,我们不能给它太大的码率,所以生产出来的视频在头发的细节上有可能变得模糊,那么在后面的转码和手机端播放的环节中,是可以把它恢复过来的。从哪里恢复,怎么恢复更合理,这都是技术可以深挖的地方,经过这一系列组合拳,最终呈现给消费端依旧清晰的画质。”
未来新场景
在与一些实验室、外国公司沟通的过程中,Keith也看到一些新鲜的东西。比如说3D人像投影,把人远距离的投影到另一个空间中去,然后面对面与你聊天;还有3D环境建模,就是把一个真实的环境虚拟化,然后再投影到一个人的面前,让他深处更真实的环境。Keith觉得,其实就是沿着视频这种信息承载方式,创造出一种更身临其境的世界,带来新的交互方式,从而减少人与人之间的距离和成本。

这些技术目前还处在科研的环境中,Keith表示,他们也会找一些非常适合的场景和沃土,让这些技术逐渐的成熟,然后开放给各行各业逐步地应用起来。
如果想了解更多火山引擎视频云技术内容,欢迎关注9月3日LiveVideoStackCon2021北京站上的火山引擎专场,和火山引擎的资深技术开发人员面对面聊聊音视频技术那些事儿。
采访嘉宾:火山引擎视频云产品负责人 Keith
采访人:LiveVideoStack主编 包研
编辑:Alex

字节跳动背后的音视频技术揭秘
音视频技术在近几年呈现突飞猛进的发展,一方面满足了企业对于业务高速增长需求,另一方面也为业务的发展创造了更多的可能性。在本专题中,将展示字节跳动背后的音视频技术,以及如何利用这些技术支撑业务发展并满足合作伙伴的需求。本分享将从音视频编解码开始,回顾音视频编解码技术并进行展望,介绍视频编解码的优化与评估;随后,将介绍音视频在直播方面的应用和如何通过音视频支持业务的增长;最后,将以抖音为例,介绍RTC技术是如何求极致的体验。
详情请扫描图中的二维码或点击阅读原文报名参加专场活动。
继续阅读
阅读原文