如今,数字化媒体内容充斥着人们生活的方方面面,但是却因其易复制、易分发的特点,而饱受盗版问题的困扰。比如,《画皮》、《泰囧》、《捉妖记》、《寻龙诀》和《老炮儿》等多部热门电影都发生了首映场即遭盗录的问题;2019 年春节档,《流浪地球》、《飞驰人生》和《疯狂的外星人》等 8 部国产电影仍在上映阶段,盗版资源就在网上出现,预计共造成了约 7.87 亿票房损失。除了盗版外,篡改、造假、盗用等侵害媒体知识产权行为的门槛也变得越来越低,且方法越来越多样化。以上种种不仅严重打击了创作者的积极性,也给整个媒体产业和市场造成了恶劣的负面影响。
针对上述问题,数字水印技术成为一种行之有效的重要技术解决方案。什么是数字水印技术?它有什么特点?它又是如何解决盗版等问题的?带着这些问题,InfoQ 记者采访了阿里媒体安全技术研究团队负责人屏翰和团队成员越永、渡明、乐仙。(本文节选自 《中国顶尖技术团队访谈录》2021 年第四季)
一支“术业有专攻”的技术研究团队
InfoQ:阿里媒体安全技术研究团队成立于什么时候?主要研究方向和领域是什么?
屏翰: 团队成立于 2017 年初,从最初的一两个人发展到如今的十几人,其中博士后 2 人(均有访学经历),博士 6 人,团队其他成员均为 985 重点高校硕士。
目前,团队研究方向主要有两大块:一是数字水印,二是多媒体取证。数字水印领域,细分为音频水印、视频水印、图像水印、文档水印、网页水印等;媒体取证领域,细分为原图识别、篡改检测、篡改定位和来源识别等。
InfoQ:阿里媒体安全技术研究团队成立的背景是什么?
屏翰: 阿里的业务板块比较多,应用场景复杂,集团内部有很多媒体安全场景的需求,包括图像、文档、音频和视频等。并且,不同 BU 之间的很多需求存在一些共性,所以抽象总结研究通用的技术和解决方案。
但是,在实践过程中,我们发现媒体安全技术在知识产权保护领域有更广的应用,可以发挥更大的作用。举几个例子,像商品图,商家聘请专业模特,找专业摄影师拍摄宣传图,但可能被别人直接盗用;为蒙混过关,有人把核酸检测报告进行 P 图,把阳性改成阴性;商家入驻淘宝或天猫平台,上线产品都要提供一定的资质证明,比如营业执照、许可证,如果销售国外品牌,还要提供总代理资格,如果商家没有,可能通过 P 图造假。这些场景都能用到媒体安全技术。
尤其是数字水印技术,它可以在知识产权保护中发挥重要作用。知识产权保护的核心不仅仅是把东西保护起来,重点是让这个东西能更好地传播和分享、被使用和消费。
InfoQ:作为团队负责人,您如何带领团队开展技术研究和开展跨部门协作?
屏翰: 我们团队有十几个人,在专业背景上,团队成员之间互补,我学数学专业,对密码学比较熟悉,而越永的背景是视频编解码,对视频很熟,渡明是音频,乐仙是社交媒体。
数字水印已有二十多年历史,但真正大规模应用不多,因为没有找到好的应用场景。或者有需求时,没有合适的技术。对我们做水印研究的人来说,阿里的一大优势是场景非常丰富。如此,我就知道水印技术可以用在哪,而不同的应用场景对技术的要求不一样。知道应用场景是什么,我就结合应用场景发展技术,这样技术就有不同的能力,提供不同的方案满足应用需求。如此,技术和业务处于正循环,互相促进发展,不仅团队实力可以壮大,而且技术能力也能逐步提高。
从技术能力上讲,如果你不知道这个东西有什么用,或者没有应用场景做检验、验证,那么技术能力就无法得到提高。比如,从学术角度研究,你可能觉得鲁棒性要做得多么好,但是业务方可能希望在满足质量的前提下,大幅提升效率。像商品图,淘宝上一天的商品图过亿,学术界的技术可能没考虑过支持商业的大规模应用,所以学术界跟实际应用离得稍微远一点,而我们结合得更紧密一些。通过真实的业务场景应用,不断检验,提高我们的技术能力。
在协作上,我们与业务方、客户不断在磨合。它们对技术的期待越来越高,这也导致我们的技术能力要与时俱进,支持它们。同时,还有对抗问题,比如与黑灰产作斗争,我们加了水印,它们试图去掉水印,给你搞破坏。在这个过程中,我们的技术能力也在不断发展和进步。
数字水印技术的现状
InfoQ:目前,业界有哪些主流的数字水印技术方案?它们的不同点是什么?
越永: 在图像水印领域,Digimarc 公司是图像水印技术的行业标杆。该公司在这个领域深耕多年,拥有 1200 多项专利,其图像水印技术涵盖数字和实体图像。Digimarc 利用自己拥有专利的数字水印技术和信号处理技术在包装、打印材料和图像中增加不可感知的水印。这项技术拥有充足且可扩展的容量来应对广泛的商业应用需求。据我们了解,Digimarc 公司的主要业务集中在条形码的推广和应用。
在音频水印领域,Verance 公司旗下基于音频水印的内容保护产品 Cinavia 比较有代表性,它是电影领域蓝光标准的一部分,UHD/4K 内容的行业要求,并被混合广播宽带电视(HbbTV)协会在宽带应用规范中采用,也是电影、电视和音乐领域中内容保护的商业标杆。这项技术专注高级影视内容的版权保护,使其在预发行、院线上映期间和电视播放时免受盗版的侵害。
在视频水印领域,Nexguard 的技术在国际上比较流行,他们通过视频水印技术实现多媒体内容的版权保护和反盗版服务。Nexguard 的主要业务围绕付费电视内容保护展开,包括点播电视节目、体育赛事直播、互联网直播服务、互联网电视等。他们 的付费电视服务(NexGuard Pay-TV)将特定用户的取证水印嵌入到托管的付费电视客户端设备(机顶盒或智能电视)中,几乎所有的主要芯片组供应商都支持该技术,并且不需要额外的前端视频处理。
而在文档水印上,宇飞的文档水印技术则比较出众。他们的技术包括覆盖于全文档并与页面进行融合的网纹水印;人眼不可识别,但是计算机可识读的离散可见水印;可通过滤光镜看见的非离散实体水印;彩色方案偏光性水印;以及用于验证的水印二维条码。宇飞的水印技术不仅适用于电子文档,还适用于打印(印刷)的实体文档,并且综合考虑了印刷品防复制、防破损、防模糊、快速检测等需求。
InfoQ:能介绍一下你们在数字水印技术方面的研究情况吗?
屏翰: 阿里自主研发了一套完整的水印技术体系,从载体上看,我们的水印技术覆盖图像、文档、音视频、网页等几乎全部的数字媒体;从技术角度看,我们的水印在载体和水印预处理、水印嵌入和提取、消息机制等所有操作阶段都拥有相应的技术实现;从应用角度,我们的水印技术包含版权保护、追踪溯源、内容认证等相关解决方案,并且还在寻找新的技术突破点;从业务角度看,我们的水印技术在解决权利纠纷、追踪传播路径、感知安全风险、支持用户增长、防伪、内容认证等问题上已经发挥一定的作用。
数字水印技术的难点与落地
InfoQ:在数字水印技术上,你们认为比较大的挑战有哪些?
屏翰: 主要有五个方面:
第一,技术可靠性。存在未知组合攻击、水印的安全性、不可感知性与高鲁棒性的矛盾、水印技术标准和认证不够完备等问题。比如,攻击者可能利用其它未知攻击手段对载体内容进行处理,在保证载体失真较少情况下令水印提取失效;在获取大量嵌入水印前后的样本情况下,攻击者可能估计出水印的嵌入空间,从而进一步对水印去除或替换;抗屏摄的水印技术在能做到无对比图情况下不可感知,但与原图对比仍存在视觉差异。
第二,社会的应用。大众对水印的能力边界不清晰、数据多样性带来的问题、需要专业的开发、部署和运营人员。比如,有些用户希望仅凭借水印就想得到 DRM 的 所有功能;文档水印应用中可能出现某些特殊文档无法嵌入水印的情况。
第三,法规的完善。水印的取证环节链路过长、水印的法律边界还不够清晰、水印相关法律法规还在完善中。比如,水印取证需要司法鉴定机构全链路参与,对个人用户成本过高;从盗版内容中提取出水印作为版权所有权证明在法律界尚未完全达成共识。
第四,新媒介、新技术。载体属性的调整、压缩标准的更新、传输信道的变化。比如,视频发展从 1080p 到 2k 到 4k 再到 8k,从  SDR 到 HDR,视频水印技术需要进行适配;图像、视频的压缩标准更新迭代,特别是实时流压缩协议,对已有水印技术的鲁棒性和隐蔽性带来挑战。
第五,新需求、新场景。新应用场景不断涌现、水印性能需要随业务变化进行调整。比如,水印用于媒体桥、第二屏、热词识别、签到打卡等新场景;图像水印用于信息传递需要穿透不同的社交媒体平台,提出新的鲁棒性需求。
InfoQ:数字水印技术在阿里最先落地的业务场景是什么?有什么样的效果?
越永: 最早是短视频和影视版权保护,比如版权影视剧的交易和运营。版权商把视频内容卖给运营商,但也会担心运营商泄露影视内容或运营商员工参与盗版,所以需要使用数字水印技术。之前,版权方会在市场上购买水印技术解决方案,但是国外公司报价非常高。
用了我们技术后,它就不用采购国外垄断公司的技术方案,一年可以节省几百万。我们利用数字水印技术解决了两个问题:一是链路上,哪个地方容易被切入,插入盗链,成为盗版的开口。同时,在分发时,我们可以追溯到影视是从哪个渠道或哪些点泄露;二是,在终端上,找到泄露的视频泄露节点。
其次是商品图。以前通过员工来识别图像是否 P 图,或者把这个工作外包出去,但是无论怎样它都有人工成本,一年大概在千万级左右。同时,如果这张图是假的,但是没识别出来,这张假图就会给我们带来资损成本。针对商品图,数字水印技术已在阿里落地三四年。我们先在内部进行灰度测试,然后开放给商家。如果商家想用,可以加入知识产权保护计划,但我们会提前告知对方,如果使用这个技术,它对图片质量或多或少有点影响。因此,商家会自行评估。一旦加入计划,如果有其他商家盗用商品图,那么他在上传图片时就会被系统自动拦截。
目前,我们的数字水印累计完成 70 余篇专利申请,接入应用数超过 700 个,覆盖办公、业务、娱乐等平台。同时,水印服务累计调用量近 60 亿次,覆盖过亿文件,在内部,文档、网页和图像是调用量最大的,但音频、视频的调用量也不少;针对外部平台,则以图像水印调用为主。
InfoQ:从技术到产品再到落地,你们如何研发出真正有市场价值的数字水印产品?
乐仙: 数字水印技术在阿里内部有两种落地方式。一方面,技术驱动,我们研究一项新技术会根据它的性能指标去评估其应用场景和业务价值,然后主动去跟业务方沟通,看它们是不是对我们的技术感兴趣,我们的技术能不能提升它们的业务能力或解决它们棘手的问题。
另一方面,我们会通过内部的技术交流平台宣传我们的数字水印能力,有业务方看到我们的技术,了解了我们的能力后,就会主动联系我们。大家一起探讨如何通过数字水印技术满足业务方的需求。
通过这两种方式,我们从无到有,慢慢将我们的技术在阿里内部铺开。当我们的技术得到应用后,接下来就是性能验证、技术迭代的过程。
渡明: 从研究到具体的业务场景,它们之间差别很大,像我们早期研究的数字水印技术,它的 DEMO 或雏形离真实场景有一定的距离。因此,我们要去做适配或调整优化。
越永: 先有技术,再有产品,最后落地,这是一个不断迭代的过程。它越往后走,情况越复杂,可能到落地时,每个人都有自己定制化或个性化需求,反映到产品上就是有各种各样的形态。从研究层面,数字水印要解决很多技术维度的问题,包括质量、效率和不可见性,到落地时,业务方可能只关注一点,把这一点做到极致、最好。
回归到产品上,产品每个点都要做到最好,但这种产品不存在。我们需要不断地去打磨,做出取舍和权衡。
InfoQ:从技术到产品再到落地,你们认为哪些环节比较难?
屏翰: 一方面,数据多样性问题导致部分特例数据无法嵌入和提取,比如文档水印的应用场景中可能出现某些特殊文档无法嵌入水印。如果应用开发人员的知识或能力不足,可能会误用系统造成内容感知质量过低。另一方面,大众对数字水印技术尚不了解,可能出现适用于这项技术的场景没有使用数字水印,但不适合数字水印的场景盲目接入数字水印。
从我的经验看,两头比较难,一头是研究上,从 0 到 1 去创造全新的技术;另一头是真正落地,满足千变万化的现实场景需求。
先说研究。首先,你自己要有足够的积累,科研是“站在巨人的肩膀上”,你先要爬上巨人的肩膀,这需要不断积累、广泛阅读和大量实验,对前人的工作和业界发展水平了如指掌。其次,就是更难的地方,要研发属于自己的技术,虽然路子很多,但是都不容易。
比如,如果发现了现有技术的不足,那么你就要有解决这些技术缺陷的能力;或者,你有自己的创新,有一些灵光一现的想法,这就是所谓的“打入了技术无人区”,你会面对很多之前从未遇到的问题,依靠自己和团队的力量一步步解决问题。或者,你发现了许多问题的底层共性难题,解决这个问题能提升一批算法的性能。
落地的难点主要有两方面:一是现实场景确实太多,太复杂,业务需求“千差万别”,另一方面是要跟人打交道,需要能在“同一个频道”里沟通对话。我们要调研应用链路的每个细节,再根据客户要求,评估和调整我们的技术,制定通信和接口模式,尤其是面对外部客户时,还要考虑技术安全问题。并且,我们要面对各种各样的攻击,因为水印技术主要用于知识产权保护,无论是黑灰产,还是泄密者,他们会采取各种各样的方法攻击你的水印技术。
此外,业务方有时并不能理解技术的细节,所以有时会挑战技术的性能极限,比如“你这个东西要达到 99% 的准确率,我们才用”,但是这项技术的理论极限可能是 90%,甚至更低。对业务方来说,80%、90%、99% 只是一个数字,但是技术越往后,每提升一个点的准确率,背后的代价都是巨大的。
InfoQ:如今,视频很流行,尤其短视频特火,在这个领域,你们的数字水印技术研究情况怎么样?
越永: 我们在长视频和短视频领域都有相应的技术能力。先说长视频,其业务形态比较成熟,对应的技术要求也比较成熟。而短视频是新的媒体形态,它有一些新的保护需求,比如长视频切成短视频,短视频里切条抽出来,再从视频里扣出一块区域,它的技术难度可能更高。
长视频,好莱坞要求 15 分钟提取水印信息,而短视频只有几秒或十几秒的水印提取时间,这是两者的差别。当然,并不是需要的时间越短,技术越难,因为还要考虑质量,长视频是 15 分钟提取出来,必须把视频质量保持得非常好,短视频比如几秒钟把(水印)提取出来,质量相对来说稍微差一点,这是可以接受的。
渡明: 我稍微补充一下,因为长视频通常是 PGC 模式,就是专业机构生产,通常其价值都特别大,因为投入了很大成本,可能需要专业团队才能制作,包括电视剧、电影或纪录片,仅仅一集投入的资金就非常高,内容的价值也非常大,一旦被泄露或盗版,对生产者的损失非常大。所以,它们对版权保护的诉求非常高。但是,短视频可以批量生产,投入成本低,制作门槛不高,对其的保护意愿不会特别高,除非有一些精品的短视频。
所以,从水印需求上看,长视频的诉求更强,而短视频中的头部短视频内容可能也有比较强的保护意愿。
InfoQ:做数字水印技术研究经历中,有哪些让你们印象比较深刻的事?
渡明: 自己研究或尝试一些新方法的过程中,你可能卡壳了一天或两天,寻找各种问题,一直找不到,就卡在那,陷进去了,回头都回不来,不知道问题在哪,突然有一天灵光一闪,知道了问题所在,很快研究局面就打开了,顺利验证。这种豁然开朗的感觉是令人印象最深刻的。
屏翰: 我们的水印技术和取证技术在某个集团关键项目中得到应用,帮助业务方解决了一个很大的痛点,而这个问题困扰了业务方七到八个月。技术上线后,业务方看到了效果,对我们平台也更有信心。这种“多赢”的效果和技术的真正作用,让我们很高兴,很有成就感和技术人的自豪感。
数字水印技术领域的新尝试
InfoQ:你们目前在数字水印上正在做哪些新尝试?
屏翰: 大致七个方面:
第一,水印安全与攻防,包括抗隐写分析的鲁棒水印、水印的盲盒攻击方法。
第二,信息论模型,包括基于信息论研究水印的安全性、鲁棒性等,结合信息论构建完善的水印方法理论框架。
第三,基于深度学习的水印,包括基于深度学习的水印嵌入提取方法、深度学习结合信号处理的水印方法。
第四,神经网络水印,包括网络模型的水印嵌入提取方法,水印对模型性能的影响、不同水印的相互影响。
第五,加密域水印,包括在加密信息中嵌入数字水印,数据全生命周期无死角安全防护,加密信息的标注、验证和防篡改。
第六,数据库水印,包括数据库防篡改水印、数据库溯源水印。
第七,水印结合区块链,比如水印技术和区块链技术相互融合。
迷你书推荐
中国顶尖技术团队访谈录(2021 年第四季)开放下载
本期 《中国顶尖技术团队访谈录》 精选了腾讯科恩、金蝶、海尔集团 IT、小红书、网易、阿里等技术团队在技术落地、团队建设方面的实践经验及心得体会。InfoQ 希望通过这样的记录,向外界传递顶尖技术团队的做事方法 / 技术实践,让开发者了解他们的知识积累、技术演进、产品锤炼与团队文化等,并从中获得有价值的见解。
如果你身处传统企业经历了完整的数字化转型过程或者正在互联网公司进行创新技术的研发,并希望 InfoQ 可以关注并采访你所在的技术团队,可以添加微信:caifangfang842852,请注明来意及公司名称。
扫描二维码或点击【阅读原文】下载本期访谈录电子书↓
继续阅读
阅读原文