GGV有话说:
GGV投资笔记是 GGV纪源资本关于投资、商业、科技的所见所闻所想,探讨关于世界的一切。
在这里,你可以收获:
全球优秀科技公司管理经验、一线调研;
顶级风险投资人&创业者经验分享;
大航海时代的世界人文历史、商业见闻……
以下是 GGV投资笔记系列第133期。
编辑:张颖
受访嘉宾:ZMO.AI 创始人&CEO 张诗莹
AI具有想象力与创造力吗?
“Yuan初”创始人张诗莹的回答是“Yes.”
“Yuan初”的母公司,张诗莹所创办的ZMO一直致力于利用AI来进行图片、视频等内容的直接生成——是的,几个关键词就足以让AI自动生成图片或视频,除ZMO刚刚上线的中文版产品“Yuan初”(https://yuan.zmoai.cn/)之外,这种崭新的内容创造机制已经在欧美流行起来。
AI的创造力,是一点点被ZMO团队“发掘”的,它可以创造出“不合常理”的事物,例如像豹子一样的兔子,狗狗和面包的结合,也可以创造出超脱于当今创作者的新风格。
“Yuan初”的初心并非仅仅是想象与创造,而是希望实实在在地解决用户的需求,从大V、博主与UP主到新媒体小编,以及所有需要海报、包装设计、产品展示的从业者。对他们来说,一些设计图的初始版本已经可以交给AI来完成,设计师可以从事更加重要的创意工作,互联网的内容生产也许不再是一件门槛过高的事情。
Diffusion model技术突破带来的革命
在推出“Yuan初”之前,张诗莹的团队一直在生成式AI(Generative AI)这片领域探索,并且小有成就。转折点发生在2022年4月,当时行业掀起了一场不小的风暴,“AI生成”技术崭新的算法框架出现了。
Diffusion model框架的理论基础在2015年已经被提出【1】,直到最近1-2年开始在图像生成的效果上有了很大突破【2】,开始被大家关注,成为学界的新宠。同时,在“文本-图像”跨模态大模型的加持下,Diffusion model更是在文字生成图片这一应用中大放异彩,受到业界与资本的追捧。生成模型领域在过去近8年时间里,大多数任务的SOTA一直都是GAN(生成对抗网络)框架霸榜。GAN通过对抗学习的方式,同时训练一个判别器和生成器,两者互相对抗互相促进提升,最终目的是让生成器生成出以假乱真的真实图像,让判别器难以判断是真是假,以达到纳什均衡。
文字生成图片这一应用在GAN框架中也有被广泛研究,不过从生成质量以及图文匹配度来说,都还离实用化还有很大距离。其原因主要在于三点:
1)GAN在生成图像时直接一次性完成从噪声/条件到最终结果的生成,这种一步到位的方式难度很大;
2)GAN本身基于的对抗学习训练方式并不是最优的,容易陷入局部优化的困境,并且在学习复杂数据分布时容易训练失败;
3)缺乏大模型的加持,文本与图像多模态之间的关联性难以充分学习,导致在非限定场景中的效果较差。
张诗莹这样解释Diffusion model的算法框架优势:Diffusion不是直接在噪声和图像直接进行映射,而是通过逐级前向加噪和逆向去噪的过程实现噪声和图像直接的映射。这种AI学习之后,就可以生成非常精美的图片,让生成效果提升一个台阶。此外在跨模态大模型的帮助下,AI能够和用户通过自然语言进行简单的交互,生成用户心中所想的高质量图像。
Diffusion model的算法框架在北美火爆了一把,很多人通过其中的开源框架来推出自己的新一代“生成工具”。ZMO团队也看到AI生成可能会改变未来的很多事情,因此上线了“Yuan初”(yuan.zmoai.cn)。
让机器来画图、做视频,听起来是一件有些神奇的事,但长远来看它将解决重要的刚需——这是张诗莹的理解。她认为人们在虚拟世界里流连的时间越来越多了,一个在真实世界里盯着电脑或手机的人,消费的是虚拟世界的文字、图片或视频,而理所当然的结果就是虚拟世界之中文字、图片或视频的需求量正在指数级增加。不仅需求量提升,对质量的要求也非常高,只有新鲜的、吸引人的才是好的。
那么这些文字、图片或视频内容还能从哪里供给呢,张诗莹认为,如果只有小部分人是专业创作者,那么生产速度是永远赶不上需求速度的。但每个普通人都可以依靠AI生成内容。在尝试AI生成阶段,她还发现AI这个“灵魂画手”具有让人惊艳的创造力,也许大家低估了AI的能力边界。
在图片这个切入口之后,张诗莹的ZMO团队最近也在研究海外的AI文字生成器,这些生成器在国外已算是风靡,迅速走向了商业化,Airbnb等企业也是它们的客户。
AI不仅是“灵魂画手”,也可以是“灵魂写手”,给一个标题和几个关键字,生成的AI文字甚至可以“以假乱真”。张诗莹觉得很有意思的地方在于,如果给AI一个命题,AI甚至可以在文章开头“自问自答”这个概念的含义,而它写出的含义是在Google上搜不到的。换句话说,这是AI自己所“理解”的概念,通过理解再进行与其他概念的关联而感受到概念与概念之间的关系,再去自动生成。
既然AI可以自行创作,那么这个话题往深处展开,很容易让人疑惑:它是否会替代创作者?张诗莹给出的解释是,AI能够将创作门槛降到最低,甚至由于机器学习可以了解人们最感兴趣的信息与最喜欢的图像,而使得AI作品更抓人眼球,做出真正高流量的爆款作品。但AI没有自己的观点,因此它只能做一个帮手,而不是创作的主角。
ZMO团队持续尝试AI生成的驱动力是让每个人成为创作者。因此,他们正在打造使用难度低的产品,而想要降低图片素材的门槛,不仅可以生成,还可以直接更换元素。例如“Yuan初”的新功能photo  editing可以支持用户直接擦除图片的部分,无论是背景或是人像,都可以迅速换上自己想要的元素。“Yuan初”正在成为一个“AI版Photoshop”。
“Yuan初”的用户是谁:
所有与传播和市场相关的工作者
张诗莹曾经在曾是Apple Air Pods产品线创始团队核心人员,主要负责产品线的系统构架研发,设计,生产整个流程,之后加入Google 担任AR系统构架师,负责Glass, Reflector等项目的算法和构架。
尽管自己拥有技术与产品的双重背景,她把ZMO的技术积累归功于团队:Liqian Ma在北大研究生毕业后前往鲁汶大学读了人工智能的博士学位,导师是CVPR最高奖马尔奖的获得者,尽管已经拿到了Google、Facebook、Adobe等巨头的offer,仍然选择创立一家基于AI技术的公司;Han专攻图像生成算法,很早便在 CVPR上发表了AI相关的文章,并将Diffusion model上一代的GAN技术使用到1024高清版并且可以商用的级别,在腾讯工作时,他所在的AI部门也获得了不少奖项;另外一位联合创始人Roger Yin虽然负责营销,但同样拥有拥有UBC计算机工程学位。
美国疫情刚爆发时,张诗莹偶尔与Google ads的同事交流,她发现仅仅在线广告上面,内容的需求量就已经激增起来。尤其在新冠疫情后,人们把更多时间花在线上,对于内容的新鲜度更加挑剔了。线上办公引发了内容狂潮,每位博主大V都在费尽心思地做好内容,吸引读者与消费者。
当然,想到创业,张诗莹首先思考的还是AI生成的商业前景。能够立刻想到的是两个产业:广告与娱乐。广告对内容的需求程度极高,她的前东家Google 更是一家主要收入为广告的巨头,因此张诗莹自然而然地考虑到广告商对内容生成产品的付费意愿。
不过,对内容生产有强烈需求的不仅是娱乐行业,“Yuan初”的定位是给所有需要进行市场推广、自我展示的从业者。这种需求是十分刚性的:首先,国内外对版权都很重视,当大家不得不配图的时候,AI设计图片不会面临图库图片的版权纷争。
其次,线上图片实际上存在“供不应求”的问题,如果大家因为使用图库的图片而遭遇图片“撞车”,以国外为例,Google会把内容创作的权重降低,因为图片不够原创性。
ZMO目前旗下有两款产品,一款主打跨境电商,另一款是如今上线的“Yuan初”。虽然上线不久,但后者的客户群已经拓展得很宽:图书编辑会使用它形成插画,游戏开发者通过对游戏当中角色的的描述生成角色形象再加以雕琢,网站设计师通过AI作图来设计底稿并请客户提出修改意见。ZMO的一位客户是一家巧克力棒厂商,它的新品包装还未设计出来,但产品又着急上线,就用AI一口气生成了10个包装提前进行展示。(如下图)
AI生成器甚至就像是想象力丰富的乙方,“甲方爸爸”提出的需求可以瞬间生成样片。偶尔甲方的需求是一只赛博朋克的猴子,在埃菲尔铁塔旁边喝酒的考拉,这些天马行空的想法对设计师来说这或许有些魔幻,但AI会结合不同风格,例如漫画风、油画风、艺术风、3D渲染风等风格来给出让人想不到的图片。


除了帮客户解决生成问题,AI在机器学习之后结合流量分析形成了优化推荐机制,ZMO因此与几家客户测试了效果。他们计算了CTR(Click-Through-Rate)即点击通过率,观察消费者是否喜欢这些AI生成的图片,目前来看,几家客户的CTR都被提升了2-3倍。
下一步,“Yuan初”的发力方向将是3D模型与视频。3D模型被认为是最花时间的设计之一,由于要模拟真实的场景与人体,既耗费资金又耗时间。不过,ZMO团队认为AI算法足以生成低模3D模型,可以为客户直接省钱提效。
另一个重要的功能是AI视频生成。张诗莹提到,无论是文字、图片还是3D、视频,归根结底都是要 形成好的内容,能给到创作者去吸引流量,产生点赞、评论与转发,因此视频制作的功能也会做得更丰富一些,可以让客户只输入几个关键词与标题,就能生成一整段文案,并且配上对应的图片,变成一个简单的、拥有配音的视频。而“Yuan初”的用户只需要把用户主流的需求收集并整理好,就能根据自己的受众喜好去调试AI视频内容。
可以看出,ZMO的每项动作,张诗莹都将其导向商业,即能否帮客户省钱省时与赚钱。在她看来,所有与传播和市场沾边的工种都会是“Yuan初”的潜在用户,而所有与传播和市场相关的工作也都是企业需要砸钱完成的。就像电商行业,一条裙子100元的售价之中,也许50元都要花去打广告。
在流量最贵的当今,AI应当扮演怎样的角色?她认为AI不应该是一个高大上的概念,而应当是商业的解决方案。如果说“AI生成”是AI产业继声音、影像识别后的热点,那么这个热点必须与商业紧密结合才会长久。
在苹果与Google的经历塑造了张诗莹的想法。她把苹果发新品笑称为“发布火箭”,因为果粉们每次都期待苹果每年的发布会上可以发布像火箭一样酷炫的潮品,但每次发布的却都是与之前差不多的产品,会感到失望。
而这种情况在她看来又极其合理。苹果的决策取决于对用户的分析,她记得苹果的同事们最开始对AirPods的策划包含了不是奇特的想法,例如做一款透明的耳机,或者让耳机可以打火。但最后这些想法都被用户的需求否定了。在那段经历中,她学到的是,只有对用户有价值他们才会购买,只有产品卖得好一个部门才有更大的价值。她从苹果学到了产品与技术的平衡:产品去驾驭技术,技术为产品所用。
所以,创业后的张诗莹也给ZMO提出了一句slogan:消费即生成,让AI生成用户愿意阅读、点赞甚至消费的内容,才是落地的意义。
参考文献:
【1】Deep Unsupervised Learning using Nonequilibrium Thermodynamics, ICML'15
【2】Denoising Diffusion Probabilistic Model, DDPM'20
嘉宾简介:张诗莹, ZMO.AI 创始人&CEO, Google Glass 系统架构师,曾参与Google Shopping, Google Ads项目算法研发。Apple 第一代Apple Air Pods系统架构师, 负责产品研发,设计,生产全流程。
继续阅读
阅读原文