ZMO张诗莹：用AI实现你的创作自由

疫情之下，找到合适的外模来拍摄模特图这件事，愁坏了大部分出海品牌：外模价格日益高涨，还需要提前数月沟通档期，而同时卖家数量不断增加。

为了帮助卖家节省更多成本、高效上新大量产品、更好地实现差异化和本地化， ZMO.AI应运而生。家初创公司提供人工智能模特图片解决方案，能够降低拍照成本、减少等待时间，提升电商转化率。

ZMO.ai 成立于2020年。通过强大的 AI 算法生成独一无二的逼真虚拟模特展示服装，不再需要耗费大量的时间、精力、金钱来寻找模特，拍摄和后期制作。直接将产品上架成本降低到原来的 20%。

ZMO 核心团队成员来自 Google, Apple, Facebook, SenseTime, Adobe, Tencent 等国内外一线互联网企业，科研团队近五年在相关计算机视觉顶级会议与期刊上发表论文40余篇，包括CVPR，ICCV，ECCV，ICLR，AAAI等等。此前，ZMO.ai 宣布完成了 800 万美元的 A 轮融资。

AI是否能体现优于设计师的审美和创造能力？

疫情会对ZMO有什么影响吗？

ZMO的技术团队有什么样的优势？

本期的《创业内幕》，我们即将和领先的AIGC平台ZMO.ai的创始人——张诗莹Ella以及，GGV纪源资本的投资副总裁陈于思一起聊聊未来内容创作平台ZMO.ai的成长史。

Ella：

大家好，我是ZMO.ai公司的创始人——Ella。去年年初，我们开始创立ZMO.ai这家公司，我们ZMO.ai的使命/目标是希望能够打造未来的内容创作平台。

之所以想要做内容创作平台，是因为从最初的文字时代到图片时代，再从视频时代到现在短视频时代，大家每天都能看到无数内容，它们呈指数级上升，不断轰炸着我们的神经，而且内容的创作方式也日趋复杂，开始有AR内容、VR内容、各种元宇宙等。

我们认为，从内容的数量或者需求端来说，内容的数量和复杂程度只会指数级增加，但是从内容制作方式的角度来说，依然比较原始，无非还是花大量时间写文章、拍图片、拍视频。

我们在做ZMO.ai这家公司时想到的是，如果未来依旧完全依靠传统人力输出，那么内容供给是远远跟不上内容需求的，所以我们认为在内容创作领域，AI是一个不可替代的必然趋势。

目前AI不过是辅助人们进行创作，可能到未来就有一部分纯劳力内容可以完全交由AI去进行创作，在这种情况下，我们的人才能更好去负责创意部分。我们相信在未来，AIGC将是辅助大部分人去进行内容创作的一个工具，我们也希望ZMO.ai能打造这样一个下一代AI生成内容的平台。

Lily：

关于AIGC，我是不是可以理解为就是用人工智能自动生成一些内容？你也可以给我们介绍一下，现在哪些应用场景在广泛使用AIGC的技术和产品？

Ella：

是的，AIGC相当于通过AI的一个deep learning的模型，让AI经过大量学习，再大家去输入一些指令/参数/图片，它自己就可以生产出更有意思更有创造力的内容。

其实AIGC还是一个比较新的技术，现在在海外为大众所接受/已经走出大众视野的，是文字领域的生成，一个叫GPT-3的模型，由OpenAI这家公司发布，主要是在文字生成上面达到了可商用且效果非常好的状态，诸如Jasper AI、Copy.AI都是基于GPT-3技术。

GPT-3其实是用AI去创作长文章/长文字，我们只需输入几个简单的关键词，它就可以据此直接生成一整篇文章，并且这篇文章读起来和真人写的几乎无差，还是原创。它在海外已经受到了很多用户/公司的认可，所以文章生成应该算是AIGC现在走进大众视野且被大家商用的一个功能。

Lily：

打个比方，假如我是一个开店的博主，现在想放点宣传图片，就得自己去拍，未来就可以不用拍了，可以直接拿着衣服生成带有我版权的图片，也解决了版权归属的问题，对吗？

Ella：

是的，其实我们在做的AIGC，还是在从图片和视频这两块比较新的地方开始做，所以它现在其实是一个蓝海，才刚起步。我们看到的可应用场景有很多，比如刚才Lily提到的电商，我们有一个客户就很有意思。那位客户是卖巧克力棒的，但是当时有款产品的包装还没有设计出来，无法拍摄产品图，可他又需要先把产品上到链接上面。于是他就通过描述生成了一个他想象中的包装，再输入场景，生成了广告图。他把这个图先放在了产品网站上，获得了许多人的买单，所以他直接按照场景去做了巧克力包装。诸如此类的应用场景挺多的。

Lily：

我是不是可以理解为，我需要什么，就在后台描述场景，选择风格，然后就可以自动生成？太神奇了！那咱们现在一个产品贵吗？

Ella：

现在我们产品的好处就是，跟正常拍摄相比，它能极大节约成本和时间。因为正常拍摄精美图片，无论是电商宣传还是杂志大片，都需要摄影师去拍，拍的过程可能还需要等待时机，后期还需要调整修图，都很花费时间。

我们这个的好处就是便宜且快捷，只要你负责创意，能把创意用语言详细描述，那AI就可以以一个比较快的速度，以一个比较低的成本，去生成大量图片，他再从大量图片里去挑选自己觉得合适的。

甚至我们也在构建一个社区，可以看到其他用户大量生成的非常有意思的图片，也能够给到我们用户一些灵感。比如看到别人某张图很有意思，就可以通过对方这个风格，加入自己的元素，生成自己的非常有特点的图片。

Lily：

我也想问一个哲学问题，以我们马上上线的产品imgcreator为例，这个产品在生产过程中，你觉得AI是否体现出了优于设计师的审美和创造能力呢？

Ella：

其实大家可以把AIGC模型想象成一个正常人类小孩，它在学习过程中一定看了大量优秀艺术创造者、优秀设计师的作品。我觉得，从它的水准上来说，它肯定有大量的图是通过学习、模仿这些艺术家的风格来进行自我融合，但它并不会完全和另外的艺术家风格一样。

从它的创造水平来说，我觉得得分为两点：

第一，它确实可能好于设计师的平均水平，能够帮助设计师/艺术家省去一些很初级的、比较繁杂的、纯劳力的工作，可以给他们一个非常好的base，然后再在这个基础上去提升；

第二，我们会发现它还会有一些创造力，这个创造力体现在它会生成一些你其实没见过的风格/作品。大家以为它只学习了比如达芬奇/毕加索，只能画出达芬奇/毕加索的单一风格，但它却能用达芬奇的色彩感觉，结合毕加索的构图感觉，再加上张大千的画风，借此融合创造出许多新的风格。包括它在内容创作上，其实会跟我们以前的理解不一样，它是像人一样有创意的，这一点其实让我们非常惊喜。所以现在也有一个很热烈的讨论，有很多艺术家/设计师在担心，AI人工智能的产生，会不会危及到很多设计师/艺术家的一些工作和未来。

那么在我们看来，所有的艺术家/设计者更多负责的是 creation/创意/idea，我觉得目前还是很难被取代的。目前来说，人类在创意上是非常有主动性的，所以我并不认为它在短期会完全取代，但是我会认为，它在一定基础上可以帮助/替代我们，去做一些比较枯燥乏味的基础性工作，然后再通过人类进一步的创意/更高的技巧去对它进行加工。与其说它影响了艺术家的工作，不如说它其实让艺术家/设计师可以更好地专注在他们的创意部分，把他们的创意、对作品的理解这些灵魂部分可以诠释得更好，所以我觉得反而是一个帮助作用。

Lily：

据我所知，ZMO的产品在电商里有特别广泛的应用。要不Ella你给大家再讲讲，那个非常有意思的跨境出海电商用ZMO非常成功的例子。

Ella：

好的。我们当时发现，其实现在电商是做全球化的，不只是做单一一个国家。当他们把产品卖给当地人时，不仅是产品本身，包括搭配的人和场景，甚至整个图片也要符合当地的审美和场景。以前有很多出海电商，可能为不同国家去拍摄不同模特、不同场景，但是其实这样成本非常高，时间效率也非常低。我们后面是通过生成一个技术，可以去生成不同种族/身材/脸/肤色的定制化模特，我们的用户可以以更低的成本、更高的效率大量生成模特图，再配上他们自己的产品，可以非常高效但非常低成本地去更好做到本地化。

这里还有一个比较关键的点，也是我们跟客户在沟通中发现的。不仅是电商，对于通用营销来说，图片和视频这类视觉素材（我们叫Visual Marketing）其实变得越来越重要，大家其实非常愿意在视觉上花很多成本/精力去对它进行优化。所以我们认知就是，其实AI生成大大革新了大家生成创作内容的方式，可以极大提高大家的商业效率。

Lily：

于思，你们是怎么看到这样一个机会的？看起来好像还是一个非常专业的赛道。当时我们其实应该也做过横向比较，为什么最终在AIGC赛道里选择了ZMO？

陈于思：

说起来很巧，我们最早跟诗莹和ZMO团队接触，大概是在2020年年底，2021年年初，之前我们已经关注到了ZMO团队的一些工作。因为我们一直都在关注一些行业比较顶级的AI学术会议的一些成果，在整个视觉包括内容生成图像相关的一个最顶级AI会议叫CVPR 。我们关注到了20年CVPR上ZMO团队的一篇AI+Fashion的文章，让我们感觉耳目一新。在这篇文章上，我们直接看到了可以商业化落地的机会。和诗莹交流之后也是非常惊喜。因为他们不光有一篇非常好的论文，有非常好的技术，同时也有非常好的商业化和落地的思路，当时也是找准了跨境电商的落地痛点。我们非常认同他们利用AI+内容生成赋能广大创作者的技术和产品方向，比方说第一个落地在跨境电商，后面落地在营销设计、内容创作等等。

第二，我们也非常认同，AI+内容生成可能是整个深度学习AI爆发的第三个比较大的机会点。我们回顾的话，其实是2012年谷歌的 AlexNet这篇文章发在了CVPR上，引爆了AI+机器视觉/图像处理的一波浪潮，自此诞生了非常多的公司。第二波其实是2017年谷歌的一篇论文——attention is all you need，里面提出了transformer的概念，引爆了整个自然语言处理，不管是技术还是商业化。

我们一直在看包括像GAN（Generative Adversarial Networks，生成式对抗网络），包括像GPT-3，包括像最近的Stable Diffusion这样的技术，我们很欣喜地看到，在 AI+content generation，就是AIGC领域，其实不断有新的技术爆发点。所以当时我们看到了诗莹他们团队，看到了这个公司，结合我们对于整个AI未来发展和商业化爆发的判断，很快就做出了投资他们的决定。也一直很高兴的看到，他们从我们投资这一年多以来，也取得了非常长足的进步。

Lily：

过去这疫情会对ZMO有什么影响吗？

Ella：

其实过去的疫情对我们来说，反而是让我们看到更多内容创作的线上爆发。我们刚开始做ZMO的时候，国内外就已经有疫情了。我们会发现，以前大家的很多交流还是会在线下，但是现在比如一个老板想把产品卖出去，他得有一个非常好的图片/视频，比如说po在美团网站上，让大家觉得看上去真的很好吃，就去点它。

所以在我们看来，整个疫情其实是让整个在线媒体传播变得更加爆发，所以未来整个内容生态其实会变得更加多样，在online上的距离会更加近。我们可以更多通过不同的人去创作内容，大家去进行交流，在未来，其实人人都会成为内容创作者，人人都需要通过内容创作去进行交流和互动。

Lily：

于思我也想请你判断一下，像 ZMO这样一个团队，他在你看过的AI向公司里，算是第几梯队的，比如说Top级、tier one 、tier two 、tier three？

陈于思：

我觉得毫无疑问是最Top的团队之一。我觉得这个团队给我最impressive的地方，就是它结合了技术、工程化产品、商业化落地，是一个非常好的综合性强的团队。第二点就是他们团队的工程化能力是很强的，我觉得这和诗莹原来在苹果和谷歌做产品的经历还是很有关系。第三点就是商业化落地，他们团队里也有跨境电商，包括做To B销售非常多年的资深人员。我觉得到今天也证明了，我们当年的判断还是非常对的，而且我们更高兴看到ZMO的团队能够不断吸引优秀人才加入。

Lily：

诗莹本身并不是做软件出身，是做硬件出身，我就想请教你一下，从做硬件切换到做软件，这中间有什么技术上的不适配吗？

Ella：

其实一开始创业时我也担心过，我之前是做硬件的，现在创业是做软件，但是我觉得有两点让我觉得自己其实是有准备的：

一. 我在谷歌的后面那几年里面，其实有在项目里做软件，相当于半转软件去学习，还是对软件比较有了解。

二. 我认为这个团队里面，有一个东西是硬件、软件相通的，就是如何去做产品。因为最终来说，硬件和软件只是在技术上的不同，我觉得打造产品过程中最难的是“如何将一个硬核技术/非常前沿的技术变成产品”，这个东西非常难，会走过一段很长的路。

这条路上，第一我觉得是对于用户本身需求的一个洞察，第二是你如何去迭代你的产品，如何在你觉得对用户有价值的地方投入，如何在这个过程中去平衡你的产品和技术。所以在这个里面，我反而觉得我之前硬件的那些经验对我是有帮助的，因为无论是Air Pods还是Google，它们都是很新的技术，这些很新的技术一定有它的优点和缺点。那么如何去扬长避短，如何在这种情况下去找到它最好的场景，把它变成很棒的产品，这其实是我在以前的硬件经历中所学到的。

Lily：

其实ZMO.ai目前做的生意其实要解决的就是它的数据量非常大，这就不得不面对高昂的服务器、云带宽成本，我想问问Ella，你们是怎么解决成本上的巨大压力的？

Ella：

传统的AI算法比如像识别，其实要靠这种标注，就是我有巨大的数据，这个巨大的数据量来了之后，我要对它们进行标注，它到底是人还是车。当这个数据量非常大的时候，你对它进行标注的成本是非常高的。

我们现在这个方法其实是跨模态的，用不需要标注的模型训练方式去解决标注数据量巨大的问题。我们将文字的模态和图片的模态，一起放到了我们这个模型里面去进行训练，通过文字到图片这样一个跨模态的mapping/映射，让模型去学习到文字和图片的一个对应关系。这样的好处就是当我们去收集数据的时候，这些数据自己是带有一些文字描述的，我们就不再需要人工标注。

这样相比下来，第一是我们在数据上面，除了文字维度，还增加了图片维度，所以我们的数据量是比纯图片去训练它的数据量要大的；第二就是有了两个维度的信息之后，模型参数可以去相互学习，可以互相借鉴对方的weights，可以让你的学习更加有效率。

Lily：

据我所知，ZMO包括旗下的imgcreator，目前80-90%的客户都来自海外，我很想知道，咱们是怎么做海外市场布局的，我们有哪些优势去开展海外业务？

Ella:
我们目前海外有两款产品，一个是imgcreator.ai，包括remover的APP，这两款产品主要是海外用户。我们在去布局海外的时候，其实主要还是借助了很多社交媒体去获得我们的种子用户，包括我们自己有一个自己的Facebook的社区/群组，这里面其实是一些我们一开始的活跃的种子用户，他们可能会去用我们的产品，会在这里面对我们的产品进行反馈，那么有一些非常好的power user，甚至会去推荐我们的产品给其他用户，从而来去带来更多的用户。

另外我们也有一些用户其实是大V，这些大V用户自己其实就有很多粉丝，他们可能会在博客/推特等上面去宣传我们的一个产品，这样慢慢就有很多海外用户，他们也开始熟知我们的产品。

谈到优势的话，可能相比于其他一些海外产品，我觉得有两个其实是我们比较确定的优势：第一，我们是更加了解电商的一个创业者，我们可能离他们更近，知道对于内容生成的一些痛点是什么。第二，我们整个团队基本上都是海外背景，所以大家对于整个海外产品的用户体验是比较熟知的，再加上我们自己本身在整个GAN包括 Diffusion Models（生成扩散模型）等上面有我们自己的expertise，所以我们能更好地将这个技术跟用户本身的痛点需求结合起来。一些海外的APP可能更多是用户喜欢的东西，但是可能不一定像我们这种To B，有比较落地的这种use case，所以我觉得主要还是我们在对用户痛点的理解上有一些自己的优势。

Lily：

ZMO技术还没有在中国大量推广的原因之一，很可能就是我们的汉语语义识别，对技术来讲是一个比较大的挑战？

Ella：

我们现在 imgcreator之所以推出中文版，一个原因就是我们看到现在市面上很多流行的产品/APP，其实都是海外版/英文版的，那么ZMO自己在train的一个模型，其实是专门针对汉语进行过很多优化，加入了自己的一些语料库，包括整个模型的一些优化。经过我们优化的产品，针对汉语来说，它其实是能生成出来非常好的效果的。所以我们也希望通过这个机会，能够把imgcreator的产品带给更多国内用户，而不需要大家全部都去注册很多海外账号才能体验到。

Lily：

我们非常高兴看到ZMO在中国有了 imgcreator的中文版 YUAN初，也欢迎各位朋友们在公众号去关注“YUAN初”，我们就能够直接在微信上去体验这样一款产品了。希望各位电商从业者/网红/KOL可以尊重知识版权，将我们的产品用自己的工具生成属于自己IP的东西。

最后我想问问Ella，你认为中国AI下一步发展展会到什么方向？能不能请你开脑洞？

Ella：

我们认为AI就像现在的云，未来会更加普及化，成为大部分中国公司的一个标配。另外上一代AI是叫识别AI，大部分是从内容识别/物体识别/人物识别开始去做，但是我认为下一代AI其实更多会从事创作，或者将代替更多繁杂的一些劳动。它自己可能会具有创造力，可以去生成出来视频图片/3D动画游戏等等，可能能够生成出来我们所认知到的一切digital media，或者叫作AI生成万物。

我们会发现在未来，其实很多内容都是在AI辅助下进行创作的。我们人类和AI的一个关系，可能会是让人类更好地focus在最需要我们创意的，或者最需要我们输出价值的东西上面。AI会成为我们的辅助，在未来可以把整个创作门槛降得很低，让很多以前可能不会拍视频/不会画画/不会做游戏/不会做动画的人，只要有创意，只要有想法，就可以做anything。我认为到了那一天，其实AI就已经完成了它去辅助人类的任务，让人类去释放创造力/想象力/focus在更有价值、更有意义的事情上面。

Lily：

于思你有什么想要补充的吗？

陈于思：

还有几点是我们非常看好的，第一，就是海外整体的商业化。我觉得ZMO发展到今天，让我们非常兴奋的点就是，他们大部分用户来自海外，尤其是imgcreator这个产品，根据海外用户调研，用户喜爱度非常高。第二，依托于它非常强的技术团队，工程和产品能力，和竞品相比，imgcreator生成的内容质量是更高的，也是更符合客户需求的。第三，就是它的平台目前可以覆盖非常多海外的高价值的应用场景，包括营销电商设计、内容创作等等。第四，其实这是一个非常好的PLG的产品，尤其是我们发现其实PLG在海外其实是一个非常好的传播和商业化的途径，和国内环境相比，其实海外的钱是更好赚的。因为ZMO团队的核心联创们也都有非常多年的海外工作、学习、生活经验，我们也相信他们包括imgcreator，包括其他一些产品，现在已经有了非常好的海外用户base，那么未来我们也是非常看好它在海外的商业化潜力。

Lily：

最后其实有一个问题，像ZMO这么好的一个公司，发展这么快，你们有没有招人计划，在哪里可以看到这些招人的职位？

Ella：

我们目前国内主要是在深圳有一个办公室，在人才招募上，是有很多内部的refer/推荐的方式。我们在一些比较好的高校，或者一些大企业里面，也会有一些朋友，会互相去推荐。我们在网上也有很多招募渠道，希望对于内容创作和内容生成有兴趣的志同道合的朋友，可以向我们递来橄榄枝，希望能够一起去创建下一代更棒的智能创作平台。

继续阅读

阅读原文