MLNLP 
机器学习算法与自然语言处理 
)社区是国内外知名自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。

社区的愿景 是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流,特别是初学者同学们的进步。

转载自 | 李rumor
作者 | rumor
卷友们好,我是rumor。
躺在我微信浮窗里最多的就是文本生成图像的工作了,本来这个方向我以为我是可以拿捏的,结果自从他们开始用Diffusion模型之后我就再也跟不上了,而且这类文章动辄20页起,慢慢地我就放过了自己。
那天我在清理这些报道库存时,突然油然而生一个拷问:为什么大家都在卷这个方向?这些生成的画作虽然让人惊艳,但它们能产生实际的价值吗?应该如何去落地甚至商业化呢?
带着这个问题,我一狠心把知道的Paper都下载了,它们分别是:
  1. OpenAI的DALLE (21/01)、GLIDE (22/03)、DALLE2 (22/04)
  2. Meta的Make-A-Scene (22/03)
  3. Google的Imagen (22/05)、Parti (22/06)
  4. 智源悟道2.0 (21/06)、智源阿里达摩院和清华合作的CogView (21/11)
  5. 百度的文心ERNIE-ViLG (21/12)
  6. 字节的CLIP-GEN (22/03)
可以看到今年这个方向有多热闹了,Google和OpenAI甚至开始自己卷自己,前后脚放出不同的工作。
说回正题,关于为什么大家都在卷这个方向,在看过了上述文章们的Intro之后,我发现观点还是比较统一的,核心就是不断追求模型的理解能力
正如ERNIE-ViLG所引用Richard Feynman的话:
What I cannot create, I do not understand
当模型能根据文本创造准确对应的图像时,就证明它已经具备了CogView中所列举的四种能力:
  1. 从像素点中解藕出形状、颜色等一系列特征,也就是说给模型输入一张图片时,它真的能像人一样去「看」到其中的各种物体和特征,而不是一个个无意义的像素点
  2. 理解文本
  3. 将图像中的物体和特征与单词对齐(包括同义词),意味着模型能够把同一事物的两种模态联系起来
  4. 学习到如何将各种物体、特征组合起来,这种生成能力需要更高的认知水平
随着资源的不断投入,这些生成的图片以肉眼可见的速度越来越强,那么这些图片虽然fancy,但能如何落地、产生什么实际价值呢?
首先最直接的,就是辅助艺术家进行创作,甚至独立创作,比如去年底我就发现一位博士同学用AI生成的4张画作在淘宝拍卖卖到了2304元,也调研到了一些国外的网站,利用AI技术付费生成特定风格的创作。在写这篇文章的时候我又在淘宝搜索,发现依然有人在拍卖AI生成的艺术品,而且价格不菲:
说实话我不是这个落地方向的支持者,我认为画作背后「人」的思考和经历才是成就艺术的原因。但价值是人定的,恰巧最近又赶上了NFT,所以这个方向究竟会发展成什么样也未可知。
另一个落地方向,是儿童教育。Meta最新的工作Make-A-Scene就很适合这个方向,让儿童们绘制草图,描述场景,就可以生成很棒的作品,从而启蒙孩子对美术的兴趣和想象力。这个方向还是很有实际意义并且能变现的。
还有一个方向,是内容制作。这个方向的前景就很广阔了,先说3D的,现在3D动画和游戏的市场已经不必多说了(还捎带上元宇宙),但做一个3D人物和场景都需要建模、贴纹理、绑定骨骼、做动画、加特效等复杂的流程,如果AI能辅助其中几个环节的生产,会节省很多人力成本,提升内容产出速度。而且目前模型生成的真实物体也很逼真了,再往远了想,以后说不定输入一个剧本,就能输出一部电影了。
不过目前的模型能力离终极目标还有不小的距离,模型的可控性还需要进一步提升。
AI一直在潜移默化地影响我们的生活,有好有坏,比如搜索引擎用AI算法做排序,就有人用AI算法生成大量垃圾内容做SEO;再比如剪辑软件利用AI来减少人工配音成本,就有人盗取他人视频,用AI换个声音洗稿制作大量垃圾剪辑。
虽然有不好的事情发生,但好在这是一个对抗的过程,两方的算法都会在对抗中越来越强大。
技术交流群邀请函
△长按添加小助手
扫描二维码添加小助手微信
请备注:姓名-学校/公司-研究方向
(如:小张-哈工大-对话系统)
即可申请加入自然语言处理/Pytorch等技术交流群

关于我们

MLNLP社区  机器学习算法与自然语言处理 ) 是由国内外自然语言处理学者联合构建的民间学术社区,目前已经发展为国内外知名自然语言处理社区,旗下包括  万人顶会交流群、AI臻选汇、AI英才汇  以及  AI学术汇  等知名品牌,旨在促进机器学习,自然语言处理学术界、产业界和广大爱好者之间的进步。
社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。
继续阅读
阅读原文