你的下一本小说可能来自人工智能和人类作家的共同创作
在正文开始前,请大家先做一个选择题,这里有两段文言文小说文本,请判断哪一个是由机器生成的:
内容A:五台山僧,号清凉老人,喜猎。村中前面一道观,周围植竹五十余竿,老尼亦倚门观戏,从不穿假山道路。宗仁偕长者阿夷上居一山家。长者日探索名山胜迹,不以年岁辍;暮年将带老尼息肩佛殿下坐。家内人辈皆爱敬之,道士皆随去。光绪戊子八月间终于家中。
内容B怀庆潞王有昏德,时行民间,窥有好女子辄夺之。有王生妻,温柔娴静,怪其略知书。王遣使赴潞阴察其妇。见之,大笑曰:“太痴耶!妾夫好艳妆为赌博迷惑耳!夫此所谓不知忧,不知喜者也。今得太颠菩萨风范,改观矣。”遂辞去,夫从以来。
答案揭晓:内容A和内容B都是由机器生成的!
上述机器生成内容模仿的是聊斋小说的故事风格,其能力来源于澜舟科技团队的一个小灵感:
澜舟科技的创始人周明博士喜欢阅读《聊斋志异》,2022年春节前的一天,他和团队成员的一次日常交流中提出“咱们的文本生成算法,能不能模仿《聊斋志异》,让其来写聊斋风格小故事呢?”。于是在预训练模型能力的加持下,团队仅用少量数据和时间,便完成了一个高质量的聊斋风格故事生成器,而这次小型技术探索工作也成了后续澜舟科技进行文学辅助创作引擎研发的起点。
事实上,在我们线下小范围的调研中发现,由于文言文远离人们的日常交流,具有一定的陌生感,所以大部分用户都无法分辨出上述机器生成内容和真实作品之间的差异。
这样高水平模仿人类写作的算法能力已经被集成在澜舟科技最新推出的文学创作引擎中,这是一套能够帮助文学创作者提升写作效率的人工智能可控文本生成技术集合。这也是澜舟科技继营销文案生成引擎(了解详情)发布后,在可控文本生成领域的又一项新的技术突破。
除了文言文外,这套能力体系还能在多种文学类型上,生产出流畅、准确、甚至不输人类作者的内容。澜舟科技希望通过这样一套技术体系,能够最大限度地将文学创作者从一些枯燥、机械的写作工作中解放出来,把时间和精力聚焦在那些更具创造性的部分。
01
- 让机器参与而非替代写作 -
人工智能是当前发展最快速的技术领域之一,不同类型的AI技术已经越来越快被运用到各种领域,成为这个时代不可或缺的技术力量。在文学创作领域,我们也看到了越来越多的“AI创作内容”开始出现,比如人工智能写作新闻稿件、诗歌、对联、续写小说。
在此背景下,“人工智能写作是否能够取代人类作家”的话题已经在社会中引起相当长时间的讨论,对于这个问题,澜舟科技的观点是:
人工智能技术将带来AI+HI人机协同式的文学创作新范式
这个判断包含以下三层含义:
在文学创作工作中,人工智能的作用是辅助而非替代:人工智能在文学内容生成的逻辑性、上下文一致、情节构建等方面还有很大提升空间,尤其是在大篇幅生成时这些问题表现得尤为明显,所以通过算法大篇幅甚至完整地生成文学创作内容在现阶段很难实现,人工智能技术的定位是帮助人类作家更高效地完成工作。
机器和人类在写作过程中各有所长,可以形成良好的协同效应:文学创作的工作过程包含着创造性工作和“渲染性”工作两类,这两类工作则分别是人类和机器所擅长的。比如网络小说写作中对于世界观的构建、角色的设计、情节发展等工作环节是属于创造性的工作内容,往往需要通过人类作家深入思考或者灵光一现才能完成;而写作素材的搜集、整理、归类,写作时对特定内容的搜索、合并、参考,以及对一些确定细节的描写等工作则因为机器可以“看得更多、写得更快”,从而更加擅长,所以通过对机器生成和人工写作进行合理地协同,有助于整个创作工作更加高效。
关键是要形成机器写作内容生成的可控能力:要实现人工和机器配合写作,最重要的技术便是文本的可控生成,通过让文学创作者能够对机器生成内容进行更加科学、合理、灵活地控制,从而快速、高效地获取符合写作要求的创作内容,而这正是澜舟科技目前正在积极探索和布局的方向。
02
-机器辅助写作的未来:可控文本生成-
可控文本生成是目前自然语言处理领域中热门和前沿的研究方向。其目标是控制给定语言模型基于源文本产生特定属性的文本,特定属性包括文本的风格、主题、情感、格式、语法、长度等等。
以小说写作为例,简单的小说续写技术可以理解以上文为模型输入进行文本生成,其控制项为一段前序文本,但是这种生成能力往往由于生成结果的随机性,带来了缺乏逻辑、与上下文不连贯、自行推动情节等问题,在真实写作中其实用性大大受限,比如下面的例子:
输入:朝霞到日暮,许多人在这一天里,仿佛过完了自己的一生。
输出:朝霞到日暮,许多人在这一天里,仿佛过完了自己的一生。有许多人在这一天里,终将成为他们的伴娘。那些陪同着新郎和新娘离去的女孩们也是一样,在婚礼之后不久就开始收拾行囊回到了自己的家中。这时候,新年快乐!
基于AI+HI的思路,如果能让创作者对生成内容进行更多维度的定义和控制,由人类来对生成内容所包含的词语、情感、风格进行自定义控制,那么生成内容的质量就会大幅提高,变得更加合理、通顺、可用:
输入:
起始文本:朝霞到日暮,许多人在这一天里,仿佛过完了自己的一生。
关键词:青春,努力,现实,平静
输出:朝霞到日暮,许多人在这一天里,仿佛过完了自己的一生。时光荏苒,岁月如梭。年轻人的青春似乎都是无忧无虑的,只要努力就好。可现实总是残酷的,有太多事情不能等到明天再说,所以只能尽量让自己保持平静的心态,去面对生活中发生的每一件事情。
上述对生成文本的有效控制得益于语言预训练模型技术的快速发展,澜舟科技使用预训练模型中的prompt技术研发出了基于一个通用文学创作预训练模型来完成多维度可控内容生成的能力,这种能力可以实现用极低的成本完成多种形式文本内容的可控式生成,该技术甚至可以通过将prompt的设计能力开放给创作者从而获取更多形式的控制维度。
03
- 可控式文学辅助创作引擎 -
要做到多维度可控并且高质量的文学内容生成是一项系统化工程,在探索这项技术的过程中,澜舟逐渐形成了一套科学、有效、拓展性强的技术体系,如下图所示:
图1:澜舟科技文学辅助创作技术体系
04
- 孟子通用文本生成预训练模型 -
面向文学领域的预训练语言模型是整个技术体系的基础,这个体系的底层使用的是基于孟子轻量化预训练模型技术构建的孟子-通用文本生成模型。孟子轻量化预训练模型曾在2021年7月以10亿级参数量霸榜 CLUE ,以远低同期其他百亿、千亿参数量模型的轻量化体积达到了当时的最优效果,其轻量化特征是保证文学领域预训练模型能够快速迭代并且应用部署的根本。
图2:孟子模型CLUE排名
在数据层面,孟子通用文本生成模型在训练中加入了海量中文文本数据进行预训练,包括通用领域数据、具有场景属性的多种垂直领域数据、以及面向一些特定任务的弱标注数据,这些数据能够让模型充分从广泛的数据中学习到丰富的知识,有效地提升模型在文学内容生成时的表现。
05
- 文学辅助创作模型 -
在孟子通用文本生成模型基础之上,我们从数据、算法、训练三个方向针对文学辅助创作场景进行了探索和优化:
数据方面,我们构建了大规模来自不同领域不同任务的数据来训练文学辅助创作引擎的基础预训练模型,包含如小说风格学习数据,基于主题词、知识图谱的可控生成数据等多种类型的数据。这些数据的加入能够让基础预训练模型很好地适应诸多文学创作领域和任务,在进行特定任务的性能增强时,模型可以快速地学习领域适应,提升这些特定任务的性能。
算法方面,针对小说生成等长文本生成任务,我们进行了针对性的优化,采用了可控预训练、提示学习、小样本学习等技术提高小说生成模型性能。比如,针对长文本生成中的重复生成、前后连贯性等问题,我们采用了主题信息学习、对比表示学习等技术训练模型,通过在生成过程中引入主题信息,从而提高生成小说前后文的内容一致性;通过引入对比学习,可以增强模型对词语和句子的表示能力,有效改进重复生成问题。
训练方面,澜舟科技采用了基于知识图谱的性能增强和基于语言学知识的模型训练等算法,从而有效提高小模型的性能。比如通过引入知识图谱来增强模型对知识的学习能力;通过引入语言学特征来提高模型参数的容量;使用基于成分句法增强的 Mask 机制和基于依存关系的注意力权重约束让模型更好地学习词语和句子的表示,从而增强性能。
通过上述工作,我们建立了孟子-文学辅助创作模型,并以此支持多种文学辅助创作过程中所需的具体算法能力。
06
- 应用级的可控生成能力 -
在完成模型构建后,我们将通过设计多种类型的prompt将模型能力封装成为不同的输入控制项,最终实现了对生成内容精准、易用、有效地控制,从而让生成内容能够更加符合文学创作者的实际工作过程中的需求,大大提升了技术可用性。
通过实验对比我们发现,当不断增加生成的控制项时,其生成内容的质量会有显著的提升:
图3:不同可控程度下的文本生成内容质量
说明: B: BLEU; R: ROUGE; Dist: Distinct
目前澜舟文学辅助创作引擎已经可以支持多种形式的可控生成,具体如下:
基于前序文本生成:根据给定的前文进行内容续写,也即目前行业中使用最普遍的通用续写能力。
图4:基于前序文本生成能力示意
文学实体渲染:根据指定的文学实体(比如相貌、服饰、道具、环境、场景等文学创作中的实体对象)进行细节描写内容生成,支持对文学实体进行特性(比如对女性容貌这一实体,可以指定生成内容时要展示出的年龄阶段、情绪等特性)级别的生成控制。
图5:文学实体渲染能力示意

自定义模板生成:用户可以自定义一段文本,在文本中可以将需要机器生成的内容标识出来,同时也可以对需要生成的内容给出一定的描述,机器将根据这样一个模板中的上下文进行内容填充。
图6:自定义模板生成能力示意

基于关键词生成:即设定一些关键词,让生成的内容在语句通顺的情况下包含这些给定的关键词(关键词生成能力可以作为前置条件和其他生成方式组合使用)。
图7:基于关键词生成能力示意

基于不同题材的生成:在生成时可以指定生成内容的题材类型(比如科幻、武侠、修真、都市、职场等),生成的内容会与选定题材的语言风格、细节内容契合(题材生成能力可以作为前置条件和其他生成方式组合使用)。
图8:基于不同题材生成能力示意

效果展示
基于这样一套技术体系,澜舟的文学辅助写作引擎在模型性能上已经达到了较高的水平,对比模型参数高出一个数量级的GPT,澜舟模型在多项任务评测中具备显著的优势:
图9:澜舟可控文本生成模型性能对比
说明: B: BLEU; R: ROUGE; Dist: Distinct
那么模型生成的实际内容效果如何呢?我们在这里提供了一些不同控制方法下生成的内容示例,通过这些内容可以看出,在进行有效控制的情况下,模型生成内容的可用性是非常高的:
例子1:
实体:景物
特征:雅致
输入:里面确实是别有洞天
输出:里面确实是别有洞天,假山流水,亭台楼阁,一处处布置得很是雅致。夏季来了,暑气正浓。这样的环境,让人心旷神怡,仿佛置身于仙境一般。

例子2:
输入:她有着______,眉下是______,______,细细看去这人真是______
输出:她有着圆圆的尖下巴,眉下是流波转盼的眸子,媚眼如丝的披肩发,细细看去这人真是朱唇玉面。
例子3:
输入:那阳光般灿烂的笑容
关键词:灵动,白皙,长长的睫毛
输出:那阳光般灿烂的笑容,那长长的睫毛,那白皙的皮肤,那灵动的大眼睛,那小巧的鼻子,还有那樱红的小嘴,无一不在张扬着她的美丽,她如同一只小小的天使般的存在,耀眼的让人不敢直视。

07
- 写 在 最 后 -
在后续的工作中,澜舟将继续基于prompt技术和文学创作过程中的实际需求探索更多维度的控制方式,让文本生成的控制能力更加灵活、丰富、有效;同时,在数据层面也会进一步针对文学领域做更细粒度的数据构建,从而提升生成内容的质量。
在应用层面,澜舟计划将已经完成的可控生成能力以在线接口的方式提供出来,供开发者能够方便地进行应用开发。目前已经提供了一个可以完成部分生成能力体验的线上demo(参考文末链接)。
随着AI技术的快速发展,对于文字工作者来说,非常有必要去了解AI、熟悉AI、应用AI,尝试从技术和工具使用的角度,来创造出新的创作和表达方式。
在这个过程中,澜舟科技基于功能强大、轻量化、实用的孟子预训练模型,各种可控文本生成技术,以及AI+HI协同的写作范式新产品理念,不仅能够对文学创作(故事、小说、诗歌、歌词、散文等),也同样能在营销/广告文案、直播销售话术、商务应用文、行政公文写作、行业研报、企业ESG报告等需要高级人类智能的工作场景中产生革命性的影响,和人类作者们一起推动文字创作工作的进步。
是的,有了AI,一切皆有可能!
文本生成线上demo体验链接
https://langboat.com/demos/writer
澜舟科技是一家认知智能公司,由前微软亚洲研究院NLP领军人物周明博士于2021年在京创立,针对商业场景数字化转型、以自然语言处理为基础提供商业洞见类产品,主要产品包括基于预训练模型的功能引擎(包括搜索、生成、翻译、对话等)和针对垂直行业场景的 SaaS 产品我们致力于成为NLP/AI领域具有全球领导力的、以科技驱动的创新型公司。
我们最近开源了分析、生成、多模态和金融的预训练模型,供大家自由使用,链接见下方二维码。期待各位的关注与建议!
☜ 左 右 滑 动 查 看 更 多图 片
澜舟科技官方网站
https://langboat.com
获奖与新闻
HICOOL 2021 创业大赛一等奖 | 周明博士专访
量子位2021人工智能技术领袖TOP20
第四届传神者大会 | 经参调查报道
完成近亿元Pre-A轮融资NEW
最新合作
携手同花顺 | 携手数说故事
技术专栏一览
长期招贤纳士(含实习)
扫码邀您进入孟子开源社区微信群
开源项目地址
https://s.langboat.com/mengzi
期待您的关注与加入 :)
继续阅读
阅读原文