公众号关注 “ML_NLP
设为 “星标”,重磅干货,第一时间送达!
大数据文摘出品
同一个中国,同一个网课。
3月9日,全国大学生共同上了一堂疫情防控思政大课,这可能是中国参与人数最多的一次网课了。
据统计,参加此次网课的学生数量高达4000万,大量的涌入一度让直播平台陷入瘫痪。
看完网课之后,辅导员们也给听课的同学们留下了作业,写一篇观后感以加深大家的印象。
你的观后感写的怎么样?我给你推荐你个网站
全国大学生收到同一份作业的情况也是实属罕见,年轻人打招呼的方式也变成了:“你的观后感写完了吗?”
可能是因为疫情在家,大家太长时间没有动笔写过东西,突然要写观后感还有点不适应。这时候,一个网站出现在了大家的视野中,网站界面十分简洁,左上角是标题,“防疫大课堂观后感生成器”十个大字点明了网站的功能,中间“再给我整一篇”的按钮的作用也很直接。
一键按下,一篇五六百字、像模像样的观后感便诞生了!
文章后面还贴心的附上截图一张,用过的大学生都说,“我自己写也就这水平”、“爱了爱了”。
5天之内,这个观后感生成器已经帮助了共有507338位同学,生成了1868839次观后感,还收到了一千多块钱的打赏,作者将打赏全部捐给了韩红爱心慈善基金会
观后感生成器的前世今生
为了更加深入的了解这个神奇的网站,我们联系到了网站的作者,一位江南大学的大四学生
问:你为什么想做这个网站呢?
答:程序员嘛,只是想做一些有用的工具
当采访进行到这里,你大概也就知道了,这显然是一个真正只关注技术的“程序猿”!其思维方式也非常符合一位程序员的解决问题方式:出现问题-编写程序-解决问题-分享。
对于这个网站是如何实现自动生成观后感的功能,作者也表示,方式很“简单粗暴”,找了几十篇文章分解出了开头正文和结尾,每次随机组合一下就完事了
$head=rand(1,17);$str = file_get_contents("./head".$head.".txt");
最近也有不少大学生表示在家实在太无聊了,在微博大呼“我要开学!”。
然而抗疫刚刚取得胜利,目前还有境外输入病例,一着不慎很有可能重蹈覆辙,所以目前还不是开学的合适时机,这场防疫大课堂既是对全国大学生的防疫教育,也是为了让大学生们能够进一步认清当前严峻的形势。
从胡编生成器到胡氏评论大赛,胡锡进本人参与
用技术手段进行有风格的文字生成,这位同学并不是第一位。最近,除了观后感生成器之外,GitHub上还有一个“胡编生成器”项目也大火了起来,这也是继“赵弹磁铁”之后,恶搞语言应用的一位新成员。
从名字上大概就能猜出,胡编生成器是以环球时报总编辑胡锡进的微博为语料和原始数据制作的模型,首先我们还是先来看看效果如何:
熟悉胡锡进微博风格的人还是能一眼看出,生成器生成的文章不能再像胡锡进本人,从原始语料到一篇通顺的文章,这也要得益于胡锡进在微博坚持不懈的进行内容输出。
GitHub指路:
https://github.com/menzi11/BullshitGenerator
早在胡编生成器之前,就有网友总结了胡锡进的评论套路格式:以形式遮蔽内容;消解意义;偷换目标;把稻草人批判一番;强抢功劳;模糊主次;打桌子哄孩子。
胡氏评论就是这样一种遇到新鲜事,第一时间生成评论发布,马上抢占舆论高地,赢取伟大胜利的评论形式。
如果还是不能理解胡氏评论的精髓,那就只好拿出网友总结的评论格式模板了:“近期互联网上出现了__________,老胡也看到__________,知道大家很__________,老胡忍不住啰嗦几句,虽然__________确实存在部分__________,但是__________,最后老胡呼吁__________”
胡编生成器这两天算是被网友玩坏了,这也惊动了胡锡进本人,甚至在微博举办了一个胡氏评论大赛,玩得不亦乐乎。
看了胡锡进本人的“参赛文”,你给几分?

去年风靡一时的“狗屁不通文章生成器”
“胡编生成器”的创作者称,胡编生成器的诞生,是基于去年年底风靡一时的“狗屁不通文章生成器”,只要输入一句话,系统就会生成一篇万字长文的神器。
好奇的文摘菌想知道输入“防疫大课堂观后感”会出现何种文章,于是...
没有对比就没有伤害,真的是“狗屁不通”。
不仅出现了车轱辘话,并且文摘菌也想知道“防疫大课堂观后感,到底应该如何实现”。
再试一试输入这首非常洗脑的歌曲,看看有什么样的效果:
emmmm,翻来覆去就是那些句型。神器的作者也在GitHub表示,千万别当真,just for fun!
那么,这个文章生成器究竟是一个怎样的算法?作者在项目里写道:
鄙人才疏学浅并不会任何自然语言处理相关算法,而且目前比较偏爱简单有效的方式达到目的方式,除非撞到了天花板,否则暂时不会引入任何神经网络等算法。不过欢迎任何人另开分支实现更复杂,效果更好的算法,不过除非效果拔群,否则鄙人暂时不会融合。
看来作者也的确拥有一个有趣的灵魂。
那么有没有作者所说的更好的生成器,能够避免长篇大论下的“狗屁不通”呢?这就不得不提到OpenAI开发的著名的文本生成模型GPT-2
一年之前,OpenAI的新文本生成模型GPT-2掀起了一场不小的风波,在技术社区和社交网络引起广泛讨论。
这是OpenAI训练的一个大型无监督语言模型,能够生产连贯的文本段落,在许多语言建模基准上取得了SOTA表现。而且该模型在没有任务特定训练的情况下,能够做到初步的阅读理解、机器翻译、问答和自动摘要
由于这个文本生成器性能太好,OpenAI担忧其将会导致滥用,因此决定暂不将其发布开源
OpenAI表示,GPT-2经过40千兆字节互联网文本样本的训练,参数达到15亿,可以生成“符合上下文环境文本风格和内容”的文本,让用户“为他们选择的主题生成真实和连贯的语句。”GPT-2在Winograd Schema,LAMBADA和其他语言建模任务上均获得了领先水平。
OpenAI最终发布了一个精简版本TalkToTransformer供大家使用,我们通过一个例子来看看这个文本生成模型有多强大。
比如用特朗普做例子写一则“洋葱新闻”。
输入我们的开头:“唐纳德·特朗普今天宣布他将永远关闭美国。特朗普在twitch上直播了自己的竞选胜利,他……”
模型给出的续写是:“……对媒体的批评进行了猛烈抨击,这让美国人感到意外。他列举了100多万张非法选票、对选举结果的操纵,甚至还有一名墨西哥裔美国法官同情他的竞选对手的阴谋论。当他走下舞台时,一群人高呼‘把他关起来!’和‘特朗普! ’,并目送他离开。”
看来GPT-2的效果还是不错的,“防疫大课堂观后感生成器”的作者也表示,生成观后感“用不上GPT-2”,但相信大家和文摘菌有一样的好奇,如果用GPT-2来写一篇“防疫大课堂观后感”,结果会怎么样?
感兴趣的同学不妨一试哦!
重磅!忆臻自然语言处理-学术微信交流群已成立
可以扫描下方二维码,小助手将会邀请您入群交流,
注意:请大家添加时修改备注为 [学校/公司 + 姓名 + 方向]
例如 —— 哈工大+张三+对话系统。
号主,微商请自觉绕道。谢谢!
继续阅读
阅读原文