新智元报道  

来源:arXiv
编辑:LRS
【新智元导读】问答系统一向是NLP 领域的兵家必争之地,最近艾伦AI 研究所也发布了一个问答模型Macaw(金刚鹦鹉),参数量比GPT-3 小了16 倍,只有110亿,zero-shot问答性能还从57%提升到65%!
虽然 OpenAI 的 GPT-3 系统已被证明在包括问答、文本生成等许多任务上非常有效,但它对于许多组织来说仍然相当于是一个「空气模型」,因为只有经过批准的用户才能付费使用。 
虽然还有其他一些预训练的语言模型可以用,但没有一个系统能与 GPT-3 的小样本问答性能相匹敌。
语言模型又一位霸主登场!
艾伦人工智能研究所(Allen Institute for AI, AI2)最近发布了一个新模型Macaw(金刚鹦鹉),一个多功能的生成式问答系统,能够在广泛的问题类型上表现出强大的零样本zero-shot性能。
Macaw 是一种基于 T5 的语言模型,并且针对问答进行了高度优化,虽然它不如 GPT-3 那样全能,但他的问答能力十分强悍。
https://arxiv.org/pdf/2109.02593.pdf
在Challenge300 数据集中,尽管 Macaw 的参数量比GPT-3 要小一个数量级(110 亿 vs 1750 亿参数),但Macaw 的表现比 GPT-3 高出 10% 以上。
此外,Macaw 既可以根据问题给出答案,也可以根据答案设置问题,甚至能够完成多选问题。更重要的是,Macaw 是免费、公开提供的。 
下面是一些问答中的例子。
Q1:一个小男孩被紧急送往医院急诊室,但急诊医生看到了男孩并拒绝手术。医生说这个男孩是我的儿子,但这个医生却不是男孩的父亲。问:为什么?
这是一道典型的脑筋急转弯问题。
标准答案:医生是男孩的妈妈
Macaw的答案:他把男孩误认为是他自己的儿子。
虽然Macaw的答案并不是我们所期望的解决方案,但这是一个完全合理的回答,可以表明Macaw 至少在表面上处理问题的能力非常厉害。 
Q2: 如何让房子导电?
Macaw的答案:用金属漆涂上它
Q3: 猫是一个动物,这暗含了什么?
Macaw的答案:它有感觉(feeling)。
Q4:猫是动物的错误含义(incorrect implication)是什么?
Macaw的答案:它是人
Q5:新生儿可以从完全生长的辣根植物顶部看吗?
Macaw的答案:不可以,因为植物太高了
Q6:为什么亚里士多德不会使用手机?
Macaw的答案:因为他出生在手机发明之前
Q7:为什么变形虫(amoeba)不能设计软件?
Macaw的答案:因为它缺乏必要的神经元
上面是Macaw 回答的比较好的一些例子,但它在实体跟踪和常识性的问题方面的回答效果却不太理想。
Q8:想象一个空杯子。现在在杯子里放一枚硬币,然后从杯子里取出硬币。现在杯子里有多少硬币?
标准答案:0
Macaw的答案:1
Q9:Sally 最喜欢的母牛昨天死了。牛什么时候能复活?
Macaw的答案:过几天
从例子上很难量化地和GPT-3 进行比较,所以文章作者收集了一个包含300个挑战性问题的数据集,称为Challenge300,并且尝试使用不同类型的问题来难倒Macaw。
研究人员记录了所有尝试过的问题,主要收录标准是Macaw做对与否,而不是优先挑选好的/坏的案例。这些问题可以松散地划分为22个不同类别,但这种分类是近似的,不是十分准确。
研究人员将Macaw 的问答性能与其他三个著名的QA系统进行了比较:OpenAI的GPT-3,谷歌的T5-CBQA,和来自AI21实验室的Jurassic-1。
最终结果Macaw 的得分为75%,而GPT-3和Jurassic-1的得分都是65%,而T5-CBQA 得分为57%。虽然这只是一项测试,但其结果是正向的。
根据类型对问题进行分类,研究人员还测量了模型中最容易(最高分数)的问题类型,最左侧的最容易获得了最高平均分数,到右侧的最难/最低平均分数。
平均而言,这些模型在通用知识(general knowledge)问题上得分最高,例如问“什么是搭便车?”通常可以得到正确答案。但在常识性(commonsense)问题上得分最低,例如都回答不正确“我能用刀切砖头吗?”和一些被精心设计的「假问题」也通常能骗过这些模型,例如“汤姆·汉克斯是哪一年登上月球的?”。
在这次测试中,GPT-3和T5-CBQA对一些问题都给出了完美的zero-shot答案,但同样犯了比Macaw 更多的错误。
Q10:为什么房子有窗户?
GPT-3的答案:这样你就可以把狗赶出去了。
Q11:化油器在汽车发动机中的作用是什么?
GPT-3的答案:这是一种将水转化为汽油的装置。
Q12:法官杀死了嫌疑犯。警察逮捕了谁?
T5-CBQA的答案:他的搭档
Q13:你如何让婚姻更牢固?
T5-CBQA的答案:我会确保自己永远是正确的
Macaw还有另一个很好的功能,可以根据答案设计提出一个问题:
问题:小刀是什么做的?
Macaw的答案:金属
答案:金属
Macaw的问题:给学生一小块有光泽的反光材料。学生处理的最有可能的材料是什么?
艾伦人工智能研究所AI2成立于2014年,其使命是为公益事业开展高影响力人工智能研究和工程。它由微软联合创始人保罗•艾伦(Paul Allen)创建的,由领先的人工智能研究人员奥伦•埃齐奥尼(Oren Etzioni)博士领导。
AI2坐落于联合湖畔,在人工智能领域拥有超过100名全球最优秀的科学和工程人才,吸引了来自全球不同兴趣和背景的个人。AI2以其团队的多样性和协作性而自豪,并采用面向结果的方法来应对AI中的复杂挑战。
除了AI 领域外,保罗艾伦于2014年宣告成立艾伦细胞科学研究所(Allen Institute for Cell Science)。它将以多样的技术与方法,大规模研究细胞这一生命的基本单位,以求理解整合系统中的复杂细胞行为,推进生物医学。
最著名的当属艾伦脑科学研究所,曾经启动过一个庞大的项目,招募了60名年轻的科学家,对总计4000个小鼠大脑进行切片分析,并通过原位杂交技术(ISH)检测不同基因的表达。这项耗时3年才完成的工作生成的“艾伦小鼠脑图谱(Allen Brain Atlas)”包含8500万张图像,600兆兆字节的数据,相当于2003年整个互联网数据的一半。
除学术外,保罗艾伦还拥有2个职业球队:NFL的西雅图海鹰和NBA的波特兰开拓者 。他也是Charter Communications主席、梦工厂股东(应邀加入美国电影艺术与科学学会(AMPAS))、NBA财主之一。他的私家游艇八爪鱼号是全世界最奢华的私家游艇之一。
保罗·艾伦曾于1983年罹患霍奇金氏淋巴瘤,后来痊愈。2009年又罹患非霍奇金氏淋巴瘤,一度痊愈,但最后于美国当地时间2018年10月15日下午因非霍奇金氏淋巴瘤并发症逝世,享寿65岁。
参考资料:
https://arxiv.org/pdf/2109.02593.pdf
继续阅读
阅读原文