MLNLP 
机器学习算法与自然语言处理 
)社区是国内外知名自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。

社区的愿景 是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流,特别是初学者同学们的进步。

高考出分了出分了,考得咋样?QQ空间上转得那10条锦鲤起作用了吗?能让爸妈给换新iPhone吗?和妹子报同所学校有戏不?
好了,不装嫩凑热闹了,我参加高考都十年前的事儿了。
遥想当年考场挥斥方遒,可以说是我人生文化水平的巅峰,下笔如有神。而看看今年的高考作文题目,别说写了,曹公的这几句话都不见得能读懂几分,以现在的水平我可能连机器都考不过。
emmm不是可能,是真的连机器都考不过。不是我小瞧自己,是如今的AI太厉害了。不信你看——
这篇鲁迅体风格十足的文章正是由浪潮信息推出的全球最大规模中文人工智能巨量模型“源1.0”生成。
我大抵是没见过世面,思来想去不知输在了哪里,起身看了看,这惭愧没由头,黯黯然翻了翻这两篇作文,一篇是AI写得,另一篇也是AI写得。
好了,解除鲁迅先生emo版附体,话说回来,“源1.0”能写出这样的文章有迹可循:“源”的单体模型参数量达2457亿,单在阅读方面,小源就“读”过300万本书。
所以能写出这样的高质量作文也不足为奇,不仅如此,它甚至还会写文综……分析汽车尾气对小花小草的生态影响、探讨中国科技发展史……
尽管AI应用于文字创作并不算新鲜事,但AI大模型的出现还是一再给人带来惊喜,创作形式和内容也变得更加丰富多彩。
1
『小、快、灵:要想AI大模型落地,还看蒸馏后的技能模型』
过去两年,AI巨量模型在业内引起开发风潮。
但大规模模型虽好可不要贪杯(划掉重来)虽然好但落地应用过程中还需解决性能以及成本的阻碍。
在产业AI应用落地过程中,如何大模型产业化应用,让模型的能力变得更加“小、快、灵”:
基于大模型快速蒸馏出轻量化标准化的技能模型,将大模型沉淀的知识、认知推理能力及泛化能力向技能模型输出,同时技能模型可专注在特定场景做极致优化,提升性能与效率,已成为新的发展趋势。
根据当下的应用需求,浪潮信息推出了全球领先中文AI大模型“源1.0”的最新成果,基于“源1.0”千亿大模型蒸馏出4个百亿参数规模的技能模型:知识增强的对话模型、知识检索问答模型、中英文翻译模型、古文理解模型。
蒸馏成技能模型后,在相同任务上保留98%的基础模型效果的同时,推理速率能提升9倍甚至更多。
同时,技能模型还可以与巨量模型协同进化,将执行结果反馈给巨量模型,巨量模型的知识与能力持续进化,形成一套有机循环的系统,落地场景越多、模型进化得“越聪明”,同时模型进化的速度也越快。
如此的降本增效,可以让行业用户甚至是中小用户也能使用大模型进行深度创新,而这四个模型也正是基于NLP技术最常上岗的各类场景。
“源”开发团队为模型选择的数据也是精且全,可开发出才高八斗的“文化bot”,也可开发出对答如流的“社会bot”,还能开发出满足人相对高阶情感需求的“知心bot”。
来看下这四个蒸馏出的技能模型都达到了怎样的水平:
古文理解模型(源晓文)在源大模型精读了5000GB高质量中文的基础上,又学习了先秦到近代几乎所有诗词,并精选其中最优秀的10万首进行强化训练。可广泛应用于文学创作、古诗文教学、汉语言文化研究等场景中。
对话技能模型(源晓问)在源大模型基础上,采用了2660万条医疗、法律、保险等不同行业,历史、电影、娱乐等不同场景的对话语料数据进行强化训练,源晓问可广泛应用于虚拟人、智能助手、智能客服等场景。
中英翻译技能模型(源晓译)基于源大模型阅读的海量高质量数据集,采用维基百科、书籍、联合国文件及字幕组等近80G高质量数据集进行强化训练,可轻松应对日常对话、新闻、哲学、小说等日常的语言翻译任务。
知识检索问答技能模型(源晓搜)链接了包含了维基百科、书籍等知识的数据库,根据用户提问的内容,利用高性能检索方法,可广泛应用于医疗、法律、保险及娱乐等领域的智能客服、个人助理等场景。
当然,考虑到智能客服覆盖的领域不同,领域知识已经被预先编码到的知识库中,如果开发者想切换不同的应用领域,只需要替换知识库即可,不需要重新训练这个模型,可以做到应用在不同专业领域之间的迁移。
2
『从自动驾驶到先上剧本杀,“源1.0”开发应用范畴广且新』
自去年10月发布以来,“源1.0”已经快速投入应用实践中,在企业开发团队和个人开发者的“真刀真枪”中不断成长,取得了不斐的成绩:
例如,超600家用户,采用“源1.0”提供的数据和API显著提升了金融、互联网、医疗和自动驾驶等行业应用的精度;
源1.0已经与多个行业用户开展深度合作,支持手机智能语音助手、大型互联网翻译平台等应用的AI智能化升级……
除了这些相对“常规”的操作,不少开源社区的开发者们通过源1.0的开放开源平台进行了创意实现。
“AI剧本杀”就是其中代表,曾在GitHub引发热烈讨论。
Github链接:https://github.com/bigbrother666sh/shezhangbujianle
实际上,剧本杀非常考验玩家的故事场景理解能力、目的性对话能力和线索收集能力,“源”的出现,让AI有了这样的能力。
下图这个顶着女生侧脸头像的蔡晓正是一群开发者开发出的AI虚拟人物。经过训练,“她”不仅擅长剧本杀推理游戏,还拥有自己完整的朋友圈人设——经典AI科幻电影《黑客帝国》的经典片段作为朋友圈背景,还会发剧本杀相关内容辅助剧情延续。
蔡晓之“父”(们)是一群来自上海交通大学、华东理工大学等高校的学生开发者。
基于浪潮“源1.0”的开源开放能力,他们开发了一个AI剧本杀平台,让AI与真人同场竞技,源1.0的场景化对话技能已经达到了“人机难辨”的程度。
3
『低代码友好度满分:开发工具齐全,开箱即用』
据开发团队介绍,在「剧本杀」项目中的合成文本环节,浪潮团队提供了技术支持,对prompt生成、request提交以及reply查询均提供了详细的、质量极高的范本代码。
源官网链接:https://air.inspur.com/home
借助源1.0的开放开源的能力,AI开发者可以快速的享受大模型带来的便利:
包括可以直接调用的开放模型API——显著降低了开发者应用开发的门槛;
并且,浪潮开源了直接可用的代码示例,包括高质量中文数据集,开源模型训练代码、推理代码和应用代码等,可以帮助开发者节省各类研发开支。
如此,开发者无需关心底层技术,设置无需配置编程环境,就可以直接将应用构建于AI大模型的能力之上,在降低开发门槛的同时,让开发人员能够将更多的精力聚焦核心业务逻辑。
围绕AI大模型构建的算法基础设施,“源”开源社区建设再次升级。
目前,源的API和数据已经面向教科研、互联网、制造业等多个产业超过600家用户开放使用。开发团队已提供源1.0巨量模型、四个百亿领域模型和模型工具、开发者工具及行业合作服务。
同时,源的官网同步开放和上线了APIExp和Web应用Sandbox(沙箱)开发工具,开发者可在APIExp上设置参数,零代码调用和测试所有已开放的模型服务。
Sandbox开发工具可以让开发者仅修改少量代码,即可完成包含web交互的应用示例,从而快速验证业务逻辑和功能效果。
未来,“源”还会进一步开放模型在线蒸馏、领域模型下载等服务,并完善和丰富更多基于大模型的应用示例。
低代码、低门槛,开发工具齐全、开箱即用……这些特点以及NLP巨量模型自身的魅力与潜力,让更多的、不限技术水平的开发者都有机会尝试大模型应用。
一项技术的出现,起初确实需要聚焦精炼技术和底层开发,夯实基础,而若发展到后来,它也必将“往上走”——慢慢解放人类曾被限制的想象力、服务于缤纷多彩的创意,甚至会帮助证实那些曾被嘲笑是天马行空的幻想。
借用“小源鲁迅体”作文中的一句话:“中国青年要创造,我们要或挑战,或因势利导,或顺势而为。”
所以,想怎么用“源”,看诸君咯。
为了让小伙伴们更便捷地应用范例教程,浪潮源1.0高级算法工程师将于6.30号(周四)19:00点为大家深度解析浪潮在探索大模型落地方面的实践,聚焦源1.0大模型的技术揭秘,以及在内容创作应用上的实践分享。

关于我们

MLNLP社区  机器学习算法与自然语言处理 ) 是由国内外自然语言处理学者联合构建的民间学术社区,目前已经发展为国内外知名自然语言处理社区,旗下包括  万人顶会交流群、AI臻选汇、AI英才汇  以及  AI学术汇  等知名品牌,旨在促进机器学习,自然语言处理学术界、产业界和广大爱好者之间的进步。
社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。
继续阅读
阅读原文