MLNLP
社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。

社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。
转载自 | 澜舟科技
日前,国际计算语言学会(ACL)公布2023年度ACL Fellow 名单,仅有5位NLP领域知名学者入选。
其中澜舟科技创始人&CEO周明博士作为唯一华人入选。
入选理由为:“为机器翻译、语言学习、文本生成以及中国和亚洲NLP的发展做出了重大贡献。”
——ACL Fellow
ACL Fellow 计划始于 2011 年,旨在表彰对NLP领域的科技研究与社区服务作出了杰出贡献的ACL 成员,是 NLP 领域的最高荣誉。要入选 ACL Fellow,候选人必须在过去五年的三年内担任 ACL member,并由现任的 ACL member 提名。
参考网址:https://aclweb.org/aclwiki/ACL_Fellows
ACL有着极为严格的避嫌制度。候选人不能是现任候任ACL副主席、主席、执委会成员和ACL会士提名委员会成员。ACL提名委员会由三名前任ACL主席,每人从ACL主席退下后需要服务三年,以及6名ACL会士组成。这就意味着候选人从入选候任ACL副主席开始,六年内不能参评ACL会士。
周明博士是澜舟科技的创始人兼CEO,是世界顶级的 NLP 科学家,中国NLP领域的代表性人物。现任中国计算机学会(CCF)副理事长、中国中文信息学会常务理事、中国计算机学会会士、中国人工智能学会会士,担任哈尔滨工业大学、天津大学、南开大学、北京航空航天大学、中国科技大学等高校的博士生导师。曾任微软亚洲研究院副院长、国际计算语言学协会(ACL)主席。

攻克难关,开拓创新

周明自1985年在哈尔滨工业大学攻读硕士学位以来,矢志不渝一直从事自然语言处理(NLP)研究。他经历了世界NLP技术发展从规则阶段、统计阶段、神经网络阶段、预训练模型和大模型阶段的波澜起伏的历程,也亲身见证和参与贡献了中国NLP从艰难起步,到跟国际接轨,再到如今在国际上进入Top level的各个阶段。在这时代浪潮中,周明凭借其卓越的才华与执着的精神,成为NLP领域的杰出代表。他在机器翻译、语言学习、文本生成、聊天机器人和预训练模型(大模型)等领域均取得了重大创新成果。
根据谷歌学术的数据,周明博士的论文被引用高达47,260(统计截至2024.1.11)次,H-index指数为110,是2012-2020年间在机器学习和NLP领域发表论文最多的作者。他的杰出贡献不仅为NLP领域注入了新的活力,还推动了该领域在全球范围内的进步。
参考链接:https://www.marekrei.com/blog/ml-and-nlp-publications-in-2020/

机器翻译

周明是中国最早从事中英机器翻译领域的研究者之一。1991年,他在哈尔滨工业大学完成了博士论文研究(指导教师是李生教授),创建了中国首个通过国家鉴定的汉英机器翻译系统(CEMT-I),该系统具备汉语解析、汉英句法转换和英语生成的分层短语结构规则。
1991年他到清华大学从事博士后研究(合作导师是张钹院士和黄昌宁教授),1993年担任副研究员。1998年,在日本高电社株式会社访问期间,周明进一步研发了基于依存句法结构规则系统的中日机器翻译产品(J-北京)。这款产品在中日机器翻译市场上取得了显著的成功,成为该领域的领导者。
1999年,周明离开清华大学加入微软亚洲研究院(MSRA),不久后开始担任自然语言计算研究组负责人。他领导团队在大规模并行数据的网络挖掘、文档和单词级别的对齐、词典提取、搭配提取、搭配翻译以及通过句法结构加强的统计机器翻译解码方法等方面完成了多项创新研究。
2008年,在美国国家标准与技术研究院(NIST)的开放式MT评估中,周明带领的团队与MSR-Redmond NLP团队和其他研究合作伙伴的合作结果在中英文MT质量评测中排名第一。
自2012年起,周明的团队开始探索深度学习方法在机器翻译中的应用。他们成功地将基于深度学习的特征融入统计机器翻译中,并实现了神经机器翻译的端到端训练。这一创新为微软亚洲研究院(MSRA)的语音英汉翻译系统贡献了一个由深度学习功能增强的统计机器翻译引擎。在2012年10月微软21世纪计算大会上,该系统由微软首席研究官Rick Rashid成功演示,引发了全球对深度学习在语音和语言翻译领域研究的热潮。
2018年,周明团队与其他MSRA团队合作研发了一种新型神经机器翻译系统,能够将新闻文章从中文准确无误地翻译成英文。这一创新技术进一步提升了机器翻译的质量和准确性。
以上各项创新研究方法已不断集成到微软多语言机器翻译云服务Microsoft Translator中,为全球用户提供更高效、准确的翻译服务。

语言学习

在语言学习领域,周明也贡献了诸多研究成果。2005年,他领导团队与产品团队合作开发了英语写作助手系统(EWA),这一系统会在用户输入单词序列时提供相关例句,从而帮助用户更真实地表达意思。该系统成功集成到MS Office中,为将英语作为第二语言的人群提供了便利。
2010年,周明提出了借鉴搜索引擎创建一款英语学习软件的想法。不久后,他的团队与MSRA其他团队合作推出了一款英语学习引擎——Engkoo(中文名称为“英库”)。将网络上的人工翻译、机器翻译和语言学习体验整合到一个用户友好的搜索和探索界面。这一卓越的语言辅助系统荣获了《华尔街日报》颁发的亚洲创新奖。
2012年,微软必应搜索正式发布该系统(名字为“词典“),进一步推动了语言学习技术的发展。

文本生成

文本生成是自然语言处理中一个重要的研究领域,具有广阔的应用前景。2001年,周明率领团队为MS Windows开发了一款基于统计语言模型的IME(Input Method Editors ,输入法编辑器),支持中文和日语,极大地提升了输入体验。
2005年,周明在时任MSRA院长沈向洋的启发和鼓励下,成功研发出全球首个实用的中文对联系统。这一创新在当时的人工智能领域引发了巨大的震动,因为彼时AIGC研究尚未正式开展,没有成熟的技术。他独辟蹊径,运用一种创新的基于短语的统计机器翻译算法来生成对联,并通过过滤器排除违反语言规则的候选对联。
基于周明提出的算法,微软推出了一款广受好评的对联系统,并在微软21世纪计算大会上连续三年展出。这款系统被公认为中国首个由人工智能生成的对联系统,其功能后来还扩展到作诗、作词和猜谜语等方面。作为人工智能与中国传统文化完美结合的典范,微软对联系统赢得了广泛的赞誉。
颇为有意思的是,他有感于身为父母给孩子起名的困难,他提出了人工智能起名的思路,后来形成了一个“美名腾智能起名”网站服务,每年为数百万的用户免费起名。

聊天机器人

微软社交聊天机器人小冰于2015年首次在中国发布,随后日文版和英文版也分别在日本和美国推出,受到了广泛的关注和赞誉。作为小冰系统背后的MSRA自然语言处理团队的负责人,周明带领团队研发了高效的基于检索的对话生成引擎,显著提高了小冰的自然对话能力。
随后,他们又研发了一种用于对话的深度学习引擎,进一步增强了小冰的对话表现。结合这两种引擎的优势,小冰展现出了高度多样化的反应,使其成为出现大模型方法之前全球最先进的聊天机器人。
多年来,小冰在中国积累了庞大的用户群体,高达2亿用户。在2015年到2019年,小冰被视为微软的旗舰级人工智能产品,为聊天机器人的发展树立了新的里程碑。

大模型

随着2017年谷歌提出Transformer,随后又提出BERT预训练模型以来,周明的团队即开始了预训练模型的研发。他的团队通过大规模的自我监督预训练,涵盖了跨任务、不同语言和多模态,成功创建了多种预训练模型。其中,一个全新的统一预训练语言模型(UniLM)尤为引人注目。这一模型经过微调后,能够应对复杂的语言理解和生成任务。
UniLM在预训练过程中采用了三种类型的任务:单向、双向和序列到序列预测。其统一建模是通过共享的Transformer网络和特定的自注意掩码来控制预测条件的上下文来实现的。在GLUE基准测试以及SQuAD 2.0和CoQA问答任务上,UniLM表现出了优于BERT的性能。
此外,UniLM在五个自然语言生成数据集上取得了卓越的成绩,包括改进CNN/DailyMail摘要任务、Gigaword摘要任务、CoQA生成问答等。之后,UniLM进一步扩展到包括视觉、语音和布局在内的多种模式。这一创新将语言理解和生成整合到了一个预先训练的模型中,受到了研究界的广泛关注和赞誉。
2019年,UniLM荣获了中国乌镇互联网创新奖,进一步彰显了其在自然语言处理领域的卓越影响力。
周明团队也创新性地将预训练模型应用于代码自动化方面,例如构建了CodeXGLUE基准数据集,为程序理解和生成方面的机器学习研究提供了有力支持。CodeXGLUE包含了14个数据集的10个任务集合,以及一个用于模型评估和比较的平台。此外,CodeXGLUE还提供三个基线系统,包括BERT风格、GPT风格和编码器-解码器模型,使研究人员能够轻松使用该平台。这些数据和基线的可用性可以帮助开发和验证各种程序理解和生成问题的新方法。
此外,周明的团队还成功地把预训练(大模型)技术应用到文生图、文生视频、语音识别、语音合成、文档理解等多个领域,并在微软产品中得到了广泛落地。
参考论文:“CodeXGLUE: A Machine Learning Benchmark Dataset for Code Understanding and Generation”(“CodeXGLUE:用于代码理解和生成的机器学习基准数据集”)

搭建NLP社区交流的桥梁

除了各项杰出的科研成就外,周明在ACL社区中也发挥了重要作用。自2017年起,他开始在ACL执行委员会任职,并于2019年成为ACL主席。随后,他于2020年至2022年在ACL的提名委员会任职。周明是发起ACL亚太分会(AACL)的主要贡献者,该分会极大地推动了ACL和NLP在亚太地区的发展。
周明于2020年当选为中国计算机学会(CCF)副理事长,CCF拥有庞大的10万多名会员。在此之前,他于2015-2019年期间担任中国主要NLP学术组织之一CCF-NLP的主任。此外,他还担任了中国中文信息学会常务理事。
周明在多个会议和期刊中也同样担任要职。他于2009年至2013年担任《计算语言学》的编委。也以不同角色为多个会议服务,包括ACL 2000和ACL 2003的区域主席、AIRS 2004的PC主席、IJCNLP 2004的交互式演示/海报主席、IJCNLP 2005的区域主席、EMNLP/HLT 2005的区域主任、NAACL/HLT 2006的区域主任、COLING-ACL2006的区域主席、IJCAI 2007的区域主席;ACL 2008的研讨会主席、SIGIR 2009的宣传主席、CIKM 2004、CIKM 2005、 MT Summit 2004、MT Summit 2005、 AMTA 2002、 SIGHAN 2005、 SIGHAN 2006、 AIRS 2005、 AIRS 2006的PC成员;COLING 2010区域主席、SIGIR 2012和SIGIR 2013区域主席。此外,他还担任过CCF NLP&CC 2012的PC主席和NLP&CC 2013的总主席,以及CCF年度大会CNCC-2019的PC主席。

教书育人,促进跨界合作

在1999年加入MSRA之前,周明博士已在清华大学执教八年。在人才教育和项目合作方面展现出了卓越的教学与指导才能。他不仅在哈尔滨工业大学、天津大学、南开大学、北京航空航天大学及中国科学技术大学五所知名高校兼任博士生导师,而且在过去20年里成功指导了20余名博士生和20余名博士后。周明博士的团队更是吸引了来自中国、日本、新加坡、韩国、美国、加拿大和澳大利亚等全球30多所顶尖大学的500余名实习生,他们如今已成为各大企业和学校的NLP领军人物和技术专家,在各自的领域,均发挥着举足轻重的作用。
周明博士在微软-哈工大NLP联合实验室和微软-清华大学媒体与网络联合实验室担任主任职务长达十余年,期间主导研究方向并成功支持了众多联合项目。他对中国NLP领域的贡献尤为突出,周明为CCF自然语言处理与中文计算国际会议(NLPCC)的建立做出了重要贡献,担任首届程序委员会主席。该会议被誉为中国的ACL,以其高度的选择性和国际化的英语交流平台,有效地将中国NLP研究界与世界紧密相连。此外,周博士还积极推动中日NLP研讨会的年度举办,为中日及更广泛的亚洲国家间的合作与交流搭建了重要桥梁。
作为中国计算机学会(CCF)的副理事长,周明致力于推动学术界与工业界的紧密合作。他通过CTO俱乐部(C3)和技术前沿讲座等系列项目,为大学和工业企业之间的合作开辟了新路径。在中国计算机大会(CNCC)上,周明创办了CCF创业峰会,该峰会不仅促进了创业文化的蓬勃发展,还加强了基础研究与应用实践之间的紧密联系。
周明博士在科学研究、NLP社区服务以及推动NLP教育与合作方面取得了令人瞩目的成就,因此被授予“2023年ACL Fellow”的荣誉。他的贡献不仅在学术界和工业界产生了深远影响,而且为NLP社区的发展和进步做出了重要贡献。这一荣誉是对周明博士长期以来在NLP领域的卓越贡献的认可和肯定。

从科学家到创业家

2020年底,周明敏锐地预见到大模型时代即将来临,他有志于创建一个大模型的技术和应用公司,于是离开微软(彼时周明担任微软亚洲研究院副院长),在李开复的创新工场从零开始孵化一个大模型团队。
2021年6月,北京澜舟科技有限公司(简称“澜舟科技”)正式成立,先后获得了创新工场、联想创投、斯道资本和中关村科学城等知名机构的投资。该公司打造了著名的孟子大模型并以SaaS和本地解决方案为企业客户提供服务。凭借其在轻量级预训练模型、机器翻译和文本生成方面的先进技术,澜舟科技获得HICOOL2021年全球创业大赛最高奖。
左二为周明博士领奖
作为北京市“专精特新中小企业”,2023年,澜舟科技入选了达沃斯世界经济论坛“2023全球技术先锋(Technology Pioneers)”,并被硅谷科技媒体 The Information列为“五个有可能成为中国OpenAI的公司之一”。
目前,澜舟科技的孟子GPT系列大模型,覆盖了通用模型、行业模型和场景应用。作为中国大模型和NLP领域的领先公司之一,已经与中金、华为、传神、中国移动、中国联通、同花顺、华夏基金、中文在线、新华智云等众多公司建立和合作关系,以其卓越的技术和创新能力,推动着自然语言处理领域的发展。
近日,澜舟科技孟子大模型正式通过网信办生成式人工智能备案,并即将对公众开放,包括通用模型、金融行业模型和编程模型,请持续关注澜舟发布的最新动态。
澜舟科技网址:https://langboat.com

写在最后

周明博士作为一名科学家,在创业的路上,经历了常人难以想象的困难。他勇敢探索大模型创业的路线,不断汲取先进的商业理念。他在激烈的竞争和严酷的市场环境下,审时度势,牢牢把握澜舟科技的技术方向和商业模式。他作为大模型的意见领袖,对中国大模型创业和技术发展产生了积极影响。
2023年周明获得了创业黑马评选的“年度创业家“奖,他在获奖时说,这份殊荣对他的意义堪比学术大会最佳论文奖。这是大家对他和澜舟科技这三年的大模型创业不懈努力的认可。未来,他和澜舟科技将会在创业的路上不断努力,砥砺前行,直到成功,为更多企业带去创新和进步。
孟子大模型是由澜舟科技研发,面向生成场景的可控大语言模型,能够通过多轮的方式帮助用户完成场景中特定的多种工作任务。
体验网址:https://www.langboat.com/portal/mengzi-gpt
澜舟智会是一款基于孟子大模型的面向企业用户的端到端会议内容分析平台产品,可以对用户上传的会议和音频视频进行文字解析和深度智能分析。
体验网址:https://www.langboat.com/portal/mines
技术交流群邀请函
△长按添加小助手
扫描二维码添加小助手微信
请备注:姓名-学校/公司-研究方向
(如:小张-哈工大-对话系统)
即可申请加入自然语言处理/Pytorch等技术交流群

关于我们

MLNLP 社区是由国内外机器学习与自然语言处理学者联合构建的民间学术社区,目前已经发展为国内外知名的机器学习与自然语言处理社区,旨在促进机器学习,自然语言处理学术界、产业界和广大爱好者之间的进步。
社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。
继续阅读
阅读原文