动漫游戏小说电影信手拈来,对各行各业的知识都拥有强烈的兴趣,提供人类历史、文化、科学等相关的知识来源,配合实现你的脑洞,让你当上赛博空间的图书馆馆长……
上述是一则招聘启事的内容,单凭招聘要求来看,估计大多数人都猜不到,这是一家量化大厂的招聘信息。
近日,幻方量化发布招聘公告称,公司正在招募“数据百晓生”,希望其辅助技术人员一起用世界知识和文字数据扩充AGI模型的能力边界,具备百科网站编辑、论坛贴吧版主等经验者优先。
备受关注的是,一向与冰冷数据打交道的量化私募,为何要招聘“赛博图书馆馆长”职位?AGI模型又是怎么样的存在?
寻找“赛博图书馆馆长”
招聘启事显示,幻方量化正在招募“数据百晓生”,要求应聘者“提供人类历史、文化、科学等相关的知识来源(包括网站、书籍、报纸等在内的所有文字媒介和渠道),制定数据收集方案,和数据工程师一起构建完善的世界语言知识库,辅助技术人员一起用世界知识和文字数据扩充AGI模型的能力边界”。
同时,幻方量化还希望应聘者能够“涉猎广泛,动漫游戏小说电影信手拈来;博闻强识,对各行各业的知识都拥有强烈的兴趣”。
在招聘条件中,幻方量化还特别提到,具有百科网站编辑、论坛贴吧版主、游戏剧情策划等经验者优先,“配合实现你的脑洞,让你当上赛博空间的图书馆馆长”。
进入通用人工智能领域
一直以来,幻方量化以其量化投资业务为人熟知,为何此次招募的岗位与量化投资看起来关系不大?
幻方量化相关人士透露,此次招募的人才主要是出于AGI公司的需求,和量化投资无关。
公开资料显示,今年4月份,幻方量化曾发布公告称,公司将成立新的独立研究组织,决定投入到通用人工智能(AGI)的研究当中。今年5月,幻方量化的创始人梁文锋在接受媒体采访时表示:“幻方做大模型,跟量化和金融都没有直接关系,我们独建了一个名为深度求索的新公司来做这件事。我们要做的是通用人工智能,也就是AGI,大型语言模型可能是通往AGI的必经之路,并且初步具备了AGI的特征,所以我们会从大语言模型这里开始。”
天眼查信息显示,2023年7月17日,一家名为“杭州深度求索人工智能基础技术研究有限公司”(以下简称“深度求索”)的公司成立,其实际控制人即为梁文锋。

百度首席技术官、深度学习技术及应用国家工程研究中心主任王海峰表示,大语言模型具备通用人工智能的典型能力,需经过数万亿数据和数千亿知识的融合学习及预训练。
华泰证券也在研报中指出,AI大模型需要高质量、大规模、具有多样性的数据,对标海外主要数据集,通用类型数据来自维基百科、书籍期刊、高质量论坛,国内的数据或来自文本数据领域的百度百科、中文在线、中国科传、知乎,以及图像视觉领域的视觉中国等公司。
由此看来,幻方量化招募“数据百晓生”正是为了大模型的多样性数据做储备。
国产大模型密集上线
事实上,今年以来,伴随着AI技术的突破,科技领域掀起了一波“大模型”浪潮。
赛迪顾问数据显示,2023年国产大模型开始爆发式增长,仅1月至7月就有64个大模型发布,截至2023年7月,中国累计已有130个大模型问世。
9月13日,阿里云宣布旗下通义千问大模型已首批通过备案,并正式向公众开放。阿里云还表示,近期将开源一个更大参数规模的大模型版本,供全社会免费商用。
无独有偶,9月7日,在2023腾讯全球数字生态大会上,腾讯也发布了自研通用大模型“混元”,据腾讯集团高级执行副总裁、腾讯云与智慧产业事业群CEO汤道生介绍,混元大模型拥有超千亿参数规模,预训练语料超2万亿tokens;9月5日,科大讯飞则宣布讯飞星火认知大模型面向全民开放。
多位专家表示,大模型是新型基础设施的关键底座之一,大模型的竞争也是国家科技战略的竞争,我国的大模型与先进国家仍存在较大差距,所面临的挑战之一是中文语料库和英文语料库在质和量上都不及先进国家,此外在算力建设、算法创新、训练框架研发和人才培养等方面仍需加强。但中国具有强大的工业基础和丰富的行业应用场景,可为国产大模型的发展带来弯道超车的机会。
(记者:马嘉悦聂林浩)
继续阅读
阅读原文