「每周一三五更新」
撰文:陆彦君
编辑:王杰夫
Key Points
阿里云计划上市前再从国有企业融资最多30亿美元;
Meta与LG合作,计划2025年推出高端MR头显,对标苹果Vision Pro;
Arm IPO估值500亿至540亿美元
越来越多内容生产者决定屏蔽OpenAI的爬虫;
Meta推出多语言阅读理解数据集Belebele。
阿里云计划上市前再从国有企业融资最多30亿美元
9月4日有媒体报道,阿里云正考虑于香港上市前,再开展一轮面向国有企业的融资,融资规模100亿元至200亿元人民币,潜在投资者包括国有电信运营商。知情人士表示,审议工作尚处于初步阶段,融资规模和时间等细节可能会发生变化。
分拆出来的阿里云要独立上市
阿里云成立于2009年,为200多个国家和地区的数千家企业、开发者和政府组织提供数据处理和存储服务。截至今年3月31日的12个月内,阿里云为阿里巴巴贡献了112亿美元的收入。
阿里云的新挑战是大模型
根据咨询公司Canalys的数据,阿里云占据国内云计算市场的最大份额(36%),不过这个领域正在迎来新的技术拐点。国内的技术公司都把大语言模型视作云计算的「Game Changer」,竞相发布了自己的大模型。
上市前,阿里云需要向投资者证明,自己在AI方面也是有足够商业潜力的云服务平台。今年4月,阿里云发布AI大语言模型「通义千问」。7月,阿里云发布AI绘画创作大模型「通义万相」。
目前,阿里云在大模型的商业化进度层面落后于竞争对手。8月31日宣布公开上市的11个大模型和相关应用中有百度的文心一言,但没有阿里云的通义大模型和类ChatGPT产品「通义千问」。在国家网信办于今年6月和9月分别公布的两批《深度合成服务算法备案清单》、总共151款算法和产品中,通义大模型和通义千问都不在其列。而华为盘古大模型、腾讯混元大模型则都在9月1日公布的第二批算法备案清单中。
参考链接
https://www.bloomberg.com/news/articles/2023-09-04/alibaba-cloud-eyes-state-firms-for-up-to-3-billion-fundraising
Meta与LG合作,计划2025年推出高端MR头显,对标苹果Vision Pro
面对苹果即将在2024年发售Vision Pro,Meta选择与LG合作,双方计划于2025年推出一款高端混合现实(Mixed Reality,MR)头显与苹果竞争。
新头显将对标苹果Vision Pro
在此之前曾有报道称Meta已不再采购Quest Pro的零部件,意味着准备放弃该产品线。但Meta CTO安德鲁·博斯沃思(Andrew Bosworth)否认了这一消息。
最新情况是,Meta计划在2024年继续发布亲民版设备Quest 4,并于2025年推出对标Vision Pro的高端MR头显Quest 4 Pro。如果确定量产,Meta和LG合作的设备预计将搭载LG子公司的零部件。
苹果为Vision Pro定价3499美元,Meta与LG合作的头显的定价据说会更有竞争力。
Quest Pro的发展历程:
  • 2019年,Meta推出Oculus Quest,它被视为Meta推出的首款VR设备;
  • 2020年,Oculus Quest 2上市;
  • 2022年10月,Meta推出的Quest Pro被定位成生产力工具,售价高达1500美元。这一年,Meta终于将Oculus这个品牌杀死,此后所有设备都改叫Meta Quest;
  • 2023年3月,Meta宣布降价,Quest Pro降价500 美元,Quest 2降价70美元;
  • 2023年7月,Meta CTO安德鲁·博斯沃思否认公司将关闭Quest Pro生产线的传言;
  • 2023年6月,Meta表示,Quest 3将于2023年秋季发售,128GB的定价为499.99美元。
参考链接
https://news.nweon.com/112222
Arm IPO估值500亿至540亿美元
软银旗下的芯片设计公司Arm IPO的每股定价为47至51美元。按照这一定价区间,Arm的估值在500亿至540亿美元之间,IPO规模为50亿至54亿美元。
这个价格比软银的预期要低不少
软银此次调低IPO定价可能反映出机构投资者对于Arm的前景并不十分乐观。毕竟受到全球智能手机出货量下滑的影响,Arm 2022财年营收同比还下降了1%。
不过即使低于预期,Arm依然是自2021年电动汽车制造商Rivian Automotive上市以来,在纽交所上市的公司中市值最高的。
IPO有哪些投资者?
已经有许多客户签约成为Arm IPO的投资者,包括苹果、英伟达、Alphabet、AMD、英特尔、三星、芯片设计软件公司Cadence与Synopsys。
上述公司期待与Arm拓展商务关系,并确保竞争对手不会获得更多优势。Arm的芯片设计是不可缺少的资源,超过260家技术公司每年使用Arm的设计制造超过300亿颗芯片,这些芯片将为全球99%的智能手机、最小的传感器和最强大的超级计算机提供动力。
孙正义想要靠Arm翻身,但Arm跟生成式AI的关系并没有那么密切
孙正义是人工智能的长期信徒。他早在2016年就买进了Arm,并于英伟达股票因人工智能概念而攀升的2017年,通过二级市场累积了英伟达约5%的股份,成为英伟达的第4大股东。然而2019年年初,就在生成式AI爆发的前夜,孙正义约36亿美元的价格出售了英伟达的股票。
Arm是智能手机芯片架构的黄金标准,英伟达看重其在移动端的价值,并曾于2020年尝试以400亿美元的价格收购Arm,但因遭到不少科技企业和各国监管机构的反对而放弃。
今年以来,英伟达的股价已经上涨了两倍多,其他任何与AI隐约相关的股票都在水涨船高。不过,今天对于生成式AI最重要的芯片架构已不再是Arm,而是英伟达自研的CUDA。英伟达股价的爆炸性增长很可能并不会发生在Arm身上。即便如此,相较于2016年收购Arm时的320亿美元,孙正义还是赚了些钱。
参考链接
https://www.reuters.com/markets/deals/softbanks-arm-ask-47-51-per-share-ipo-source-2023-09-02/
《卫报》阻止了OpenAI的爬虫,成为长长名单中新的一员
9月1日,英国《卫报》表示,已经阻止OpenAI抓取自家的新闻数据以训练AI模型。这是自8月9日OpenAI公开了自己的爬虫工具GPTBot以来,又一家公开表示禁用GPTBot的内容网站。
什么是网络爬虫?
网络爬虫是一种自动化程序,开发者使用Python、Java等计算机语言设定抓取目标、抓取范围等细节,可以将访问的网页抓取下来,高效完成数据采集工作。在过去,Google作为全球规模最大的搜索引擎,也是全球网络爬虫最主要的贡献者。
但随着生成式AI与大模型对于训练数据的需求量越来越大,这些AI公司也在使用网络爬虫抓取文本、图像等数据,构建训练AI模型所需的数据集。这些爬虫还可以持续获取互联网新出现的信息,使AI模型的训练跟上信息的快速更新。
为什么要阻止爬虫?
《卫报》和《观察家报》的出版方Guardian News & Media表示,「出于商业目的从《卫报》网站窃取知识产权的行为,从始至终都违反了我们的服务条款。」毫无疑问,OpenAI正在出于商业目的从各个网站抓取内容来训练GPT大模型。
OpenAI目前已经公开了爬虫工具的名字,并且提供了屏蔽爬虫的方法。但很多人认为,OpenAI使用爬虫获取训练数据由来已久,很多属于内容生产者的独家内容通过这种方式被GPT拿走,这无疑侵犯了这些内容生产者的利益。
还有哪些网站也阻止了OpenAI的爬虫?
据一家检测AI生成内容的公司Originality.ai透露,现在屏蔽GPTBot爬虫的新闻网站包括CNN、路透社、华盛顿邮报、彭博社、纽约时报及其体育网站The Athletic。
其他屏蔽GPTBot的网站还包括亚马逊、旅游网站Lonely Planet、求职网站Indeed、问答网站Quora和Dictionary.com。
使用网络爬虫的大模型,不止OpenAI
以ChatGPT为代表的AI聊天机器人,都从公开的互联网信息中抓取数据以训练大模型。
Google的隐私政策规定,该公司正使用网络爬虫帮助用户查找搜索结果,可能会收集公开信息来训练AI产品的模型,其中包括Bard聊天机器人。
本周,Facebook和Instagram的母公司Meta推出一项新政策,允许用户表示是否不希望自己的个人信息被用于训练AI模型。
今年7月,马斯克对X平台(前身为Twitter)施加限制,以阻止AI公司「极端程度的数据抓取」。不过马斯克也确认,他将使用公开推文来训练AI初创公司xAI开发的模型。X平台最新的隐私政策显示,它现在将收集用户的生物识别数据、教育和工作信息,还计划使用收集的信息训练AI模型。
参考链接
https://www.theguardian.com/technology/2023/sep/01/the-guardian-blocks-chatgpt-owner-openai-from-trawling-its-content
Meta推出多语言阅读理解数据集Belebele
8月31日,Meta推出一款名为Belebele的多语言阅读理解数据集,该数据集涵盖了122种语言,方便比较模型对不同语言的理解程度。
这个数据集可以做什么?
该数据集扩展了自然语言理解(NLU: Natural Language Understanding)基准测试的语言覆盖面,可以评估高资源语言、中资源语言和低资源语言的文本模型。(注:高资源语言拥有大规模的语料库、词典、知识图谱、标注数据。英语就属于高资源语言。一些少数民族语言、太平洋岛国的语言属于低资源语言。)
由于完全并行,该数据集可以直接比较所有语言中的模型性能。使用该数据集可以评估多语言掩码模型(MLMs)和大语言模型(LLMs)的能力。
多语言掩码模型是什么?
多语言掩码模型(Multilingual Masked Language Model,MLM)是自然语言处理中一类重要的预训练语言模型。它采用了掩码语言模型(Masked LM)的训练方式,在输入中随机掩盖词汇。通过上下文预测被掩盖的词汇。MLM通常显示出比单语言模型更好的语义表示能力。知名的MLM模型有Facebook的XLM、Google的mBERT等。
评估结果显示,尽管以英语为中心的大模型存在显著的跨语言迁移能力,在平衡的多语言数据集上预训练的小规模多语言掩码模型仍然可以理解更多的语言。研究者还发现,更大的词汇量和有意识的词汇构建与低资源语言上的更好表现相关。
总体来说,Belebele为评估和分析NLP系统的多语言能力开辟了新的途径。
参考链接
https://arxiv.org/abs/2308.16884
Bonus
郭台铭辞任鸿海科技集团董事
9月2日晚间,鸿海科技集团发布声明,鸿海创办人郭台铭因「个人因素」,宣布辞任鸿海科技集团董事。由于在本届董事会九席中,已经有五席的独立董事,所以郭台铭辞任后,董事会无须立即补选董事。
鸿海方面表示,郭台铭于49年前创立鸿海公司,并带领集团深耕技术研发、创新营运模式,成为全球最大的电子制造服务企业,本公司深深感谢其近半个世纪以来对于集团以及全球电子产业的贡献。富士康就是鸿海集团在中国内地的子公司。
据央视新闻此前报道,8月28日上午,郭台铭宣布参加2024年台湾地区领导人选举。
-END-
我们是一个诞生于GPT浪潮、由《第一财经》YiMagazine孵化的全新内容IP。 
和每一位关心技术、关注人类命运的读者一样,我们希望在这个充满不确定性的时代,更好地理解快速变化的科技世界,也更好地理解生而为「高级智能」的我们自己。
在这个目标下,我们计划从学术、商业、伦理、监管等多个角度报道和讨论与「智能」相关的议题。请注意,我们说的智能,不只是 AI。
以下是最近发生的其他智能资讯
与记者交流,可添加微信(请备注公司名称和姓名):
王杰夫 微信号: wjfsty
张司钰 微信号: helianthus351
吴洋洋 微信号: qitianjiuye
喜欢就关注我们吧,记得设为星标」
继续阅读
阅读原文