撰文:张司钰、王杰夫
编辑:王杰夫
Key Points
微软为Copilot带来新入口——实体按键;
GPT Store下周推出,ChatGPT开始平台化;
Bard要推出高级版,但要收费;
Google限制第三方Cookie,这或许会革了广告商们的命;
阿里推出AI工具「通义舞王」,通过照片生成跳舞视频;
AI搜索引擎公司Perplexity融资7360万美元,英伟达参投;
DeepMind一口气发布了3个机器人项目,让机器人训练变得更快更容易。
微软为Copilot带来新入口——实体按键
1月4日,微软官方博客宣称,将为Windows电脑带来一个新的实体按键——Copilot键,该按键能直接调用Windows Copilot智能助理。
微软上一次增加按键还得追溯到1994年,当时增加了一个名为Windows的按键,可以呼出Windows的「开始」菜单,那个时候还是Win95系统。微软首席营销官Yusuf Mehdi表示,「我们认为这是Windows 之旅中的另一个变革时刻,Copilot 键将成为进入个人电脑上AI世界的入口。」
微软发布的宣传视频可以看出,Copilot键将位于键盘上右侧Alt键的右边,与位于左侧Alt键左边的Windows键正好对应。只有当用户登陆微软账户后,按下Copilot键才会呼出Copilot智能助理,你可以使用它生成图像、文本、音乐,以及调整电脑设置。而没有登录微软账户时,按下它会启动Windows搜索。
微软表示,这个按键已经搭载在合作电脑厂商的最新电脑上,参会者在正在举行的2024年国际消费电子展上就能看到它的身影。而对于普通消费者来说,今年3月前后就可以买到拥有这个按键的新电脑了。
微软想要将Copilot塑造成AI时代入口的野心是如此明显。就在几天前,它刚刚上架了手机版的Copilot应用,现在又在电脑上增加了实体按键以促使用户更频繁地使用Copilot。Copilot还支持最先进的GPT-4模型——可免费使用,这意味着高昂的成本。要知道,用户在使用ChatGPT时若想调用GPT-4模型,须每月向模型的开发商OpenAI支付20美元。考虑到微软的用户基数,保守估计Copilot这项功能的成本达到每月数亿美元的量级。
参考链接
https://blogs.windows.com/windowsexperience/2024/01/04/introducing-a-new-copilot-key-to-kick-off-the-year-of-ai-powered-windows-pcs/
GPT Store下周推出,ChatGPT开始平台化
1月5日,OpenAI在给GPT开发者的电子邮件中表示,即将在下周推出GPT Store,要求开发者们保证其作品符合OpenAI的品牌指南,并提醒他们将自己的GPT作品设为公开。至此,作为AI模型开发商的OpenAI变得更像一个平台了。
GPT Store是什么?
GPT Store提供了一个平台,允许用户分享和销售基于OpenAI大型语言模型(如GPT-4)的定制AI智能体(Agent)。这些AI Agent,被称为GPTs,可以根据特定需求定制,比如解释特定的专业术语、指导商业谈判、教授英语写作等等。
即将推出的GPT Store仅对ChatGPT Plus用户和企业订阅者开放。尽管具体的支付计划细节还未公布,OpenAI计划根据GPT在商店中的使用情况向GPT开发者支付一定费用。普通用户可以通过GPT Store访问和使用这些定制化的AI应用。
GPT Store意味着什么?
GPTs的推出降低了定制GPT的门槛,任何对此感兴趣的人都可以使用OpenAI的技术创建和分享自己的GPT应用。用户只需要在「Create a GPT」的「knowledge」板块上传一些相关文件,就可以训练一个GPT。
而本次GPT Store的推出为开发者提供了商业机会——开发者可以通过销售他们基于GPT的创新应用来赚钱了。此外GPT Store的推出也意味着,目前已有的那些专门提供定制AI解决方案的公司的业务将受到冲击。
参考链接
https://community.openai.com/t/the-gpt-store-will-launch-next-week/578337
Bard要推出高级版,但要收费
1月5日,Google Bard的网站上有代码显示,用户有3个月免费使用Bard Advanced的机会,并暗示之后使用Bard Advanced将要付费。这可能是Google首次尝试针对AI聊天机器人收费。
Bard Advanced是什么?
2023年12月,Google首次提及Bard Advanced,同时发布了新的大型语言模型Gemini。当时,Google称Bard Advanced将在2024年推出,并表示Bard Advanced可能引入多模态功能,允许理解和处理不限于文本的各种类型输入(如图像、音频、视频等)。
Bard Advanced是Google计划推出的一款升级版AI聊天机器人,它代表了Bard服务更高级的版本,并采用Google最新的大型语言模型Gemini的最高端版本Gemini Ultra。
根据开发者Dylan Roussel的分享,Bard Advanced或将有一个代号为Motoko的功能,可能允许用户定制机器人,这与OpenAI的GPTs有些类似。但目前尚不清楚用户是否能共享这些机器人,或需要为使用该功能付费。
Bard的迭代历程
  • 2023年3月,Google基于原有的AI技术和大型语言模型推出Google Bard AI助手。这个版本的Bard旨在与OpenAI的ChatGPT等产品竞争;
  • 2023年9月,Google宣布了Bard的更新,增强了Bard的功能,使其能够实时查询、解答有关YouTube视频的问题,并与Google的其他服务(如Gmail、文档、驱动器等)集成;
  • 2023年12月,Google升级了Bard,使其运行在更先进的Gemini Pro模型上。这次升级增强了Bard的理解、推理和生成能力。
参考链接
https://www.theverge.com/2024/1/4/24025270/google-bard-advanced-paid-subscription
Chrome限制第三方Cookie,这或许会革了广告商们的命
12月14日Google官方博客发表声明,将逐步在旗下Chrome浏览器内限制网站对第三方Cookie的访问以限制跨站点跟踪。该功能已经在本周四正式开启测试,全球1%的用户将提前体验没有第三方Cookie的感觉,Google表示希望在2024年年底将这个功能彻底铺开。
为何广告商需要第三方Cookie?
「Cookie」是计算机科学中的术语,通常用来指代网站与用户浏览器之间交换的小型数据文件。这些文件包含有关用户在特定网站上的信息,以便网站能够识别用户并在不同页面之间保持一些状态信息。
Cookie的主要目的是在用户与网站之间建立持久性会话,使用户能够保持登录状态、保存购物车内容、个性化设置网站界面等。每当用户访问一个网站时,浏览器都会将相关的Cookie信息发送到服务器,以便服务器能够识别用户并提供相应的服务。
而第三方Cookie是由用户访问的网站之外的服务器设置的Cookie。与第一方 Cookie(由用户当前正在访问的网站设置的Cookie)不同,第三方Cookie通常用于跨多个网站追踪用户行为和提供广告定向。这些Cookie可能包含用于跟踪用户浏览习惯、兴趣和行为的信息,以便广告商等第三方机构可以在不同网站上提供更有针对性的广告。
举例来说,当你在某个网站浏览了某款鞋子的新闻后,这个信息就会被第三方广告公司收集起来。你在不同网站上的行为会被串在一起,形成你的画像,并且这个信息会被卖给其他公司,比如淘宝,最终你可能就会在淘宝首页看到那款鞋子的推荐。这些都是基于第三方Cookie完成的。
限制第三方Cookie是趋势
早在十多年前,浏览器就已经开始限制第三方机构跟踪Cooke,Mozilla的Firefox、苹果的Safari,以及Google的Chrome都推出了类似功能。这几年,随着用户对于个人隐私的重视,浏览器对于第三方Cookie的限制愈发严格。你应该有过类似的经历,第一次访问某个网站时,网站会弹出窗口希望允许它保存你的Cookie。
过去这些浏览器还是将选择权交给用户,不过Google这次的措施更加激进,它将默认禁止所有第三方Cookie。其实早在2020年,Google就有这个打算,但遭到了广告商的抗议,于是计划一再延后,不过这次或许是最后期限了。
根据Statcounter、Statista等机构的统计,Chrome目前占全球互联网流量的 65%,并且在2021年时就已经拥有32.2亿用户。取消Cookie意味着广告商收集用户信息的难度增长,广告投放的精准度自然也会下降。「这可能会降低在线广告的整体价值」Trade Desk产品副总裁Bill Simmons说,该公司是全球最大的数字广告商,目前市值330多亿美元,这几周来股价已经下跌了约10%。
参考链接
https://blog.google/products/chrome/privacy-sandbox-tracking-protection/
阿里巴巴「通义舞王」通过照片生成跳舞视频
1月4日,阿里云旗下的通义千问App推出了一个名为「通义舞王」的新功能,允许用户上传照片,等待一段时间后即可自动生成舞蹈视频。目前,该功能内置了12种舞蹈模板,包括热门舞蹈「科目三」,以及蒙古舞、划桨舞、鬼步舞等。
左侧是人物静态图片,右侧是「通义舞王」生成的视频
该功能基于阿里通义实验室自研的视频生成模型AnimateAnyone。该模型自2023年12月推出,基于扩散模型(Diffusion Model)构建,并利用2D OpenPose识别和分析照片中的人物姿势和表情,从而通过使用人物全身照片来生成舞蹈视频,并会保留原始形象的面部表情、身材比例、服装乃至背景等特征。
阿里表示和Gen2、Pika等文本生成视频的产品比,AnimateAnyone更聚焦人的视频生成,且在技术上生成的视频长度不受限制。不过,AnimateAnyone模型在生成稳定的手部运动、处理背后或不可见部分的生成方面仍然有一些缺陷,并且生成时间较长、训练成本较高。
近期,阿里大模型团队近期还推出了一键试衣模型Outfit Anyone,该模型可以根据服饰的平铺图,实现用户对服装上下装的试穿。Outfit Anyone意在解决虚拟试衣问题,还可用于电商模特图的生成。
「通义舞王」也成为继妙鸭相机后又一款在国内市场破圈的AI功能阿里没有公布过「通义千问」的用户量,也没有公布「通义舞王」功能推出以来究竟为「通义千问」带来了多少新增下载量。一周前,百度旗下的AI应用「文心一言」自称已获得1亿用户。
AI搜索引擎公司Perplexity融资7360万美元,英伟达参投
1月5日,使用生成式人工智能技术的搜索引擎公司Perplexity AI宣布融资7360万美元,由IVP领投,参与投资者包括英伟达、亚马逊创始人贝索斯、NEA、Bessemer、Elad Gil、前 GitHub CEO Nat Friedman、Databricks。融资后,公司估值达到5.2亿美元。
Perplexity是一家怎样的公司?
Perplexity由Aravind Srinivas、Denis Yarats、Johnny Ho和Andy Konwinski于2022年8月成立,是一家专注于AI驱动搜索技术的初创公司。
公司首席执行官Srinivas之前在OpenAI沿着Stable Diffusion、DALL·E 3的开发路线研究语言和生成式AI模型。Konwinski的专长则在于分布式系统、搜索引擎和数据库,这些都是构建高效搜索平台的关键技术。
Perplexity的搜索引擎有何不同?
Perplexity的搜索引擎综合了内部和第三方开发的生成式AI模型,并提供一个类似聊天机器人的界面,用户简单提问,比如询问关于睡眠和代谢的问题,AI以摘要形式回应,其中包含来源引用,主要是一些网站和文章。用户也可以继续提问,深入探讨特定主题,这与使用搭载GPT-4的搜索引擎新版Bing相似。
此外,订阅Perplexity专业版(每月20美元)的用户可以切换模型,包括Mistral 7B、Google的Gemini、Anthropic的Claude 2.1和OpenAI的GPT-4,并解锁图像生成、个性化搜索偏好等功能。
本轮融资后,Perplexity计划将团队从目前的39人扩大,并开发新的产品功能。该公司表示已拥有1000万活跃月用户,并筹集到了超过1亿美元。
参考链接:
https://techcrunch.com/2024/01/04/ai-powered-search-engine-perplexity-ai-now-valued-at-520m-raises-70m/
DeepMind一口气发布了3个机器人项目,让训练变得更快更容易
1月4日,Google的DeepMind Robotics研究团队聚焦机器人学习,发布了AutoRT、RT-Trajectory、SARA-RT等3个创新项目。其中AutoRT侧重多个机器人的管理和协调,SARA-RT侧重升级机器人的「大脑」(Robot Transformer),RT-Trajectory侧重视频驱动的机器人学习。
AutoRT是什么?
AutoRT通过使用大模型来增强机器人的功能和灵活性,能够管理20台机器人及总共52个设备,并协调它们共同完成任务。
AutoRT协同多个机器人完成任务。
这就像给机器人装了一个「超级大脑」,比如通过集成视觉语言模型,机器人能够更准确地感知周围的环境和物体;通过集成大型语言模型,机器人能够理解更自然的语言指令,并减少对编码的依赖;通过让一群机器人在多个地方自主学习,并收集超过7.7万次的真实操作数据,让机器人掌握更多的技能并适应不同的工作环境。此外,AutoRT使用一种被称为「机器人宪法」的提示方法,在生成任务时就会考虑安全性和机器人的执行能力,确保所生成的任务安全可行。
SARA-RT是什么?
SARA-RT-2模型用于操作任务。机器人的动作根据图像和文本命令来决定。
SARA-RT可以让机器人在处理同样的任务时比原来的版本更准确,且速度提高14%。原来的机器人「大脑」(Robot Transformer)在处理信息时,如果信息量增加,所需的计算量也会急剧增加。SARA-RT可以在信息量增加时让所需的计算量仅以小幅增长。
RT-Trajectory是什么?
RT-Trajectory通过使用视频资料指导机器人的行为和决策过程。在这个系统中,视频上会叠加一个二维草图,显示机械臂的动作,帮助机器人更好地理解和模仿视频中展示的动作。

RT-Trajectory模型使得机器人能够更有效地应对新任务,如「清洁桌子」。相比只用自然语言数据集训练的机器人,RT-Trajectory训练的机器人可以通过创建2D轨迹,成功规划并执行任务。
这意味着,机器人丰富的运动信息可以得到充分利用。DeepMind表示,在测试的41个任务中,使用RT-Trajectory训练的机器人,成功率比之前使用RT-2训练的高出一倍,达到63%。
参考链接:
https://deepmind.google/discover/blog/shaping-the-future-of-advanced-robotics/
Bonus
英特尔成立生成式AI部署公司Articul8 AI
英特尔于1月5日宣布成立了名为Articul8 AI的新公司,重点服务企业客户,专注于提高部署速度、扩展性和安全性,同时确保系统的可持续性。平台将提供将客户数据保留在企业安全环境内的AI功能,并支持云端、本地或混合形式的部署。Articul8的首席执行官由英特尔数据中心和人工智能部门原副总裁兼总经理Arun Subramaniyan担任。
成立Articul8 AI是英特尔CEO Pat Gelsinger推动公司复兴计划的一部分,该计划包括在美国和欧洲建造新的芯片工厂,并在未来几年内引入新的先进芯片制造技术。Articul8 AI符合Gelsinger提出的提供新软件产品和服务的策略,旨在让英特尔的新产品能与NVIDIA和AMD等竞争对手的相抗衡。
-END-
智能晚报|淘宝支持「仅退款」;字节希望2年内开发出类Vision Pro产品;苹果设计副总裁将转为OpenAI设计AI设备...
继续阅读
阅读原文