智能晚报｜Copilot将有实体按键；GPT Store下周推出；英伟达参投AI搜索公司Perplexity….

撰文：张司钰、王杰夫

编辑：王杰夫

Key Points

微软为Copilot带来新入口——实体按键；

GPT Store下周推出，ChatGPT开始平台化；

Bard要推出高级版，但要收费；

Google限制第三方Cookie，这或许会革了广告商们的命；

阿里推出AI工具「通义舞王」，通过照片生成跳舞视频；

AI搜索引擎公司Perplexity融资7360万美元，英伟达参投；

DeepMind一口气发布了3个机器人项目，让机器人训练变得更快更容易。

微软为Copilot带来新入口——实体按键

1月4日，微软官方博客宣称，将为Windows电脑带来一个新的实体按键——Copilot键，该按键能直接调用Windows Copilot智能助理。

微软上一次增加按键还得追溯到1994年，当时增加了一个名为Windows的按键，可以呼出Windows的「开始」菜单，那个时候还是Win95系统。微软首席营销官Yusuf Mehdi表示，「我们认为这是Windows 之旅中的另一个变革时刻，Copilot 键将成为进入个人电脑上AI世界的入口。」

微软发布的宣传视频可以看出，Copilot键将位于键盘上右侧Alt键的右边，与位于左侧Alt键左边的Windows键正好对应。只有当用户登陆微软账户后，按下Copilot键才会呼出Copilot智能助理，你可以使用它生成图像、文本、音乐，以及调整电脑设置。而没有登录微软账户时，按下它会启动Windows搜索。

微软表示，这个按键已经搭载在合作电脑厂商的最新电脑上，参会者在正在举行的2024年国际消费电子展上就能看到它的身影。而对于普通消费者来说，今年3月前后就可以买到拥有这个按键的新电脑了。

微软想要将Copilot塑造成AI时代入口的野心是如此明显。就在几天前，它刚刚上架了手机版的Copilot应用，现在又在电脑上增加了实体按键以促使用户更频繁地使用Copilot。Copilot还支持最先进的GPT-4模型——可免费使用，这意味着高昂的成本。要知道，用户在使用ChatGPT时若想调用GPT-4模型，须每月向模型的开发商OpenAI支付20美元。考虑到微软的用户基数，保守估计Copilot这项功能的成本达到每月数亿美元的量级。

参考链接

https://blogs.windows.com/windowsexperience/2024/01/04/introducing-a-new-copilot-key-to-kick-off-the-year-of-ai-powered-windows-pcs/

GPT Store下周推出，ChatGPT开始平台化

1月5日，OpenAI在给GPT开发者的电子邮件中表示，即将在下周推出GPT Store，要求开发者们保证其作品符合OpenAI的品牌指南，并提醒他们将自己的GPT作品设为公开。至此，作为AI模型开发商的OpenAI变得更像一个平台了。

GPT Store是什么？

GPT Store最初在OpenAI的开发者大会DevDay上公布，但因「Altman罢免」事件被迫延时推出。

GPT Store提供了一个平台，允许用户分享和销售基于OpenAI大型语言模型（如GPT-4）的定制AI智能体（Agent）。这些AI Agent，被称为GPTs，可以根据特定需求定制，比如解释特定的专业术语、指导商业谈判、教授英语写作等等。

即将推出的GPT Store仅对ChatGPT Plus用户和企业订阅者开放。尽管具体的支付计划细节还未公布，OpenAI计划根据GPT在商店中的使用情况向GPT开发者支付一定费用。普通用户可以通过GPT Store访问和使用这些定制化的AI应用。

GPT Store意味着什么？

GPTs的推出降低了定制GPT的门槛，任何对此感兴趣的人都可以使用OpenAI的技术创建和分享自己的GPT应用。用户只需要在「Create a GPT」的「knowledge」板块上传一些相关文件，就可以训练一个GPT。

而本次GPT Store的推出为开发者提供了商业机会——开发者可以通过销售他们基于GPT的创新应用来赚钱了。此外GPT Store的推出也意味着，目前已有的那些专门提供定制AI解决方案的公司的业务将受到冲击。

参考链接

https://community.openai.com/t/the-gpt-store-will-launch-next-week/578337

，

Bard要推出高级版，但要收费

1月5日，Google Bard的网站上有代码显示，用户有3个月免费使用Bard Advanced的机会，并暗示之后使用Bard Advanced将要付费。这可能是Google首次尝试针对AI聊天机器人收费。

Bard Advanced是什么？

2023年12月，Google首次提及Bard Advanced，同时发布了新的大型语言模型Gemini。当时，Google称Bard Advanced将在2024年推出，并表示Bard Advanced可能引入多模态功能，允许理解和处理不限于文本的各种类型输入（如图像、音频、视频等）。

Bard Advanced是Google计划推出的一款升级版AI聊天机器人，它代表了Bard服务更高级的版本，并采用Google最新的大型语言模型Gemini的最高端版本Gemini Ultra。

根据开发者Dylan Roussel的分享，Bard Advanced或将有一个代号为Motoko的功能，可能允许用户定制机器人，这与OpenAI的GPTs有些类似。但目前尚不清楚用户是否能共享这些机器人，或需要为使用该功能付费。

Bard的迭代历程

2023年3月，Google基于原有的AI技术和大型语言模型推出Google Bard AI助手。这个版本的Bard旨在与OpenAI的ChatGPT等产品竞争；
2023年9月，Google宣布了Bard的更新，增强了Bard的功能，使其能够实时查询、解答有关YouTube视频的问题，并与Google的其他服务（如Gmail、文档、驱动器等）集成；
2023年12月，Google升级了Bard，使其运行在更先进的Gemini Pro模型上。这次升级增强了Bard的理解、推理和生成能力。

参考链接

https://www.theverge.com/2024/1/4/24025270/google-bard-advanced-paid-subscription

Chrome限制第三方Cookie，这或许会革了广告商们的命

12月14日Google官方博客发表声明，将逐步在旗下Chrome浏览器内限制网站对第三方Cookie的访问以限制跨站点跟踪。该功能已经在本周四正式开启测试，全球1%的用户将提前体验没有第三方Cookie的感觉，Google表示希望在2024年年底将这个功能彻底铺开。

为何广告商需要第三方Cookie？

「Cookie」是计算机科学中的术语，通常用来指代网站与用户浏览器之间交换的小型数据文件。这些文件包含有关用户在特定网站上的信息，以便网站能够识别用户并在不同页面之间保持一些状态信息。

Cookie的主要目的是在用户与网站之间建立持久性会话，使用户能够保持登录状态、保存购物车内容、个性化设置网站界面等。每当用户访问一个网站时，浏览器都会将相关的Cookie信息发送到服务器，以便服务器能够识别用户并提供相应的服务。

而第三方Cookie是由用户访问的网站之外的服务器设置的Cookie。与第一方 Cookie（由用户当前正在访问的网站设置的Cookie）不同，第三方Cookie通常用于跨多个网站追踪用户行为和提供广告定向。这些Cookie可能包含用于跟踪用户浏览习惯、兴趣和行为的信息，以便广告商等第三方机构可以在不同网站上提供更有针对性的广告。

举例来说，当你在某个网站浏览了某款鞋子的新闻后，这个信息就会被第三方广告公司收集起来。你在不同网站上的行为会被串在一起，形成你的画像，并且这个信息会被卖给其他公司，比如淘宝，最终你可能就会在淘宝首页看到那款鞋子的推荐。这些都是基于第三方Cookie完成的。

限制第三方Cookie是趋势

早在十多年前，浏览器就已经开始限制第三方机构跟踪Cooke，Mozilla的Firefox、苹果的Safari，以及Google的Chrome都推出了类似功能。这几年，随着用户对于个人隐私的重视，浏览器对于第三方Cookie的限制愈发严格。你应该有过类似的经历，第一次访问某个网站时，网站会弹出窗口希望允许它保存你的Cookie。

过去这些浏览器还是将选择权交给用户，不过Google这次的措施更加激进，它将默认禁止所有第三方Cookie。其实早在2020年，Google就有这个打算，但遭到了广告商的抗议，于是计划一再延后，不过这次或许是最后期限了。

根据Statcounter、Statista等机构的统计，Chrome目前占全球互联网流量的 65%，并且在2021年时就已经拥有32.2亿用户。取消Cookie意味着广告商收集用户信息的难度增长，广告投放的精准度自然也会下降。「这可能会降低在线广告的整体价值」Trade Desk产品副总裁Bill Simmons说，该公司是全球最大的数字广告商，目前市值330多亿美元，这几周来股价已经下跌了约10%。

参考链接

https://blog.google/products/chrome/privacy-sandbox-tracking-protection/

阿里巴巴「通义舞王」通过照片生成跳舞视频

1月4日，阿里云旗下的通义千问App推出了一个名为「通义舞王」的新功能，允许用户上传照片，等待一段时间后即可自动生成舞蹈视频。目前，该功能内置了12种舞蹈模板，包括热门舞蹈「科目三」，以及蒙古舞、划桨舞、鬼步舞等。

左侧是人物静态图片，右侧是「通义舞王」生成的视频

该功能基于阿里通义实验室自研的视频生成模型AnimateAnyone。该模型自2023年12月推出，基于扩散模型（Diffusion Model）构建，并利用2D OpenPose识别和分析照片中的人物姿势和表情，从而通过使用人物全身照片来生成舞蹈视频，并会保留原始形象的面部表情、身材比例、服装乃至背景等特征。

阿里表示和Gen2、Pika等文本生成视频的产品比，AnimateAnyone更聚焦人的视频生成，且在技术上生成的视频长度不受限制。不过，AnimateAnyone模型在生成稳定的手部运动、处理背后或不可见部分的生成方面仍然有一些缺陷，并且生成时间较长、训练成本较高。

近期，阿里大模型团队近期还推出了一键试衣模型Outfit Anyone，该模型可以根据服饰的平铺图，实现用户对服装上下装的试穿。Outfit Anyone意在解决虚拟试衣问题，还可用于电商模特图的生成。

「通义舞王」也成为继妙鸭相机后又一款在国内市场破圈的AI功能。阿里没有公布过「通义千问」的用户量，也没有公布「通义舞王」功能推出以来究竟为「通义千问」带来了多少新增下载量。一周前，百度旗下的AI应用「文心一言」自称已获得1亿用户。

AI搜索引擎公司Perplexity融资7360万美元，英伟达参投

1月5日，使用生成式人工智能技术的搜索引擎公司Perplexity AI宣布融资7360万美元，由IVP领投，参与投资者包括英伟达、亚马逊创始人贝索斯、NEA、Bessemer、Elad Gil、前 GitHub CEO Nat Friedman、Databricks。融资后，公司估值达到5.2亿美元。

Perplexity是一家怎样的公司？

Perplexity由Aravind Srinivas、Denis Yarats、Johnny Ho和Andy Konwinski于2022年8月成立，是一家专注于AI驱动搜索技术的初创公司。

公司首席执行官Srinivas之前在OpenAI沿着Stable Diffusion、DALL·E 3的开发路线研究语言和生成式AI模型。Konwinski的专长则在于分布式系统、搜索引擎和数据库，这些都是构建高效搜索平台的关键技术。

Perplexity的搜索引擎有何不同？

Perplexity的搜索引擎综合了内部和第三方开发的生成式AI模型，并提供一个类似聊天机器人的界面，用户简单提问，比如询问关于睡眠和代谢的问题，AI以摘要形式回应，其中包含来源引用，主要是一些网站和文章。用户也可以继续提问，深入探讨特定主题，这与使用搭载GPT-4的搜索引擎新版Bing相似。

此外，订阅Perplexity专业版（每月20美元）的用户可以切换模型，包括Mistral 7B、Google的Gemini、Anthropic的Claude 2.1和OpenAI的GPT-4，并解锁图像生成、个性化搜索偏好等功能。

本轮融资后，Perplexity计划将团队从目前的39人扩大，并开发新的产品功能。该公司表示已拥有1000万活跃月用户，并筹集到了超过1亿美元。

参考链接：

https://techcrunch.com/2024/01/04/ai-powered-search-engine-perplexity-ai-now-valued-at-520m-raises-70m/

DeepMind一口气发布了3个机器人项目，让训练变得更快更容易

1月4日，Google的DeepMind Robotics研究团队聚焦机器人学习，发布了AutoRT、RT-Trajectory、SARA-RT等3个创新项目。其中AutoRT侧重多个机器人的管理和协调，SARA-RT侧重升级机器人的「大脑」（Robot Transformer），RT-Trajectory侧重视频驱动的机器人学习。

AutoRT是什么？

AutoRT通过使用大模型来增强机器人的功能和灵活性，能够管理20台机器人及总共52个设备，并协调它们共同完成任务。

AutoRT协同多个机器人完成任务。

这就像给机器人装了一个「超级大脑」，比如通过集成视觉语言模型，机器人能够更准确地感知周围的环境和物体；通过集成大型语言模型，机器人能够理解更自然的语言指令，并减少对编码的依赖；通过让一群机器人在多个地方自主学习，并收集超过7.7万次的真实操作数据，让机器人掌握更多的技能并适应不同的工作环境。此外，AutoRT使用一种被称为「机器人宪法」的提示方法，在生成任务时就会考虑安全性和机器人的执行能力，确保所生成的任务安全可行。

SARA-RT是什么？

SARA-RT-2模型用于操作任务。机器人的动作根据图像和文本命令来决定。

SARA-RT可以让机器人在处理同样的任务时比原来的版本更准确，且速度提高14%。原来的机器人「大脑」（Robot Transformer）在处理信息时，如果信息量增加，所需的计算量也会急剧增加。SARA-RT可以在信息量增加时让所需的计算量仅以小幅增长。

RT-Trajectory是什么？

RT-Trajectory通过使用视频资料指导机器人的行为和决策过程。在这个系统中，视频上会叠加一个二维草图，显示机械臂的动作，帮助机器人更好地理解和模仿视频中展示的动作。

RT-Trajectory模型使得机器人能够更有效地应对新任务，如「清洁桌子」。相比只用自然语言数据集训练的机器人，RT-Trajectory训练的机器人可以通过创建2D轨迹，成功规划并执行任务。

这意味着，机器人丰富的运动信息可以得到充分利用。DeepMind表示，在测试的41个任务中，使用RT-Trajectory训练的机器人，成功率比之前使用RT-2训练的高出一倍，达到63%。

参考链接：

https://deepmind.google/discover/blog/shaping-the-future-of-advanced-robotics/

Bonus

英特尔成立生成式AI部署公司Articul8 AI

英特尔于1月5日宣布成立了名为Articul8 AI的新公司，重点服务企业客户，专注于提高部署速度、扩展性和安全性，同时确保系统的可持续性。平台将提供将客户数据保留在企业安全环境内的AI功能，并支持云端、本地或混合形式的部署。Articul8的首席执行官由英特尔数据中心和人工智能部门原副总裁兼总经理Arun Subramaniyan担任。

成立Articul8 AI是英特尔CEO Pat Gelsinger推动公司复兴计划的一部分，该计划包括在美国和欧洲建造新的芯片工厂，并在未来几年内引入新的先进芯片制造技术。Articul8 AI符合Gelsinger提出的提供新软件产品和服务的策略，旨在让英特尔的新产品能与NVIDIA和AMD等竞争对手的相抗衡。

-END-

智能晚报｜比亚迪超越特斯拉，成全球最大电动汽车制造商；OpenAI今年底收入可达50亿美元；微软推出手机版Copilot...

智能晚报｜华为2023年收入同比增9%；京东赢得对阿里巴巴的反垄断诉讼，获赔10亿元；英伟达更新面向中国市场的游戏芯片...

智能晚报｜淘宝支持「仅退款」；字节希望2年内开发出类Vision Pro产品；苹果设计副总裁将转为OpenAI设计AI设备...

继续阅读

阅读原文