Mate“放弃”元宇宙又搞起“AI”了？

今天是Olina陪你的第2969天

第1801章

Olina

持续日更

努力的创业者

陪你一起在路上

美国科技四巨头中，如今就属Meta最显落寞了。

前不久，苹果CEO库克到访中国，不管是跟普通顾客在三里屯打成一片，还是跟科技部长会面，都受到热烈欢迎。微软因为投资的OpenAI再次成为当红炸子鸡，虽然谷歌被微软在ChatGPT上打了个猝不及防，但也进行了及时反击，仍被外界寄予厚望。

反观一边的Meta，此前all in元宇宙改名为“Meta”，然而元宇宙正在被一些大厂抛弃。更让人担忧的是，Meta不仅没有从元宇宙中拿到多少红利，反而不断传出坏消息——业绩进一步被元宇宙拖累、计划再裁员一万名员工等等。

陷入泥沼之时，Meta掌舵人扎克伯格不得不考虑新的增长点。在给员工的信中，扎克伯格表示构建元宇宙仍然是定义社交未来的核心，但这并不是Meta将投入大部分资金的地方。

资金大量投入的新领域是哪里呢？正是时下火遍全球的AI。扎克伯格表示当下最大的一笔投资，是推进AI并将其构建到每一个产品中。前不久，Meta就在AI模型上做出了一个重大突破——发布图像分割模型SAM，该模型能够用于识别图像和视频中的物体，并且根据文本指令等方式实现图像分割，通俗说就是“抠图”，消息出来后Meta股价持续上涨。

显然，资本对于Meta在AI上的新动作还是比较满意的。只是，AI赛道上挤满了谷歌、微软等实力型对手，Meta又有多少竞争筹码呢？

Meta的「新AI故事」

扎克伯格在给员工的信中，扎克伯格一再强调AI将带来惊人的体验。如今来看，图像分割模型SAM将率先带来不俗的用户体验。

如果你扣过图，会发现它虽然看似简单，但极其消耗精力和耐心，而且抠出来的图往往不如人意，SAM则很好地解决了这个痛点。对于任意一张照片，SAM能够迅速识别照片中的所有物体，并且将其分割成不同板块，用户可以点击进行编辑，精准又高效。而且，SAM还有一项突破，就是即便在训练过程中没碰到某种形状，也能在图片中准确地识别并分割出来。

当然，SAM的功能绝不仅仅是“抠图”，有医生将SAM用到病例文件之中，为病情分析提供了很大帮助。

这样来看，Meta在AI上还是有两把刷子的。

不仅自己搞研发，Meta还把一些AI技术给“开源”了。今年2月，Meta发布了新的大模型系列——LLaMA。当时Meta声称，虽然LLaMA规模仅为ChatGPT的“十分之一”，但性能表现更出色。

最初，LLaMA并没有开源，但在发布一周后它突然在匿名论坛4chan上泄露，相当于变相开源了。有人认为是Meta不小心泄露的，也有人认为是Meta故意为之，目的是跟ChatGPT形成竞争。

不管目的如何，LLaMA开源后引发大量下载，基于它构建的模型雨后春笋般冒出，前不久斯坦福发布了一个由LLaMA 7B微调的模型Alpaca，性能可以比肩GPT-3.5。

从布局的AI的势头和成果来看，这次扎克伯格又要来一把“all in”了。

强力布局为哪般

当年为了元宇宙不惜大费周折改名，现在却把AI视若珍宝，只能说一代新人胜旧人。必须要弄明白的是，Meta很早就开始布局AI了，为何此时不断宣称要强力出击呢？

2022年全年，Meta总收入1166.09亿美元，同比减少1.12%，净利润232亿美元，同比减少41.07%，这也是它自2010年以来的首次下降，颓势尽显。

与众多的互联网公司一样，Meta也是以广告作为主要收入来源。2022年，Meta应用程序系列收入中的广告收入同比下降1%，而2021年的增幅则为37%，差距明显。

在自身走下坡路的同时，竞争对手TikTok却显露更强劲的韧性。去年全球范围内互联网广告收入都在下降，Meta也被裹挟其中，TikTok却成为唯一广告营收大幅增长的互联网平台，扎克伯格看了都眼红。尽管TikTok CEO周受资前不久备受美国国会议员刁难，但TikTok仍然比Meta显露出更大的增长潜力。

另一个拖累Meta业绩的“罪魁祸首”，则是其aII in的元宇宙业务。2022年四季度Meta元宇宙部门营收7.27亿美元，同比下降17.1%；期内亏损42.79亿美元。2022全年亏损137.17亿美元，与2021年亏损的101.93亿美元相比，扩大34.57%，元宇宙业务依然是个烧钱的无底洞。

种种不利因素叠加在一起，反映在资本市场上就是Meta的股价持续大跌。扎克伯格必须做出改变。因此，裁员等降本增效的措施就出来了。在今年3月Meta宣布裁员1万人后，股价应声涨至8个月来最高。

但是，仅靠降本增效没法讲出更大的故事，资本也无法给与更多的支持。Meta必须用一个更多人认可的宽阔长赛道，为业绩和资本注入一剂强心针。

这时候，ChatGPT在全球掀起的热潮愈演愈烈。被视为在互联网时代掉队的微软，凭借对OpenAI的投资，在AI时代重新迸发生命力。就连在AI赛道上堪称扛把子的谷歌，都被抢占了风头。

Meta的竞争力几何

在AI这条赛道上，Meta入局的动作其实并不晚。

早在 2013 年，扎克伯格就提出要让 Meta成为AI领域的领导者。近十年来，Meta 已经花费了数十亿美元来打造AI，扎克伯克还亲自招募了Yann LeCun等顶级AI学者。可以说，在AI布局上Meta并不缺资金，也不缺人才，实力不俗。

在相当长的时间内，Meta把研发的AI技术用来进行广告的精准投放、内容的智能分发、识别错误信息等等，为自身的商业化提供了强劲引擎。

不过，识别错误信息这一功能，在去年栽了跟头。去年ChatGPT火热之前，Meta就推出了一个名为“Galactica”的AI聊天机器人。不过，Galactica跟ChatGPT、Bard等大多数聊天机器人一样，难以识别出错误信息。有用户向它提问是谁在管理硅谷，Galactica 的回答是：史蒂夫·乔布斯。

因为舆论压力，仅发布三天 Galactica就消失地无影无踪。

有业内人士认为，Meta确实遭受了不公平对待——人们总是倾向于以高标准要求大型科技公司，却让OpenAI这样的创业小公司在巨头夹缝里成功突围。

图源：globaltechoutlook

Galactica的折戟，并没有消磨Meta的AI热情。上个月，扎克伯格再次向外界介绍了对生成式AI展开的动作。他称Meta已将其所有生成式AI团队集中到一个小组中，专注于将技术构建到 Meta的产品中创造更好的体验。

这些体验包括文本体验，比如WhatsApp和Messenger中的聊天；图像体验，比如Instagram中的创意滤镜。也就是说，AI工具可以帮助用户更好地表达自己，同时发现更多新鲜有意思的内容。

另外，对于企业而言，可以利用AI工具在 Facebook 上制作投放广告。AI工具也能帮助工程师更快地编写更好的代码，从而帮助企业实现降本增效。

不过扎克伯克也承认，这些长期目标的实现还有很长的路要走。

不管能不能实现，难能可贵的是扎克伯克终于意识到AI技术要用来提升用户体验，这是Meta业绩下滑和掉队的关键，也是资本愿意为其AI故事买单的关键。

不要总想着用AI去提升商业化多赚几两银子，这是极为短视的。真正用技术掌握了话语权、在用户体验上做到领先，才是前瞻性的眼光。

最近的SAM，就让外界见识到Meta在AI上，拥有不输谷歌、微软的技术实力。关键在于，Meta能否真正在技术研发和商业化上做到平衡，真正实现可持续。

笑到最后的，才是王者。

4月6日

，

根据Meta AI官方博客

，

Meta AI宣布推出了一个AI 模型Segment Anything Model

（

SAM

，

分割一切模型

）

。

他们在博客中介绍说

，

「

SAM 已经学会了关于物体的一般概念

，

并且它可以为任何图像或视频中的任何物体生成mask

，

甚至包括在训练过程中没有遇到过的物体和图像类型

。

SAM足够通用

，

可以涵盖广泛的用例

，

并且可以在新的图像

『

领域

』

上即开即用

，

无需额外的训练

。

」

在深度学习领域

，

这种能力通常被称为零样本迁移

，

这也是GPT-4震惊世人的一大原因

。

英伟达人工智能科学家Jim Fan表示

：

「

对于Meta的这项研究

，

我认为是计算机视觉领域的GPT-3时刻之一

。

它已经了解了物体的一般概念

，

即使对于未知对象

、

不熟悉的场景

（

例如水下图像

）

和模棱两可的情况下也能进行很好的图像分割

。

最重要的是

，

模型和数据都是开源的

。

恕我直言

，

Segment-Anything已经把所有事情

（

分割

）

都做的很好了

。

」

SAM 的核心目标是什么

Segment Anything项目的核心目标

，

就是减少特定任务对于建模专业往右

、

训练计算量和图像分割中自定义数据标注的需求

。

为了实现这个目标

，

Meta AI 团队希望建立一套图像分割基础模型

：

这是一个可提示模型

，

在不同数据集上接受训练并能够适应特定任务

，

类似于在自然语言处理模型中通过揭示词进行生成的方式

。

但与互联网上丰富的图像

、

视频和文本形成鲜明反差

，

训练图像分割模型所需要的数据在网上并不容易获取

。

因此

，

研究人员在Segment Anything项目中还同步开发了一套通用的可提示分割模型

，

用它创建出一套规模空前的分割数据集

。

SAM已经能够理解对象的一般概念

，

可以为任意图像或视频中的任何对象生成掩码

，

甚至支持它在训练期间从未见过的对象和图像类型

。

SAM的通用性足以涵盖广泛用例

，

并可开箱即用于新的图像

“

领域

”

——

包括水下照片和细胞显微镜图像

，

无需任何额外训练

（

即所谓

「

零样本迁移

」

）

。

SAM的工作原理

：

提示分割

在自然语言处理和最近的计算机视觉领域

，

最令人兴奋的发展成果之一在于基础模型

。

这些基础模型能够使用

“

提示

”

技术对新数据集和任务执行零样本和少样本学习

。

Meta AI 团队也从这方面进展中汲取了灵感

。

经过训练

，

SAM能够根据任何提示返回有效的分割掩码

，

包括前景 / 背景点

、

粗框或掩码

、

自由格式文本等一切能够指示图像内分割内容的信息

。

即使提示不够明确且可能指代多个对象

（

例如指向衬衫上的一个点可能代表衬衫本体

，

也可能代表穿着衬衫的人

）

，

输出也应合理有效

。

Meta AI 团队通过这项任务对模型进行预训练

，

引导其通过提示解决常规的下游分割任务

。

研究人员观察到

，

预训练任务和交互式数据集对模型设计施加了特定约束

。

具体来讲

，

该模型需要在网络浏览器的CPU上实时运行

，

这样标注者才能与SAM实时交互并高效进行标注

。

虽然运行时约束意味着要在质量和运行时间之间取得权衡

，

但他们发现简单的设计在实践中能够取得良好结果

。

在工作原理层面

，

图像编码器会为图像生成一次性嵌入

，

而轻量级编码器则将所有提示实时转换为嵌入向量

。

之后

，

将这两个信息源组合在一个负责预测分割掩码的轻量级解码器内

。

在计算图像嵌入之后

，

SAM能够在50毫秒内根据网络浏览器中的任意提示生成相应分割

。

Segment Anything的功能

，

是利用数据引擎收集的数百万张图像与掩码进行训练的结果

。

最终成果是一套包含超10亿个分割掩码的数据集

，

比以往任何分割数据集都要大出400倍

。

AI商业化落地进程最快的赛道

据

《

人工智能行业研究框架

》

报告

，

从技术的应用分类来看

，

计算机视觉可以分为人脸识别

、

OCR

、

物体和场景识别

、

动态视频识别和姿态识别

。

报告指出

，

人类从外界接受到的各种信息中有超过80%是通过视觉获得的

，

计算机视觉为人工智能领域中占比最大的分支领域

，

也是人工智能商业化落地进程最快的赛道

，

2020年我国计算机视觉产品的市场规模占整个人工智能行业的57%

。

2021年

，

中国计算机视觉核心产品的市场规模已接近千亿元大关

。

此外

，

与计算机视觉相关的计算机通信设备销售

、

工程建设

、

传统业务效益转化等带动相关产业规模超过3000亿元

。

计算机视觉是计算机模拟甚至超越人类视觉

，

是人工智能技术层中应用最为广泛

、

市场占比最高的核心技术

。

应用方面

，

计算机视觉技术在泛安防

、

金融

、

互联网

、

医疗

、

工业

、

政务等领域得到广泛应用

。

具体来看

，

出于政策和财政支持等原因

，

计算机视觉产品技术在泛安防

（

包括公安

、

交通

、

社区

、

文教卫等多个领域

）

仍是计算机视觉乃至整个国内人工智能产业实际落地的重要基石

，

2021年国内泛安防领域计算机视觉核心产品占计算机视觉总核心产品规模的70.7%

。

此外

，

医疗领域现阶段市场规模仍较小

，

部分场景已经成熟

，

随着以计算机视觉为核心的AI医学影像辅助诊断产品及新型智能医疗器械在各级医院及医疗机构的铺开

，

潜力较大

。

资料显示

，

计算机视觉行业的产业链上游为视觉传感器

、

芯片

、

算法框架

、

IaaS平台

，

中游为计算机视觉解决方案厂商

，

向产业链上下游延展

，

持续拓宽下游应用领域边界下游包括制造业

、

金融服务

、

公共服务业等在内的各个行业

。

从产业链格局来看

，

计算机视觉领域已形成三大阵营

：

）

以商汤

、

旷视

、

依图

、

云从四小龙为首的初创企业

，

凭借先进的算法逐步向各领域拓展

；

）

以海康

、

大华

、

宇视为代表的传统安防巨头

，

保持原有优势的同时积极引入或自研相关算法

，

提高竞争力

；

）

以BAT

、

华为等互联网

、

ICT领域的巨头

，

通过技术输出和资本扩大布局

。

学术领域

，

计算机视觉已从过去的理论研究逐步转向应用

，

仍为以谷歌

、

微软

、

Meta等为首的海外主导

，

国内商汤

、

百度集团

、

腾讯控股

、

阿里巴巴也颇有建树

。

微软和Meta就像两列势不可挡的列车，以惊人的速度驶向前方。

继释放一系列大模型开源大招后，Meta AI的基础人工智能研究（FAIR）团队发布了首个AI动画绘图（Animated Drawings）开源项目，用AI技术轻松让各种人物涂鸦变成动画。

Meta创始人兼CEO马克·扎克伯格在Instagram上晒出了他女儿画的小人儿动起来的动图。

▲扎克伯格女儿画的小人儿动起来（图源：扎克伯格）

Meta AI发布了该项目代码以及包含近180000张带标注的业余绘图的新数据集，以帮助AI研究人员和创作者进一步创新。据Meta所知，这是第一个以此类艺术为特色的带标注的数据集。

为了方便人们探索开源动画绘图项目，Meta还发布了一个直观的操作步骤解说视频。

该项目的论文题目为《一种让儿童人物绘图动画化的方法》（A Method for Animating Children's Drawings of the Human Figure），已被计算机图形领域国际顶级期刊Transactions on Graphics接收，并将在国际计算机图形顶级会议SIGGRAPH 2023上展示。

Meta的动画绘图项目始于2021年，当时FAIR研究人员想让计算机视觉的最新进展更直观，将人物画中的类人形象动画化。

人类的想象力如此广泛，画出的人物千奇百怪，可能很抽象，也可能因为是“手残党”所以创作出一些神奇的画风。对于人类来说，看懂别人的随手涂鸦没那么难，但让AI模型去理解一些各种独特甚至稀奇古怪的人物画作，压力就有点大了。

对此，FAIR研究人员设想使用目标检测模型、姿势估计模型和基于图像处理的分割方法来快速创建绘图的数字版本。然后可以使用传统的计算机图形技术对其进行变形和动画处理。

但是有一个问题：很难获得训练计算机视觉模型所需规模的人物画集。而且这些画还需要被标注好边界框、分割掩码、关节位置等信息。

另一种方法是综合创建绘图，这也有问题：生成方法需要大量样本数据来学习，而风格迁移方法可能无法捕捉到绘图与照片的所有细微差别，而且可能做不出像纸张折痕、擦除的线条、强光和阴影等实际绘图中会出现的一些变化。

为此，Meta研究人员从单张图形生成动画的任务构建为人体图形检测、分割、姿势估计和动画等一系列子任务，并创建了一个动画绘图演示。

创作者可在浏览器上公开访问这个动画绘图演示网站，上传他们的绘图，查看/更正一些标注预测，并接收由绘图中的类人角色的动画——完成所有这些任务，用时不到1分钟。

家长可以选择允许或者不允许Meta保留图像和标注以供将来研究之用，无论选择什么都不会影响该工具的使用。研究人员希望通过发布该演示最终能收集到10000张图纸来改进模型的性能。

结果用户们对动画绘图演示的反应非常积极，最初几个月就上传并同意使用超过160万张图片，而且很多上传的图片根本不是业余画作，而是公司徽标、毛绒玩具、动漫人物、宠物、可动人偶以及人们想要制作动画的各种其他事物的图片。

虽然演示在说明中明确了人物形象的必要性，但用户还是上传了一些四足动物、鸟类、鱼类和许多其他形式。用户还表达了对获得更全面工具的期望，比如透明背景、支持不同的骨骼类型、多个交互角色、音效、背景风景和文本叠加等等。

感受到大家对将绘图变成动画的热情后，Meta决定将动画绘图演示使用的模型和代码的开源版本发布出来，激励更多开发者尝试和体验。

如果你想尝试将自己画的人物角色变成动画，但不想处理下载代码和使用命令行，可以在浏览器登陆Animated Drawings网站。

上传绘图后，用户可以选择调整检测到的边界框、分割蒙版和关节位置，并选择一个动作来制作动画。

其系统结合了经过重新设计的、根据真实世界物体照片训练的计算机视觉模型。由于绘画领域在外观风格上存在显着差异，因此Meta使用业余绘画数据集对模型进行了微调。

第一步，上传一张有类人角色的绘图，注意这个角色是画在一张没有线条、褶皱的白纸上，确保拍摄光线充足，手臂和腿不要叠放到身体上，同时不包含任何侵权信息。

第二步，调整角色周围框的大小，确保它正好框柱角色。

第三步，将角色从背景中分离出来，并突出显示它。如果角色的身体部分没有突出显示，可以使用画笔和橡皮擦工具来修复它；如果手臂或腿粘在一起，可以用橡皮擦工具将它们分开。

第四步，检查角色的关节。如果你的角色没有任何手臂，将肘部和手腕关节拖离角色很远，它仍然可以被动画化。

下一步便是将使用分割蒙版和这些关节位置，用动作捕捉数据来将你上传的角色动画化。你可以任意选择想让这个角色做出的动作。

如果你想自己下载和运行代码，可以到GitHub项目上按照指引步骤进行尝试。

Meta的动画绘图项目已经在macOS Ventura 13.2.1和Ubuntu 18.04上进行了测试。如果在其他操作系统上安装，可能会遇到问题。Meta建议先激活Python虚拟环境，比如用Conda的Miniconda，然后按照下述步骤下载安装。

首先，运行如下命令。

设置好后就可以制作动画了。如果一切都正确安装，屏幕上将出现一个交互式窗口。（使用空格键暂停/取消暂停场景，方向键及时来回移动，q键关闭屏幕。）

这背后，角色、动作、场景等等都由配置文件控制。你可以通过改变配置文件，导出MP4视频、动图等不同格式文件。

Meta训练了一个绘制的人形图形检测器和姿态估计器，并提供了从模型预测自动生成标注文件的脚本。为了让它工作，你需要设置一个运行TorchServe的Docker容器，GitHub上有详细的设置步骤说明。

设置完成后，只需输入一行命令，就能立即将图像转化成动画。

比如输入一个在纸上画的洋葱头人图片。

稍作等待，AI模型会对输入的手绘洋葱头人进行分析、检测、分割、操纵，并使用来自人类表演者的BVH（人体动作捕捉格式）运动数据对其进行动画处理，然后将生成动画保存成动图文件。

你还可以在场景中添加多个角色、添加手绘的背景图像或者使用不同骨架的BVH文件。

▲手绘背景图像

GitHub项目中也提供了创建自己的BVH文件的详细步骤。比如你可以用手机摄像头录下自己的跳舞视频，然后用Rokoko导出BVH，创建一个新的运动配置文件，并重新定位配置文件，以适应由Rokoko导出的骨架，然后就能制作出类人角色的动画版本。

Meta的业余绘图数据集策略

开放网站，审查过滤，对外共享

要教AI看懂各种手绘人物作品，需要让它学习大量的草图数据集。

而Meta今天分享的新数据集（在相关研究论文中有详细描述），研究人员和从业者可以构建工具来更轻松、更准确地分析业余绘图的内容，解锁新的数字-物理混合体验。

此前全球有超过320万人访问了Meta在2021年底发布的动画绘图演示网站，总计上传了670万张图片。然后人工审阅者过滤了参与者选择与Meta的研究团队分享的业余绘图集，执行了多个级别的过滤以确保高质量并实施了隐私保护措施，以尽可能减少滥用数据的可能性。

具体改进分为两步：首先，使用自监督聚类方法来识别和过滤域外图像，例如真人照片；其次，一家签约机构人工审查了剩余的图像，以确保它们符合标准。审稿人被要求检查图像是否是纸上的手绘图，至少有一个全身人形；还会检查确保图像不包含受知识产权保护的字符或任何隐私或低俗内容。因为评论者主要是说英语的人，所以包含非英语单词的图像被排除在外，以避免它们可能包含不适当的内容。

虽然Meta的演示只能做一组有限的动作，但动画绘图演示的许多用户提供了反馈，希望有更多功能，如多个角色、额外的动作、微笑、眨眼和注视提示。带有跳舞人物的动图是扩展开源代码和数据集以用于其他创意和教育目的的示例。

有了这些资源，其他研究人员可以添加到Meta分析和扩充业余绘图的方法中，以扩展原始演示功能。

这个数据集反映了现实世界的条件，例如模糊、硬阴影、褶皱表面和背景元素等，这些在数字绘图和高分辨率扫描中都是不存在的。数据集还包括边界框、分割蒙版和关节位置的标注——这些特征可以为模型提供更多方法来识别或动画化绘制的图形，对于研究人员非常有价值。

说点击下方 “在看”

能让运气变得更好哦～

继续阅读

阅读原文