没有数据标注师,AI寸步难行。
作者|木南
编辑|栗子
去年3月,百度回港上市。仪式上的“敲钟阵营”安排得颇有韵味——三位AI时代新职业的代表与小度机器人及百度高管共同敲响了一面巨大的“芯片代码锣”。
三位新职业代表分别为百度(山西)人工智能基础数据产业基地数据标注师郭梅、Apollo“5G云代驾”安全员雷建伟和百度深度学习平台飞桨小开发者郭佳慧。
16年前,百度在纳斯达克上市时,定位还是一家“搜索引擎公司”。但这一次,百度脱胎换骨,中国互联网行业也褪去了昔日的锋芒,新的时代属于另一个更为润物无声的技术概念——人工智能。
自动驾驶与深度学习在人工智能技术与商业版图中的重要性已无需多言,相比之下,数据标注师这个职业似乎没有前两者那么光鲜亮丽。
为什么百度会选择数据标注师作为AI新职业的代表来参加敲锣仪式呢?
数据、算力、算法是人工智能的“三驾马车”,每驾马车都需要相应的“人工”外力来拉动。粗略来看,算法背后的“人工”是算法工程师,算力背后的“人工”是服务器、芯片、操作系统等一众工程师,而数据背后的“人工”则是数据标注师。
早在2018年,「甲子光年」曾专门报道过数据标注师这一群体,其中有职高学生,有尝试过40份工作的聋哑人,有转业而来的退伍军人……
而同样在2018年,百度在山西太原落下了第一座人工智能数据标注产业基地。
可以看到,数据标注产业正在从AI时代的幕后走向台前,数据标注师这一群体也正在进行一场集体蜕变。
现阶段,没有数据标注师,AI将无法掀起任何波澜。

1.去给AI当“老师”

越来越多人正在成为数据标注师。
先来了解一下数据标注在人工智能产业链中的位置:
人工智能产业链可以分为“应用层”“技术层”和“数据层”。一个不太恰当的类比可以帮助大家粗略理解三者的关系——应用层相当于汽车,技术层是汽车的引擎发动机,数据层则是汽油。
正如汽油需要从原油中提炼才能供汽车使用一样,AI产业链条中,大多数据为非结构化数据,AI公司通过数据标注获得结构化数据,以此“喂养”算法进行AI训练,最终生成的模型数据可用于各种场景,从而激发数据的AI价值。
中国工程院院士邬贺铨曾表示:“智能驾驶中需要让汽车自动识别马路,但如果只是将视频单纯地传给计算机,计算机无法识别,需要人工在视频中将道路框出,再交由计算机,计算机多次接受此类信息后,才能逐渐学会在视频和照片中识别出道路。”
庞大的数据积累可以支持更复杂的算法模型,定制化的场景数据能够提升算法模型的场景化落地能力,形成技术壁垒,为应用层提供竞争力保障。
而数据标注师每天的工作就是拉框标注图像内容,辅助人工智能学习。一个普遍的说法是,数据标注师就是人工智能背后的“人工”。
郭梅是山西本地人,加入百度前,她在煤矿干了8年的监控员。
因为7岁的孩子要到太原求学,郭梅辞了工作,举家迁至太原。这一次,她不想再过“抬头是山,低头是煤”的日子。但已36岁的她重新开始求职时才发现,找份满意的工作,很难。“刚开始比较困难,毕竟年龄稍微大一点了。”郭梅说。
就在郭梅一筹莫展时,一个她从没想过的工作机会向她招手了。
2018年9月,百度与山西综合改革示范区达成合作,在太原共建百度(山西)人工智能基础数据产业基地(简称“百度山西数据标注基地”)
基地刚落成,需要大量招聘数据标注人员,郭梅应聘成功,成为了一名数据标注师。
郭梅每天大概要标注五六十个数据包,每个数据包里有二三百道题。
刚开始工作时,郭梅一天只能标注两三百张图片。在公司培训和团队帮助下,现在每天能完成1300多张。
事实上,全国各地还有许多像郭梅一样的人,正努力在巨大的社会齿轮上,寻找一个属于自己的位置。
杨青今年44岁,江西新余人,是三个孩子的父亲。1999年中专毕业后,杨青租了一个不起眼的小门店,主营业务是修BB机、固定电话和手机。
2006年,命运和他开了个残酷的玩笑——一场车祸让杨青的腿受了重伤。
治疗散尽了家里原本不多的积蓄。所幸,几次大手术后,杨青在2011年终于能重新下地行走。恢复了一段时间后,杨青和妻子北上去南京打工。两女一儿只能交由年近七旬的父母照看。
漂泊的日子一过就是十年。
2022年,父母年近八旬,孩子们也到了抓学习的关键时期。无论老小,都到了离不开人照看的时候。于是,杨青和妻子商量,决定离开南京。
回到老家后,经朋友介绍,杨青入职百度智能云(新余人工智能基础数据产业基地,成为一名数据标注师。
工作生活都进入正轨后,杨青终于有时间陪伴孩子们,见证他们的学习和成长,他希望孩子们能够好好学习,让自己的人生多一些选择,不要再尝那些他已经含了半辈子的苦。
中年人有中年人的无奈,年轻人也有年轻人的不易。
今年春天,刚毕业的杨帆无意间得知百度和奉节县共同投资建设了百度智能云(奉节)人工智能基础数据产业基地, 并顺利入职。
在此之前,杨帆原是一个回乡创业的大学生。她家是脐橙种植大户,山头上几千棵脐橙树都是杨帆家的。因此,杨帆毕业后最想做的,就是回老家发展脐橙产业,实现鲜果出山。
但全国各地不少销路都被疫情阻断,很多地方快递无法送达,脐橙严重滞销,这对于收获一次要等一年的果农而言无疑是巨大的噩耗。
而成为数据标注师后,杨帆则从山上走进办公室,开始了一种全新的活法。
可以看到,无论70后、80后,还是90后,都正在涌向数据标注行业。而个体选择背后往往映射着某种时代转向,数据标注行业的爆发也不例外。

2.时代呼唤数据标注师

如果数据是AI学习的养料,那么数据标注师就是“投喂”AI的人。如今,这个群体已经从人工智能产业的“幕后”走到“台前”。
2020年,“人工智能训练师”正式成为新职业被纳入国家职业分类目录。
目前,人工智能逐渐渗入智慧城市、智能制造、自动驾驶、智能服务、智能医疗、智能农业、智能物流、智能金融等社会生产生活的各个角落,也由此带动了数据服务市场的爆发。
据IDC中国2021年《中国人工智能基础数据服务市场研究报告》预测,2025年市场规模将突破120亿元,2020-2025年复合增长率为47%。
数据背后,是一个又一个切实存在的痛点和需求。
其中,自动驾驶行业近两年对数据标注的需求尤其高涨。
自动驾驶要求汽车具备感知、规划、决策、控制等多种能力,要实现这些能力,对汽车的软件、硬件能力都有极高要求。与之对应的,激光雷达、芯片等是核心硬件,而人工智能则是软件系统的核心所在。
真实的交通状况错综复杂, 要让搭载人工智能系统的汽车上路后能够泰然自若地处理各种意外状况,就需要有海量的真实道路数据给人工智能做“预演”——这就到了数据标注师出场的时候。
在自动驾驶领域,需要进行数据标注的场景通常包括换道超车、通过路口、无红绿灯控制的无保护左转、右转,以及一些复杂的长尾场景,诸如闯红灯车辆、横穿马路的行人、路边违章停靠的车辆等等。
面对如此繁杂的场景,人工智能要在自动驾驶领域发挥智能魅力,便需要数据标注师对海量的图片、点云进行数据标注,以帮助人工智能学习。
在自动驾驶领域的众多玩家中,以Waymo、小马智行、文远知行等为代表的做L4级自动驾驶系统的公司或其他对数据有较高要求的公司,多在内部建立标注团队,解决前期的标注问题;相比之下,主机厂对数据标注似乎没有太高的热情。
变化发生在2021年。
去年,国内一批主流的主机厂如吉利、上汽、广汽等,纷纷在自动驾驶数据标注方面开始投入。到今年,投入预算已经在几十万元的基础上翻了十余倍。
主机厂态度的转变是由现实痛点所致。
主机厂在数据、算力、人才三大方面仍有痛点尚未解决。
在数据层面,相比看不见摸不着的数据,主机厂更容易对精巧玲珑的机械构造心动。这便导致主机厂的数据积累还很早期,而自动驾驶时代的到来,让主机厂必须开始重视数据积累,未来各家要求的数据类型,数据格式,数据标注的方法,都会随着数据量的提升不断迭代。
在算力层面,高端AI芯片的短缺问题仍未见曙光;在人才层面,主机厂对感知、规划、决策、控制,各方面算法的人才,都需要进行全面储备。
因此,现在正处于数据标注行业抬头的时期,可以预见,往后的市场空间还有进一步上升的可能。
据智研咨询数据,2015~2021年,我国数据标注与审核行业市场规模保持稳步增长态势,2021年达到44.40亿元,到2028年,我国数据标注与审核行业市场规模预计将达262.74亿元。
在巨大的市场空间面前,嗅觉敏锐的人早早入场。和大多数行业一样,数据标注产业的发展也经历了一段从蛮荒到有序的过渡时期。

3.小作坊退出,“专业队”入场

2016年,AlphaGo横空出世,数据标注也随之迎来第一次爆发。
但当时各公司的人工智能业务多处于“跑Demo”“做研发”的落地前环节,此时需要的数据量不大,质量要求也不高,标准数据集即可满足,这便导致数据标注产业曾经历过一段“粗放期”。
曾有业内人士回忆,当时数据标注的工作页面和网页版PS十分相似,重复性的简单拉框就能实现项目需求,一张图的价格不过几分钱,外包商全靠数量获取微薄利润。
低门槛也使得小作坊遍地开花,甚至有人称数据标注企业是“人工智能背后的富士康工厂”,标注人员也鱼龙混杂。
渐渐地,随着人工智能产业的发展,安防、自动驾驶等场景对数据的精细度和安全性都有了更高的要求,一些专业的第三方数据标注与审核公司开始出现。
国外,诞生于硅谷的创业公司Scale AI曾在短短三年内成长为市值破十亿美元的独角兽,亚马逊、Appen等国际巨头也纷纷进入数据标注市场;
国内,京东(京东众智)、百度(百度众测)也拥有了自己的标注平台和工具;同时也出现了许多表现出色的数据标注公司,如龙猫数据、Testin云测、倍赛BasicFinder、数据堂等。
在国内布局数据标注的互联网巨头中,百度展现出一种与众不同的气质。
一直以来,在一众互联网企业大厂中,百度都对人工智能表现出浓烈的兴趣,并很早就付诸行动。
2010年,百度便开始投身人工智能,是国内最早布局人工智能的公司之一。之后,百度便在AI领域大步流星——2013年,成立深度学习研究院;2013年,进入自动驾驶领域;2016年,发布百度大脑;2018年,发布自主研发的云端全功能AI芯片“昆仑”。
为满足公司内部AI模型训练的需求,百度在内部成立了众测团队。如今,百度众测已经在内部打磨十余年。
随着公司内部产能提升,客户对数据的精细化、安全性要求也越来越高,众测团队便开始通过基地的模式来服务内外单客户,同时不断迭代数据服务能力,给客户提供更高质量的数据服务。
2018年,百度在山西太原落下了第一座人工智能基础数据产业基地,该基地也是全国第一家标准化、专业化、集中管理的人工智能基础数据产业基地。
百度(山西)人工智能基础数据产业基地
经过四年的运营,今年,百度(山西)人工智能基础数据产业基地的办公场所面积近2万平方米,入驻数据标注企业40余家,培养5000名专业数据标注师,并累计完成营业收入超过5亿元。
基地不仅有着百度在人工智能领域的技术基础,也有着百度智能云数据众包此前深耕人工智能基础数据服务领域的业务积累、渠道资源、庞大的客户群体与完备的隐私合规机制。
在“技术”与“业务”两大支柱的支持下,百度智能云人工智能基础数据产业基地以数据标注服务为依托,通过建设数据应用创新中心、数据标注培训中心、数据标注生产中心和数据流通服务中心,帮助客户培育区域AI人才、赋能区域企业成长、培育区域数据要素市场、构建数据标注产业集群。
如今,百度智能云数据标注基地在山西落下的星星之火,正在全国形成燎原之势。

4.星星之火,可以燎原

百度智能云数据标注基地近年来已经陆续在全国各地开花结果。
截至目前,山西太原、山东济南、山西临汾、重庆奉节、四川达州、甘肃酒泉、江西新余、浙江丽水、广东清远、湖南郴州、黑龙江哈尔滨等地均与百度智能云达成合作
数据标注基地的落成,也为各地经济发展带来了更多活力。
最先感受到变化的,便是苦于找工作的求职者。百度智能云数据标注基地的出现,为各地正处迷茫的求职者提供了一个新选择。
通过百度公司的技术赋能,以百度与当地政府合建的1000人规模的数据标注基地为例,三年预计新增就业人数可达2800人,且大多为本地从业者。
百度智能云(山东)人工智能基础数据产业基地招聘会
值得注意的是,在这些流入基地的人群中,还有大量高学历人才。
数据标注虽不及算法与算力行业具备高学术与高研究属性,但现在人工智能对数据的精度与准度要求越来越高,也要求数据标注人员对数据有更高的认知。
除了普通的求职者外,不少创业者也看中了数据标注这块人工智能产业的“处女地”。
2018年,连续创业者李应维只身杀入数据标注行业,创办了山西麟诺信息科技有限公司。
像无数创业者一样,创业初期,业务上的不熟练、市场信息掌握不充分加上团队管理混乱等因素,都让李应维尝尽创业的苦涩。
后来,李应维接触到百度众测。在注册、筛选等层层选拔之下,麟诺成为首批入驻基地的服务商之一。百度智能云为其提供了补贴激励计划、运营成本减负,以及一系列管理方法论。
2020年,在百度智能云数据标注基地的协助下,麟诺被正式认定为“国家级高新技术企业”,享受国家税收减免、经费支持等政策。
今年,随着百度智能云数据标注基地在全国落成,李应维的业务也跟着基地从山西拓展到了山东、重庆。目前,麟诺各地在岗人数已超500人,具备大型数据标注企业的规模。
同样的故事,也在百度智能云(山东)人工智能基础数据产业基地(简称“百度智能云山东数据标注基地”)如数上演。
王孟涛是山东璀璨科技有限责任公司济南分公司的总经理。此前,他曾在国企端过“铁饭碗”,也创业干过餐饮业,但疫情排山倒海,压力最大的时候他曾负债40多万,加入璀璨科技是他人生中一个“完美的意外”。
2021年,王孟涛带领璀璨科技正式入驻百度智能云山东数据标注基地。短短不到一年时间,王孟涛的团队便扩大到100多人。
和“创业小白”王孟涛不同,孙姣娜是数字经济领域的“老兵”,是山东辰全信息技术有限公司总经理,在数据标注行业已经跌跌撞撞五六年。
2015年孙姣娜就开始接触数据标注,但这一路走得并不顺。面对疫情的突袭,公司一度奄奄一息。直到她加入百度智能云山东数据标注基地,可谓触底反弹。如今的她已经将业务从山东扩展到了山西,并在临汾成立了分公司。
事实上,这些企业能获得如此成长,离不开百度提供的肥沃土壤。
在数字化转型大潮中,中小企业的数字化基础往往较为薄弱,仅有少数企业具备大数据分析技术,尤其是中西部地区企业,在数字化方面经验不足,没有大企业引领,很难实现自身发展。
而百度,则是在中小企业背后推上一把的人。
百度结合各地区的政策引导与产业基础,将自身多年来积累的技术与业务经验打包传授给中小企业。
首先,基地为个人提供一站式的创业扶持,包括团队组建、人员招聘、人员培训、项目补贴、运营管理等。
其次,百度为企业提供免费数据标注平台,为企业导入运营经验,帮企业组团队、招人才、管理培训,进而可在各地区培育出一批具备专业服务能力的AI基础数据服务供应商。
大量中小企业的崛起,也为当地产业数字化转型注入了新的活力。
随着百度智能云数据标注基地在全国多点开花,入驻企业也加强了在周边地区的跨区域流动,不少数据标注基地培养出的优秀数据标注企业与人才,也会进行创业或二次创业。
以山西为例,国家工业信息安全发展研究中心报告显示:“在山西基地带动下,山西省数据服务相关企业已超过200家,各类从业人员超过1万人,数据服务相关产值超10亿元。”
目前,百度山西数据标注基地已成为当地数字经济的前沿阵地和数字转型的窗口和名片。
可以预见,数据标注产业将成为未来全国各地产业数字化转型过程中的一个支点,数据标注师也正随着产业发展,从幕后走向台前。
而扎根全国的百度智能云数据标注基地,更像是一个“大本营”,为想要走在AI时代最前沿的每一个人、每一家企业,提供源源不断的动力与信心。

END.

继续阅读
阅读原文