今日份知识你摄入了么?
数据工程在就业市场上越来越受欢迎,尽管2020年“充满动荡”,但上图显示的它的需求量却是前所未有的。
由于新冠疫情,4月份有很多职位出现了空缺,但却在夏季传统淡季来临之前迅速回升,也在2020年最后一个季度显著增加。

在工作空缺如此之大的情况下,我们调查了雇主在招聘数据工程师时,最看重哪些技能。
我们主要调查了美国和欧洲的数据科学委员会,总结出2021年数据工程师最需要的10大技能。

01
Python
Python是软件工程师、机器学习工程师、以及数据工程师的必备技能。因此,不出所料,有61%的数据工程师岗位提及了这项技能。Python语言和它的libraries非常适合为数据工程建立管道和工作流。同时,它也是Airflow和Kubeflow等主要工作流管理平台的本地语言。
02
SQL
56%的招聘公告中,都将SQL列为必备技能,所以SQL也是2021年数据工程工作的重要技能之一。SQL不仅是数据科学的核心语言,从商业角度而言,还能用来构建商务逻辑模型,创建可重用的数据结构。
03
云平台(Cloud)
大部分软件设施已迁移至云平台,而且这一趋势仍在持续。在我调查的所有职位描述中,有45%的岗位都要求有云平台方面的相关经验。在云平台这一领域,AWS排在第一位,其次是Azure。许多雇主把云平台的技能看做是贯通的,希望员工至少在一个平台上的专业知识能够得到转化,在其他平台上发挥作用。
04
大数据
如今,大数据常见于许多公司。所以,43%的职位描述中要求大数据专业知识,这并不奇怪。
无论是载入银行信息,大量用户数据库,还是浏览大量社交媒体数据,都与数据相关,大数据带来的好处难以言数。

05
数据仓库技术(ETL)
ETL(Extract-Transform-Load)包含了抽取,转换,加载,占数据工程招聘公告的40%。企业可以用ETL收集不同渠道的资源,并整合到一个集中的位置。有了ETL,数据协同运行也成为了可能。
06
Spark
37%的数据工程职位要求应聘者掌握Spark知识。考虑到数据管道是让数据工程师与众不同的一大因素,而Spark又主要用于构建数据管道框架,那么Spark频繁出现在职位要求中也就说得通了。
07
Java
Java在调查中占了32%,这一数据不容忽视。作为存在已久的编码语言,许多公司的现有数据处理仍然是用Java构建的。所以,沿用这一运营良好的语言是具有一定道理的。许多数据管道工具(如Hadoop)都是用Java构建的,这已经成为数据工程领域的标准。
08
机器学习
鉴于机器学习作为计算机技术不断发展,以及一直是数据工程领域最受欢迎的技能,那它在职位公告中占26%也就不足为奇了。与深度学习这类更加精细、耗资的资源密集型方法相比,许多企业在处理人工智能中机器学习的问题时,更倾向于使用这类人气高的开源框架、类库和工具。了解机器学习中的热门话题,也能带来截然不同的成果。
02
Hadoop
Hadoop占职位要求中的24%,它本身就是一个生态系统,实际上也是一个开源工具的集合。
数据工程师可以通过Hadoop,使用简单的编程模型,处理跨计算机式分散型大型数据集。

10
数据科学
作为数据工程的“近亲”,23%的职位公告中都要求掌握数据科学这项技能。数据工程通过创造数据管道、为机器学习算法做好准备工作,来为数据科学打下基础。虽然数据工程师可能并不会直接做数据科学类工作,但是他们可能会和数据科学家合作开展更大的项目。
  多维全面发展
在2021年,如果你想成为一名数据工程师,还需要学习很多东西,学习的渠道也很多。希望这篇总结能够帮助到你,如果你能掌握以上所有核心技能,那你成为数据工程师指日可待!
原文作者:OSDX-Open Data Science
翻译作者:Lia
美工编辑:过儿
校对审稿:Jiawei Tong
原文链接:https://medium.com/@ODSC/top-10-skills-for-data-engineers-in-2021-6f2f4617495
本周公开课预告
往期精彩回顾
点「在看」的人都变好看了哦
点击“阅读原文”查看数据应用学院核心课
继续阅读
阅读原文