笔者本是学术界的Bioinformatics Scientist,因生计问题改行工业界Data Scientist,经历过2家大的互联网公司,3个不同岗位的Data Scientist。现将这些年来摸爬滚打中所学所做所想所理解总结如下,抛砖引玉,还请大家多批评指点。
1
 Data scientist的职责?
Data Scientist是数据应用科学家。
他应该立足某个应用领域,根据领域需求设计合适的数据产品,利用可以自动化获取的数据资源,设计合适的算法,采用适当的自动化工具进行数据计算/合并/转换,最终得到数据产品。
DS需要有独立的研究/开发能力,至少应该能开发出数据产品的原型以及产生数据产品的流水线的原型,如果他能够开发出稳定可靠的工业级数据处理流水线那就更好,因为通常在工作中找到合适容易理解你的思路并实现的工程师本来就不是一件容易的事情。 


为了履行这些职责,DS需要培养相应的能力。

2
 Data scientist应该培养哪些能力?
1
大方向
1. 定义数据产品:DS需要能够敏锐的捕捉数据产品的需求,能够发现并创造对企业有价值的数据产品 。根据最终消费者的不同,通常数据产品分为两类:

内部消费者 通常内部消费者为manager / director之类的人物,他们需要用你的数据产品来辅助决策,决定下一步的发展/开发方向。由于这种数据产品是内部使用,对数据流水线质量要求一般,通常要求DS有较强的领域知识,要有分析,写作,做幻灯的能力。

外部消费者 也就是说最终上百万的用户使用DS的数据。比如Amazon的产品推荐系统。这种数据产品是企业对外产品的一部分,质量要求较高。这种产品要求DS有较强的企业级开发能力,本身要是一个合格Developer。
2. 数据获取能力:加工得到DS的数据产品需要各种来源数据,这些数据可能来自于各种不同的地方:flatfile, database, api, etc,有着各种各样的格式。为了处理这些东西,DS需要掌握相关的知识。
3. 数据加工能力:DS首先要有足够的理论知识才能够比较游刃有余的加工各种数据,对于处理文字数据你要有NLP的知识,处理图像数据你要有数字图像处理的知识,做机器学习应该要有数学和统计学知识。
通常有两种手段来加工DS的数据:直接使用现成的工具包,或者自己写程序来实现。然而最终DS都应该有写程序整合的能力,因为数据加工通常比较复杂分为很多个步骤,为了实现这些步骤的自动化,DS需要将这些步骤整合为数据处理流水线,不能自动化的则的不能称为“产品”,因为不能有效的利用机器从而无法达到边际效用递减的效果。

有了大方向,DS需要修炼相应的内功和招式。 



2
内功(思维/知识层面)
Data scientist首先是科学家。形而上者谓之道,DS应该要有足够的理论知识作为指导。 做好的DS比做好的Developer更困难,因为需要学习和积累更多的东西,但通常领域知识不容易过时,因此带来的好处是DS的职业生命力可能会较长一些。 


1. 领域科学:
DS需要深刻理解他所处的领域,成为这个领域的专家。这就好比不懂生物很难成为一个好的Bioinformatician一样。不懂领域知识的DS就是搬砖头的。 这绝不是短期内可以达到的事情,需要大量的阅读和多年经验的积累。所以说什么几个月就能成好的DS是鬼话。 由此可以得出推论:积累非常重要,数据科学家不应该轻易更换从业领域。

2. 数学:数学应该是DS的专长,在工作中会起到引导方向的作用,我自己个人的理解,DS应该掌握。
3. 线性代数:基础。
4. 概率论/统计学:猜想大部分DS靠这个混饭。
5. 最优化/运筹:碰到合适的问题这个会有奇效。
6. 计算机科学:虽然说计算机不过是实现idea的工具,但现实中各种软件工具几年一变,非常容易过时,为了更容易的理解和掌握它们,万变不离其宗,应该学习不变的理论的东西。
7. 数据库理论
8. 算法:帮助DS高效的实现程序。
9. 函数式编程:让DS脱离接近硬件的思考,设计出更贴近问题领域,更数学化的程序。
10. 机器学习:混饭吃的招牌。

11. NLP/Image processing/etc:
这些都是抽象化各种数据,提feature的领域知识。



3
招式(技术/应用层面)
企业比较喜欢自己能support自己的DS。Developer们通常很忙,沟通这件事情有时候也很麻烦,所以DS最好有单打独斗实现idea的能力。从这个角度出发,我认为DS关于数据这块的知识面要足够广,以支持自己单打独斗。 


1. 操作系统 :
DS干的活很像大学/科研院所里的Scientist干的事情;用到的各种开源工具也类似;为了更方便的使用各种开源工具,DS应该选用合适的操作系统,当然这就是Linux。 


2. 程序设计语言 :
DS不应该局限于某一两种程序设计语言,否则实现能力就受到了限制。我认为DS应该会以下几类程序设计语言: 

数据操纵语言:
SQL, Pig之类
科学计算语言:
R / octave / scipy之类
脚本语言:
Ruby / Python之类 
企业开发语言:
Scala / Java之类 

除了这些,
Lisp非常值得学习
。某种程度上说,Lisp甚至可以归类于内功。 我倾向于使用开源工具,因为这可以免费获得,学会了就是自己的,不需要给公司带来额外的支出。

3. 数据库 :各种SQL/NoSQL的玩意,Hadoop等等。
3
Data scientist应该如何做项目?
我的个人经验是DS很多时候需要单打独斗,和developer的集团作战不太一样的。 DS在自己的领域要有更高的开发效率,因为很多时候DS需要开发原型或者迅速计算一些东西以便辅助决策。如果自己的地盘上比developer还慢那还成什么话? DS写程序的原则是能不写就不写,写了就有可能出bug。所以,尽量使用现成well tested的工具来完成任务。 DS应该会简化问题抓住重点,解决关键的问题,因为单打独斗没有足够的时间,很难做到面面俱到。
4
 Data scientist的职业规划? 
要问职业规划,这个问题很难,我想很多人都在摸索中前进。 呆在一个地方,也许可以慢慢的升为Senior以及更高,或者转为Team leader,这是两条不同的路。 第三条路,有些文章说Data scientist => Product manager,但我不知道我们中国人的英语劣势会对此有多大影响。 选择自己创业的DS没看到多少,是不是因为这个职业本身的性质决定的呢? 
总的说来,
  • 近几年就业状态很好。虽然从去年开始有人质疑data science是非能够创造的真正价值,但是从长远角度来看前景很棒。因为这个工作是在用最新的方法解决从前无法解决的问题,走在行业的前端,是个非常revolutionary、非常酷的工作!
  • 未来的发展路线
  • Technical track:  BA—Enterprise IT—Architect—CS
  • Business track: Manipulate data with excel—展现data—tell a story with data based business goal (也正是各大咨询公司看中各大一点)
Data scientist的薪资水平大致如下:
  • Data scientist薪资一般在90,000-100,000USD左右
  • Airbnb/Facebook可以给到100,000-120,000USD (有些硅谷科技公司甚至给的更高)
  • 四大Data Analyst:刚出大学校门平均75,000-85,000USD,有的可以达到90,000USD
薪资的高低主要受公司、行业、职能等因素影响。
本文整理自网络,DreambigCareer诚意推荐阅读,
有任何问题请及时联系我们,版权归原作者所有。
合作请联系:[email protected]
想要求职Data Science相关领域的工作?
可是对此还零准备?
DBC商学院 Data系列
Data Science & Data Analytics专场
期待你的参与
(戳图了解Data商学院完整详情)
1
DS & DA 专场讲座内容
DS & DA 是什么?职能有哪些?团队怎样协作?

典型的一天/工作内什么样?
最吸引人的地方?薪资水平、稳定性、
中国留学生最有竞争力的环节?
如何找相关实习?
面试如何准备?需要哪些软硬实力/技能?GPA的规定,需要掌握哪些工具,有哪些学习资料/方法的推荐?
 大环境下的Data职位会何去何从?
以后如果转行,还能做些什么?
2
 主讲人
现任精算模型师,兼任某大型E-commerce教育平台大数据讲师,负责产品研发、市场模型、统计模型等。
University of Waterloo 统计精算出身
辅导学员拿过的Offer:
KPMG - Advisory Associate
Insurance Bureau of Canada - Data Analyst
Allianz Global Investors - Portfolio Risk Management Intern
Boeing - Summer Intern
……
3
 讲座须知
时间:week of 2.1
地点:DreambigCareer APP
DBC最新上线APP
APP Store选择【仅iPhone】
搜索【DreambigCareer】下载
国内国外同学都能轻松听讲座
除了Data Science和Data Analytics两场讲座以外,还有当下大火的Data EngineeringBusiness Analytics, Statistics 科普+求职技巧分享期待你的参与!
本期福利
超级数据分析礼包
1. 统计基础、Excel等7章数据分析完全教程
如果对数据分析感兴趣,这份资料最适合你自学

2. R语言、SQL、Quantmod专项
零基础视频教程+课件
如果说数据分析完全教程是公共基础课
专项教程就是专业课啦~能力提升不二法门
3. 大数据的统计学基础,13周了解大数据
这是课外素质拓展
以后聊天找工作又有话题侃大山了
4. 11本Data Science书籍
JP Morgan,Blackrock,CapitalOne等公司
真实数据分析Interview Questions
数据分析精选内容
学习那么多,来场实战吧!


听讲座领福利
关注DreambigCareer公众号
后台回复关键字核心
立刻查看讲座报名方式
入群领取期福利
你还想要什么福利?
DBC一次满足你!
点击文末“阅读原文”,1分钟填写福利问卷
主页菌立刻为你收集福利!
▼▼▼
往期内容推荐
(点击图片进入阅读)
DBC战绩 
本申请季所有Offer展示,有图有真相
高效备战
秋招还没反思,你就敢去春招了?
年度呈现
私募/风投/投行/咨询等十大领域实习项目来袭

点击“阅读原文”告诉我你想要的福利↓↓↓↓
继续阅读
阅读原文