本文选自BITTIGER讲座内容,点击以上图片加入BITTIGER校园宣讲会,与导师和学长学姐面对面交流!
Data Scientist 的诞生
为什么一夜之间美国的很多大学都开放了有关DS的项目呢?为什么互联网行业也开始大量招聘DS职位?
首先是因为Hardware成本下降,大家有能力去购买硬件进行存储。
其次是因为存储和计算机的能力提高了,让你有了数据而且有能力将其存储下来。我们上本科时,硬盘能有50G就很少见。现在基本上都是5TB存储空间,而且价格还比十几年前便宜。
第三是互联网和Smart Phone的蓬勃发展,以前产生数据更多地是因为浏览器记录了浏览痕迹,而现在你手机随便关注一个人的Facebook,跟他聊天,都是一个生产Data的渠道。所以数据量是一个爆炸式的增长。
第四,以上就导致了Sample越来越大,以前Sample比较小,只能做一些分析,但是现在由于互联网行业的发展,人们可以从这些数据里面提炼出一些东西,进而做一些预测。DS主要看你能不能从公司的数据或者外部数据想方设法为公司提高收益,帮公司拓展新的客户。
Data Scientist的“过去”    
在DS之前,都有哪些人在做DS的工作呢?上图是列举的一些领域,可能都有涉及到DS的工作。
第一种就是Research Scientist,比如Google的Researcher之前就在做DS的相关工作,他们主要是通过提升学术水平来提升职业发展的路线,更多专注于产品的研究,给公司前沿产品预测未来的发展前景。
第二类就是Business Analyst,各行各业都有Business Analyst,虽然他们的具体职责不能一概而论,但是他们大部分给公司做决策支持,比如针对公司的一些业务,一些Operation等东西,搭建起Stackholder和各方的关系,给出针对公司的Structure,管理结构,Policy和Operation相关的建议。
第三种就是Statistician,很多互联网行业和公司都有这样的职位,比如微软,他们大部分是统计专业出身的学生。他们的职责更多是在对一些问题的定义以及在问题上做一些建模和分析,最后给出一个可实行的计划。
第四部分就是Quantitative Analyst,当年Google没有DS,大部分都是这个职位在做DS的工作。这个职位跟我们前面讲到的Business Analyst,Statistician工作都有交叉的部分。
第五就是在AI/ML/DM/NLP等领域良好理论背景的工程师,比如做Machine Learning的工程师在DS方面也会涉及到很多。这些都是人们之前熟悉的Title,但是突然之间都变成了DS,所以大家求职的时候,一定要弄清楚是哪个方向的职位以及有什么要求。
Data Scientist的“现在”
由于现在大数据的发展,各个行业都在疯狂招聘DS的人才,而且薪资也非常高。左边的图跟BA方向有点对等,不管什么行业,比如Farm,生物医药,Banking,Insurance,Logistics,Retail,High-Tech都需要有人去做产品数据分析来增加收益。右边是在LinkedIn上的一些截图,可以看到服务业,咨询类等都在招聘各种各样的DS。而且,虽然都是DS,但Title各不相同,因此你要关注Job Description的要求。
接下来是DS的薪资和需求量的一些数据,这张图列举了不同地区的发展比较好的城市,比如New York等地的DS 的薪资。
在硅谷这边,DS的平均薪水已经达到16万,是相当高的水平了。从右边的图大家也可以看到,DS的需求量一直在增加,预测2018年美国地区会面临1.5M的DS人才短缺。因此,希望大家坚持自己的信念,虽然DS难度高,范围也大,但是只要你把对应的技能补充起来,就可以找到满意的工作。
Data Scientist的“未来”    
技术路线:随着你工作年限的增加,你数据分析的能力也会增加。你可以从Junior Data Scientist发展到Senior Data Scientist,再往后可以达到Principal,最后会达到CDO(Chief Data Officer)的头衔。
管理路线:是指在Team里面的发展。如果你本身专业技能过硬,又有很强的管理和领导能力,那你可以从一个Data Scientist发展到 Data Scientist Manager,带领你的组员做一些产品的分析和预测,最后你甚至可以到VP 或Director;另外一条路线是近几年比较兴起的,是指DS做一做之后转到Product Manager 的方向。PM要求你要对产品非常熟悉,很多公司的PM都有DS的背景,因此,这也是一个很不错的方向。之前BitTiger的一位PM的老师说,其实DS做到后来很多都是做一些信息的Present,讲的次数多了,SQL用的多了,就会慢慢变成PM。
具体选择哪一条路,要根据你自己的兴趣和性格。管理更多跟人打交道,技术是更多地提升专业技能。
Data Scientist的“逆袭”    
DS整个的发展过程可以说是一个“逆袭”。之前,很多DS被认为是一个Math Geek,现在,几乎每个人每个公司都需要优秀的DS。因此,这个领域未来十年都将蓬勃发展。
Data Scientist的职位Title
因为这个行业还处于一个发展的阶段,所以市面上的信息会让人迷惑,包括各个Title职责也有重复的地方。下图是网上搜集的,推荐大家去看一下Kaggle前一段时间发出来的数据科学,包括ML的报告,里面有非常多的数据和图表。其中有一章就是针对Data Scientist不同Title的介绍。因此,大家在找工作的过程中,下图中这些Title都可以去尝试。里面Data Scientist比例最高,还有一些Data Analyst,以及前面讲到的Researcher,包括BA,Computer Scientist等。所以,Title只是一个名称,大家在求职时具体的要求和内容要去阅读JD。
下图是一个报告中的截图,里面讲到Airbnb,Facebook,Uber,LinkedIn四个公司就有不同的DS Title。LinkedIn就有很多种不同的DS Title,比如DS Machine Learning对于ML以及Model的要求比较高。Facebook叫Data Scientist Analytics,可能更看重Analysis的能力,以及需要有Presentation Skills等。Uber是叫Advanced Analytics。
DS从业人员背景分析
图中分析了DS从业人员的背景,可以看到,大部分从事DS的人是CS专业的,第二部分是与Business Administration & Management相关的;第三个是统计、数学和物理专业的;再往后就是Finance/Engineering/Biology等。所以可以看出,从事DS工作的人员的背景有数据类专业的,有Technical Background,有商科背景的,也有一些Science的。因此,大家不用担心自己的背景问题。
下图的数据是Kaggle里面提炼出来的,大家可以看到:
1. 超过79%的Data Scientists都获得了Graduate Degree,因此,本科背景在DS领域不太具有竞争力,可以尝试去走BA和DA的方向。
2. 38%的Data Scientists 正在或已经获得了Phd学位,所以,DS对于Phd的学生来说,是一个比较容易进入的领域。
3. 接近42% 有Master Degree。虽然Phd找DS方向的工作比较容易,但是主流还是研究生居多。
Data Scientist的工作流程
上图很符合一个数据科学家的每日工作内容,它包含了Business Understanding、Data Understanding、Data Preparation、Modeling、Evaluation、Deployment。
Business Understanding:为公司解决问题,为其增加收益。比如你在咨询公司做DS,你可能会被给到一些数据进而预测未来对的走向,将这些结果告知公司。再比如,你在Amazon,他们可能会让你建立一个Recommendation Model以提高顾客的购买率。
Data Understanding:有了Business Motivation之后,需要什么样的数据以及这些数据从哪里可以得到,是从公司内部得到,还是从外部购买。比如现在天然气管道找到你们,让你们建一个Model来预测2019年哪个地方更有可能发生天然气泄漏的问题。现在你们就需要一些与地理相关的一些数据,比方说各个地区的管道密度,各个地区的管道材质以及温度湿度人口密度等。
Data Preparation:这个部分包括Data Cleaning以及如何处理Missing Data。比如,接着上一个问题,要建一个Model,客户给了一些以往历史的数据。你要花很多时间确认数据并和之前数据格式保持一致。
Modeling:跟个人经验比较相关。拿到数据之后,要先将其转为可视化,假设可能有十几个Feature,你要确定这些是线性相关还是非线性相关,然后建立Model。建好之后,你要思考是不是有更好的方法来证明这个Model的准确性,而且你要确定哪一个Feature对你的Model最有用,哪些Feature没有用。有时候你可能会遇到数百甚至是上千个Feature,而且时间很短,这时要分析出最重要的Feature。
Evaluation:建立完Model之后,要评估你的Model好坏。你要怎么样才能传达给客户让他们觉得你的Model确实可以帮助到他们;另外也包括告诉你的主管。因此DS对于沟通交流的能力要求高,不是只会做项目编程就可以。
Deployment:做完Model之后,要将Model交给Software Engineer Team 做Production。后续你可能需要做一些完善的工作。几个月之后,你可能需要做一个Test,再对Model进行修正。
Data Scientist的职责和技能需求
Cleaning、Storage And Retrieval、Mining And Exploring、Data Visualization、 Ethics And Privacy、Statistical Analysis、Communication Results、Research Design这些职责对应到的工具如下图:
DS也包含Mining And Exploring 和Data Visualization,道德跟Privacy的问题我们等一下会讲,Statistical Analysis我们前面有讲到你改了一个Feature,那这个Feature就要让你的产品更好,你就要做一些AB Test。
就下来是Communication Results和Research Design。这张图表示了不同的职责会用到的对应的工具。大家在找DS工作的时候,SQL一定要会,MySQL有了解就可以。Mining And Exploring也包含了做一些Machine Learning和Model。
道德和Privacy的问题,大家应该都听说了Facebook发生的一件事,就是把数据泄露给了外面的公司。身为一个DS,你要保证公司Data的隐秘性,绝对不能外泄。
Statistical Analysis就是比如说互联网公司需要改网页他们就都需要大量的统计来做比较,来看一下是否真的有Improve再来决定是否要放在Production里面。
大家可以看到Communication Results旁边放了一个大脑和一张嘴。身为一个DS,你要能够把一个问题说的很清楚,说的很简单。因为往往你的客户和老板只有很有限的时间去听你讲这个东西,所以你要讲的简单易懂,你要先在脑子里过几遍再讲出来。
在Product之后,如果还要做一些Feature,那就涉及到Research Design,这个在每个公司做的也不一样。大家对这些方法要有基本的了解,知道每个方法的特点。
下图显示了具体的技能的需求,如果有一些很重要的技能你还不会,就要抓紧时间去补。
先看右边这个图,排在前三的就是Python,R和SQL,SQL是不可少的。其他的你如果会了更好。左边的是说什么样的Machine Learning方法会用到。在这里,大家要注意,当大家知道这些Model后,并不是运行一下Model就算了,你要对这些Model有一定的了解,比如说你要知道什么时候要用什么模型,不同Model之间有什么区别等问题。
DS专业技能
以下是DS所需的专业技能,对于这些技能的要求大部分都是要Strong。数学统计在你建完模型之后做Statistical Analysis非常关键;编程语言(R Python)每天都用,甚至是帮Software Engineer找Bug都需要,因此要强一点。如果在两者之间选择一个的话,建议先学Python,因为这是未来的一个大方向。并且,大家可以看到第四行列出的分布式,比如Spark,Spark以前只支持3中语言,其中就有Python,R是最近才可以支持的。Python是一个很万能的语言,R只是在统计上才会用。
ML是DS比较核心的部分。自然语言处理有的公司需要,有些不需要。比如有些公司的Data组是做客户服务的,他们通过客户服务来帮助优化你的产品,这时你客户留下的信息就需要RNLP来帮助看能否提高产品。
数据分析和处理以及Visualization一定要强。Visualization包括看一个Model是通用的还是对每一个Feature都要分开来看。行业、商业知识以及沟通能力也要强,虽然有些大公司不是很在乎你的行业知识是否Strong,但如果你要去面试的话,一定要花时间去做Research,你要了解这个公司在做什么事情,哪个组哪个业务需要用到Data,要Improve什么产品,这对你的面试会有非常大的加分。
沟通能力我们前面已经提到过,这一定非常重要,你要非常简单明了的讲清楚。
Data Scientist面试题考核
这里列举了一个比较简单的统计问题,但是能够说得非常清楚也不简单。
第一个问题是问你什么是t-test和p value,这点说清楚很不容易,在这里不多讨论。
回答类似第二种问题的时候,你要有条理。比如说这个问题问你Coin是Fair Or Not,那你要先说如果Coin是Fair的话那么正反Probability都是1/2,那你就要假设你的Null Hypothesis,因为正反Probability都是1/2,Hypothesis就是0。Alternative Hypothesis就是说Probability不等于1/2,接下来,你就要考虑如何收集Data。你要知道收集到数据后做什么Distribution,做什么t-test,然后会得到一个p value,如果P-Value大于0.05,就不能Reject,如果小于,就Reject。所以说逻辑思维非常重要,大家在面试的时候,一些统计的题就要像这样说下来。大家需要拿一张纸一条一条从头写到位。
概率题一般比较简单,不会特别难,跟下图的例子难度相当。下面这道题是个典型的例子,是讲Bayes Theorem,如果你有两个Box,每个Box都有黑球和白球。你现在挑出来了一个黑球,这道题反过来问你这个球来自Box A的几率是多少。
现在,我来讲Facebook面试时的一道题,是说你想去西雅图,你有三个朋友住在西雅图,这三个朋友都有三分之一几率会说谎。当你打电话问他们现在西雅图是不是在下雨时,他们都说是,然后你要回答西雅图现在在下雨的概率是多少。这样的题都不是很难,但是你要能理解题目。思考的时候也要跟面试官互动,埋头苦想是不可取的。
数据类背景如何成为DS
其实大家有很多曲线救国的方法。如果你是在校生,有时间实习的话,一定要找一份,可以从BA/DA/DA方向入手,这对你之后找全职会有很大的帮助。刚毕业的和已经入职的人,如果有相关实习,可以直接去找DA或DS相关的工作。没有的话,要补充简历项目,可以先去尝试BA或者DA的职位,然后工作几年之后再转向DS。在职的想要转的话,工作经验就是非常关键的部分。
数据类专业背景汇总
如果你是统计、生统、DS/DA/BA、Analytics Related、数学、精算、IS/IE/IM等,你就是数据类背景。
首先我们针对数据类专业技能对比:唯一需要注意的是面试部分,因为数学统计的内容比较多,如果你在学校不经常用的话,可能面试的时候一下子不知道如何回答,所以需要温习一下。数据类专业编程技术会比CS专业的学生弱一点。数据库是中就是说有的学生会用到,有的不会,所以Average是中等。Distribution像Spark一般不会在学校里面教。ML有些同学背景比较好,不管是从理论的理解还是实际使用中都有对应的项目做支撑,有些同学可能接触的不多,或者只是通过书本和课程了解过。但ML要求非常高,尤其是面试的时候。所以你要熟悉每一种方法。自然语言处理这部分一般是用不到的。Visualization这部分数据类的同学平时应该会有Practice,如果你这部分不够Strong的话,就要注意加强。
有人会开玩笑说:如果你的老板是Business Manager的话,那么如果你的图超过二维的话他们是无法理解的。所以Visualization你要想如何去给你的老板做Present。像行业、商业知识以及沟通能力在这里列了中,想行业知识对于没有工作经验的学生来说都是比较欠缺的。所以,大家可以多去看看面经,多积累一些商业的Case,多去看看Business的Structure等。
接下来我们来讲一下数据类专业的同学面试中可能会遇到的一些问题。
统计概率这一部分基本上没有什么问题,但是面试之前要回顾一下。
SQL这一部分比较简单,但是如果挂掉的话,你就不能再继续往下走了,因此大家一定要加强SQL的练习,做到熟练的程度。
R和Python通常大家都是二者择一,Python重要的就是刷题。虽然达不到SDE的难度,但也要达到中等的程度。
AB Testing跟统计是相关联的。Data Challenge可能是给你Data让你写一个Report给他,或者用Python做一个表格给面试官看。
Case Study问题很广,面试官会让你证明你的想法或你的Model好坏,这需要你日常积累。ML很多同学学过一些相关课程或做过相关项目。大数据大家如果没有的话可以花时间补一补。工作实习经历如果你有一个相关的实习是非常重要的,这是证明你的能力的一个很好的方法。比如说你用过一个Model,如果这个Model只是写在你简历上是没有意义的,你这个Model要能够用到工业级别的项目上,面试官会去考察你对Model的理解或者Model使用的一些细节部分。Case Study不管是对BA,DA还是DS的面试都很重要,这一块大家要日渐积累。
数据类背景同学优劣势总结
首先,数据类背景的同学具备比较好的统计知识,也有一定的编程基础,简历上基本都有一些分析项目或者是数据类相关的实习。但是这些同学也有一些劣势,比如说对知识点的理解不透彻,可能面试的时候不能及时作出回应。
编程更多的是靠自学,所以有强有弱,大家很可能无法完成一个1:1的数据分析。新毕业的学生很容易在这点被卡掉,因为公司大部分需要有经验的。Case Study是重难点,但短期之内没办法迅速提高,因此只能多看多积累。
数据类简历诊所
这一部分总结了这份简历的一些问题。这份简历比较好的是有一个Summary,但是没有Github Link,这是比较重要的,有时候面试官可能会看你的Github,所以大家有时间可以在自己的Github和LinkedIn上面写出自己的优势。这位同学的项目对于一个统计背景想找DS工作的人来说太简单了,大家在找Project的时候,可以在Kaggle上面找Data;Project范围是很广的,比如你可以自己设计一个Recommendation Model,数据可以从Amazon的网页寻找,比如你搜集5000个商品,然后把这些商品的评分都记录下来。最后你要想办法设计一个Recommendation。等你做好这个Project后,你可以把所有的Code Push到 Github。Push 到Github之后,你要进行整理,让别人看起来你的Code就像一个Report,里面包括你为什么要做这个Project,你用了什么工具,你的Model是怎么设计的,你解决了什么问题等。
项目是简历考核的核心,除此之外,工业界的Recruiter是不看奖学金的,他们只看你做过什么Project,用过什么工具。
技术类背景如何成为DS
如果你是CS/CE/EE/ME/IE/等等,那就属于技术类背景。
在技能对比方面,我们就不说强的部分了,在中的部分,数学统计大家需要加强准备一下,更多要从面试的角度来准备。跟前面的流程类似,数学统计大家可以找一个白板,你要有条理的Describe一个问题,自己去Practice。你不仅要自己懂,还要讲给别人,这就包含了Communication Skills这个问题。很经典的面试题就是如何跟非专业的人解释专业问题。机器学习的话本来就是技术背景,所以很多计算机专业或Engineer专业的学生都有机会去修相关的一些课程。机器学生在现在的面试过程中难度越来越高,大家一定不能轻视。在Visualization这一部分,很多同学可能没有用过R,Python,这也是不行的。技术类背景的同学不能只停留在Python,Java用的很好的一个基础上,更多的需要你去做分析。但是技术类背景的同学的优势就是技术学习上手比较快,相比商科比较有优势。
在面试这一块,统计概率需要加强练习,R的部分很多Engineer和计算机同学不会接触到,这个没有明确的要求,一般R和Python你会用一种就可以了。同样Case Study也是重难点,这类问题技术类的学生准备起来可能没有太多的Sense,商科学生在这一点比较有优势。
下面是一道简单的面试题,是我们真实遇到过的面试题。有一个Table,这个Table有Content ID,Date,User ID,Content Type和Target ID。每一个都是一个Event。这个面试题要求写一个Query来展示哪一个Post ID被Comment最多次。下面是答案,这题比较复杂。但是你要一步一步解决问题是比较重要的。
技术类背景优劣势总结
这类同学的优势就是编程能力比较强,在后期接触到Analysis Skill的时候上手比较快,数学统计会有一些基础,而且很多同学可能会有数据库类和偏向SDE的项目。劣势是可能Package不是特别熟练,而且需要将Analytics的技能补起来。有很多技术类的同学过不了统计面试这一关,所以还是要多一些训练,像上面我们提到的题多做一做。另外,技术类同学还会缺乏数据分析类项目以及数据分析类实习经历。如果现在没有时间补充这些事情,你可以去Kaggle参加一些竞赛,做一些项目。
技术类简历诊所
大家对于这份简历的第一印象可能就是这个候选人做了很多很多事情,也有很多Projects,但是会给人一种东西太多,信息太多的感觉。如果你的简历内容太多,可能会导致招聘的人没办法集中精神阅读你的简历内容,甚至有些人看到这种简历,就不想再看下去了。
这份简历里面的Professional Experience是指他做了一些Supply Chain的分析,虽然他有做SQL,Query这些事情,但是面试官会更希望看到候选人有没有人建立一些Model,用了Machine Learning等。因为Recruiter更希望看到这些Key Words,所以你要回想一些你做过什么事情,把这些关键词显示出来。
总体来说,这份简历还是很优秀的,但是缺乏一些招聘的人想看的东西。而且最好把你的Skill和Summary写在前面,这样Recruiter第一眼就可以看到你会什么Skill。看到你的Skill里面有Python,R,SQL,他就会有兴趣往下看。简历要按照重要性去写。
技术类背景转DS跟数据类没有太大区别,唯一不同的一点是在找工作的过程中,一定要考虑BIE方向。在校的学生也要抓紧找实习,如果没有就要补项目。
Science类背景如何成为DS
如果你是物理/生物/化学/核能/风能等专业,你就属于Science类背景学生。
专业技能对比
Science类背景学生一般数学统计没有问题,但是编程比较弱,所以需要花很大的精力和时间去学习,千万不能有侥幸的心理。这类同学在数据分析和行业,商业知识这部分都比较缺乏Dominant Knowledge。这一块大家也要尽快补起来。
下面是面试技能对比表。首先,学Science的同学要对自己有信心,因为Machine Learning,AI这些东西最后还是会回归成数学。对于Science专业的同学来说,统计概率没有什么问题,但是Programming,Machine Learning以及算法等东西一定要花时间去准备。
这道题也不是特别复杂,这种题目是属于中等类型。因此,大家要不断地练习写出好质量的Code,这样就面试就很有希望。
Science类背景优劣势总结
这类背景的同学数学统计基础比较好,有过数据分析处理类的经历,但还是缺乏大型数据分析类项目经验。另外,有相关行业的背景利于转行,比如说有些学生是Biology-Statistic专业的,就可以拿到Health Care以及传统生物药厂的面试机会。
Science类简历诊所
这也是一份非常典型的简历,可以看出来这位同学背景非常的强,而且简历内容很丰富。这封简历里面的Projects很接近DS的项目,但是这位同学写了太多内容上去,缺失重点,会导致Recruiter不知道应该看什么。因此,你要根据JD决定放什么内容上去。另外,这份简历里面没有写自己的Github和LinkedIn,虽然同学们在学校里面不经常用,但是Github和LinkedIn是很有用的。如果你有一个Github的账号,那你平时就可以自己做一些Training,你自己就会有自己的Library,这样当你在做Data Challenge的时候,你就可以把你写过的东西应用到你的Code中去。有些公司在面试Onsite环节的时候,可能会给你两个小时,让你在网上做一个Data Analysis,你可以用一切资源,如果你在自己的Github有的话,对你面试很有帮助。除此之外,这位同学在Experience下面都会Highlight,其实这是不用的,你只需要把Key Words融入在里面。Skills这一部分要写在前面。
Science类背景如何成为DS
基本上内容差不多,在校生还是要努力找实习。如果你5月份毕业,还没有拿到Offer就需要加油去参加面试。前期你可以先加一批LinkedIn的学长学姐等,后期再联系。你也可以在LinkedIn参考一下别人是怎么写Projects的。
商科、文科类背景如何成为DS
如果你的专业是MBA/Marketing/Economics/Finance/OR/Education/Psychology等,那你就是商科或者文科类背景学生。
这部分跟前面的也是相似的,但是起点不太一样,所以最好从BA开始,积累经验在往DS方向走。并且如果做BA,跟产品打交道比较多的话,可以直接走PM方向。
商科、文科技能对比
这个类型的同学,我建议你们直接走BA/DA的方向,会相对容易一点。很多同学可能有数据统计的基础,但是文科比较弱;因此后期要加强去准备。在编程语言这部分,很多商科同学学过R或SQL,但真正拿来做项目的还是比较少,尤其是不太清楚整个流程该怎么走,包括对于模型可能没有头绪。因此,你们能做的就是把编程的基础打扎实,觉得自己能力比较强的话可以去Kaggle,能力比较弱的话,可以去上一些课程。
不是说所有的商科都是这样,但大体如下:
这也是一道典型题目,就是想象你是一个Data Scientist在一个Social Network Company,Market Team问你能否预测下一季度哪个Company会愿意付更多的Budget去买你的广告。你就要想建这个Model需要什么样的数据,什么样的Data。建了Model后,你要怎么告诉Market Team说你的Model有什么Impact。这是一个开放的题目,你要自己找Data。如果你在日常生活中多想想,就可能会想到面试的题的答案。
商科、文科技能优劣势总结
文科,商科的同学在Business的Dominant Knowledge比较具有优势,因为商科的同学可以接触到很多商业案例。整体来说,商科同学的语言表达能力和沟通能力都很优秀。但是与数据结合起来的能力还需要提升。不足之处就是数学统计相关背景较弱,编程能力,数据分析的工具使用和分析能力都比较弱,比如一些Model的部分和大数据的框架全都没有接触机会,都要靠自学。因此建议大家先从BA入手,稍微容易一些。
商科、文科简历诊所
这是一份有工作经验的简历,近几年,BA方向的FA和MA招聘信息很多,大家如果是Marketing或Finance方向的可以试一试这两个方向。这位同学的简历写的比较规范,但还是有一些问题。Projects的程度存在问题,这位Candidate做过一些Risk Analysis,这是非常好的。要想办法把这个简历包装成一个DS方向的简历。
PhD简历诊所
这部分比较典型的是Publication,这是大部分PhD都有的。你可以写出来你发表过多少篇Paper,但是你只需要附上2-3篇跟DS相关的。
PhD优劣势总结
大公司会更珍惜你的才华和能力,会愿意花时间让你去学,比如你的教育程度,做Research的能力以及学习能力。小公司会希望你能尽快做事情,而不是培养你。越是大公司,越能给你一个平台发挥自己的能力。劣势是学霸也是一种负担,学了这么久,转行很困难。而且很少有贴合要求的实践经验和项目。但是如果真的要转,要抓紧时间。年纪也是一方面的问题,相比Engineer来说,DS 还好。
求职时间线
下图是一年中的核心时间段。1月是春招开始,现在基本上已经到了春招的尾声了,4月是H1b抽签。对于12月份毕业的同学来讲,找工作压力会非常大,一定要在2月份之前入职,不然可能H1b就无法保证了。另外,近期学生也已经开始准备秋招了,基本上7/8月就开始了,到九月份就开始了正式的大规模的招聘。大家也都知道,秋招是职位最集中的一个部分。
求职准备工作
7月前:LinkedIn加好友求内推。如果是校友的话,内推的几率会比较大,记住要保持礼貌。7月底:准备好简历,你能做的就是项目升级、技术升级、熟记简历项目、面试与拓展。下一个就是准备投递简历,Bit Tiger为大家准备了一个必投公司列表以及投递策略和计划。8月初-12月初:1.大量投递2.继续准备面试3.及时修正策略。比如你海投,收到的回复很少,就需要修改策略,多做项目。
简历准备四大法则
1. 详细阅读Job Description:了解职位工作内容,了解职位需求,了解隐含信息。
2. 突出优势,有所取舍:突出核心优势,突出背景优势,根据JD来做
3. 合理包装简历:Strong Action Verb很重要;3-5个Bullet Point覆盖核心信息
4. 详略得当。
学习路径和方法推荐
上图是针对不同模块的准备方法以及学习的渠道的统计。概率论与数理统计,如果你在学校可以修读这门课程的话,那就抓紧去读;如果不能,可以去参加在线课程以及阅读一些相关的书籍。Coding 需要大家扎扎实实一步一步去学习和提升,并做一些项目。算法可以刷Leetcode Media难度的题。分布式系统像Hadoop、Mapreduce、Hive、Spark等都需要了解。Database主要是SQL, NoSQL不要求会,但如果掌握了是一个加分项。Machine Learning 需要通过上课来促进理解和提升。NLP在项目里比重较大;Project 可以去Kaggle参加一些活动,或者参加BITTIGER的直通车课程。
广告时间:工具不扎实,项目经验不足?三位资深数据科学家将在三个月的高强度冲刺课程中,带领你夯实R和Python等数据科学家核心工具,并且实战工业级端到端项目充实简历,最终达到硅谷一线公司的面试要求。点击阅读原文即可查看。
继续阅读
阅读原文