Data Scientist有哪些职责?
首先,Data Scientist永远在问问题,他不仅要问我们要解决什么问题,还要问我们知道什么,我们不知道什么,我们想知道什么,要弄清楚数据到底包含了哪些信息,不包含哪些信息。为了寻找这些问题的答案,Data Scientist会提出假设,并利用数据来检验假设。然后会做数据的处理工作,包括scrape、munge、clean data等等。然后还包括一些探索数据等具有创造性的工作,用数据进行建模,理解数据之间的关系。最后,通过前面的工作,构建Data Product,并做一些如产出报告等与Business相关的工作。
在这些工作职责中,很重要的一点是构建Data Product,什么是Data Product呢?就是以数据为核心的Product。以下为它的工作流程。
首先我们要从不同的来源找到数据,清理数据(包括处理missing data, type casting等),再把处理好的数据再存储起来,然后还要做一些Analytics的工作,如找出数据中有没有一些patterns,features,解读数据包含的信息。有了前面工作的基础,我们对数据就有了一定的把握,下一步就是Modeling和Reporting。建立了许多Model后,不仅可以帮助我们做Reporting,很多时候这些Model也会部署到我们的生产线里,同时还涉及到两个问题,一是可以把这些Model存储在哪里,二是这些Model怎样部署到我们的Application中去,解决这些问题后,我们就可以用Application处理新的输入数据,有了新的数据后,可以返回从头走一遍流程,帮助我们完善整个流程。
Data Scientist的工作流程是怎样的?
这与Data Product是紧密相连的,首先确定目标并收集数据,从日志中载入数据,做Sanity check,看数据正不正确,有没有缺失值,数据中的敏感信息有没有被抹掉,然后做一些数据的探索与分析,然后把数据的Feature包装整合成能被Machine learning模型利用的Feature,选取Feature并构建模型,产生输出数据,通过输出的数据做模型评估,最终把结果可视化出来。
Data Scientist需要六大技能有哪些?
不同技能的组合能做不同的事情,产生不同的商业价值。如下图所示:
例如,如果你精于Storytelling和Data Visualizaiton,你更擅长于Deliver Business Insights。如果我们把六大技能以这样的方式横向展现出来,可以发现,Data Scientist的技能是有一些侧重点的,越偏左的技能越偏business而越偏右边的技能越偏Engineering。
现在工业界更喜欢T-shaped skill set,如果一位Data Scientist对各个领域的知识有广泛的了解,同时又在一个小范围的领域有非常深入的了解,那这就是一般的大小公司希望找的Data Scientist。
如何成为一个Data Scientist呢?
建议从三方面入手:
Master the fundamentals
掌握基础知识,主要侧重于数学和统计,具体来看,包括以下重点知识点:
Learn the tools of the trade
尽力去学习现在比较流行的工具与语言,比如Python和R这种有强大语言包的语言。这些语言与工具可以分为两大类:
一类是Python,  R,  Julia这种比较high level的语言,好处是编写起来很快,容易上手,有强大的语言包,可以迅速实现一个模型去解决一个问题,很适合我们做Prototyping。同时,如果我们想把产品部署到生产线里去,那么就需要掌握lower level的语言,比如Java, Scala, C++/Go。
有了通用语言以后,我们还得学Machine Learning与Software Engineer中的知识,重点的知识点如下图:
我们不需要学特别深的Machine Learning算法,但我们需要掌握一些非常基础与经典的模型,主要包括Regression, Classification等等,我们还要掌握怎样判断一个模型的好坏,以及不同模型之间的比较。在Software Engineer领域,算法、数据结构等是比较重要的。
Improve your own expertise
有些人喜欢在简历里写自己的兴趣爱好与课余活动,其实这是体现Domain Expertise的一个方法。假如你是学机械或其他专业出身的,那么你就可以improve your own expertise,成为Domain Expertise,与机械相关的课程与项目,就可以成为你步入机械行业的Data Scientist的切入点。
数据科学家要求的知识与技能非常全面。BitTiger再次推出权威课程【数据科学家直通车】,助你事半功倍成为顶尖数据科学家,并与与未来顶尖数据科学家为伍,冲刺百万美元奖金。
课程目标
三个月学习,硅谷一线资深数据科学家带路,基础知识+项目经验,将学员能力提升到工业界水平,成为数据科学家。
课程安排
第一阶段 R的知识梳理与项目实战
  • 以Zillow在Kaggle上奖金为1.2M的home value prediction project为例,详解在面试以及实际工作中最需要理解掌握的知识点,涵盖统计学(statistic)和机器学习major supervised machine learning模型内容。丰富简历的同时,可以努力成为top100 performer争取第二轮的比赛资格。
  • 提前感受Data Scientist的work routine,例如面对最初大量房子的原始数据,如何开展,如何理解数据,从而有效提取有predictive的feature,并建立price prediction模型。
第二阶段 Python的知识梳理与项目实战
  • 以Yelp dataset challenge开放实战挑战为例,围绕dataset提出有商业价值的data science 问题,并开发出相应解决方案。
  • 从structured & unstructured data中提取信息,运用包括Natural Language Processing在内的方法,对dataset进行深度挖掘。从而建立clustering model,ranking system,及recommendation system等各种data products。
第三阶段 Capstone Project+面试辅导
  • Facebook与Microsoft等硅谷大牛分享知名互联网公司的工作经历与career path的心得,并从他们当面试官的角度讲解备战名师秘籍。
  • 提供备选项目与dataset,由学生自主选择。跟进学生在项目中需要用到的技术类别分组,在老师的指导下完成项目。
Capstone Project项目简介:
涵盖IT, Health, Finance等方向,满足学生多方面的发展需求。
  • 从海量airbnb数据集中分析用户行为,预测租赁价格,挖掘潜在商机
  • 通过用户的APP下载行为判断其成为VIP service purchaser的可能性
  • Smarking - Parking Prediction
  • Breast Cancer Wisconsin (Diagnostic) Data Set - 预测Breast Cancer是良性还是恶性
  • Two Sigma Financial Modeling Challenge - 在充满不确定性的世界中预测揭示经济动向
课程亮点
  • 夯实的基础知识学习:三个月掌握R、Python,夯实统计基础,系统掌握数据科学家核心技术需求
  • 工业级项目经验和成果展示:Hands-on的项目经验是技术人才求职中,无论简历筛选还是面试过程,最大的影响因素。课程中,学员将通过完整的系统设计,最终实现一个工业级的深度学习系统。成果展示阶段,更有硅谷一线公司manager现场评估。
  • 理论课+实战课+Codelab的教学模式:每周课程,都在理论讲解课和代码实战课的基础上,再设codelab课,有针对性地为学员答疑解惑,拓展延伸。 
  • 专业求职指导和独家面试题精讲:为学员提供顶级公司面试官的职场经验分享和面试冲刺辅导。提供专属简历修改和30分钟Flag级模拟面试。同时,优秀学员将获得工作内推机会。
  • 强大的内部学习资源库自由使用:课程期间,学员可以随时访问BitTiger独家海量原创视频库,包括40小时内部拓展教程(R, SQL, Hadoop, MapReduce, Hive, NoSQL, Tableau, DS/DA面试专题)、硅谷之路视频和面试指导视频等。
顶尖教师团队
主讲教师
Ella
Data Scientist @ Google
USC PhD,本科毕业于清华大学。现就职于Google,主要负责涉及不同类型的广告评估和投放。曾任职于微软一年做Data Scientist。
Stone
Machine Learning Engineer @ Splunk
George Washington University PhD,现就职于Splunk Machine Learning Team,负责Data Science Application的研发。曾在加州知名Data Bootcamp任教。
John
Principal Data Scientist @ Walmartlabs
精通机器学习和统计建模,在多个垂直领域有丰富的经验和深刻的见解,例如 ecommerce, recommendation, search, relevance, customer acquisition and retention, CTR and conversion modeling, Ad bidding, financial risk modeling, fraud detection, NLP and text mining。曾经就职于FinTech初创公司,和大数据咨询公司。在布朗大学获得博士学位,并在MIT从事两年的博士后研究。
往期学员课程评价
Stone老师很负责,很认真,很耐心,课件准备充足,使得课程内容充实有效率。学到了很多基础而核心的内容。
—— Jason Li
我能感觉到技术给这个世界带来的巨变,编程逐渐变成必须技能,数据科学可以在任何行业得到运用。可是,因为我们处于这个变化中,非CS本科出身的人,若想进入这个领域,并看到尖端的技术,壁垒是很高的。BitTiger的讲座,视频,课程,我感觉是在level the playground,很感激你们在做这样的事情。
——Lily Zhang
Stone老师实在太感谢你了!超级有耐心温柔!帮助了我找回学习的信心和动力。
——Yiqi Fan
学员成功案例
报名第一节课程(免费)
复制链接或点击“阅读全文”查看课程主页
https://www.bittiger.io/livecourses/ucKPDq6SXbv7694e4
滑到页面下方,即可看到“第一节课报名方式”
课程咨询及报名申请流程
将简历发送至[email protected] 邮件主题请设置为“数据科学家直通车”
内容包括
  • 你的简历
  • 你的微信ID
  • 为什么想参加此门课程
我们课程组老师会在收到简历后24小时内进行简历背景评估,并电话回访提供职业指导
查看详细课程大纲,公众号后台回复“DS501”
继续阅读
阅读原文