数据科学家这一岗位,曾被 Harvard Business Review 杂志誉为“The Sexiest Job of the 21st Century”
啧啧,21世纪最性感的职位,听起来就很炫酷有没有?
那么作为21世纪最性感的职位,数据科学家的一天到底是怎样度过的呢?工作内容是不是也很性感?
实际上,每个数据科学家每天工作的具体流程可能有所不同,但大多离不开以下几个环节:
  • 每日汇报(Daily Standup)
  • 任务管理(Task Management)
  • 代码审查(Code Review)
  • 建模流程(Model Process)
今天就带大家近距离看看,坐标德州的一位数据科学家小A在疫情期间WFH的平平无奇的一天
8:00
第一个闹铃响了。小A从睡梦中醒来,按停闹铃,揉了揉惺忪的睡眼。嗯,还早,再眯一会……
8:25
第二个闹铃响了。小A再一次醒来,在床上沉思(躺平)三秒,一鼓作气,为了梦想(饭碗)艰难起床
8:30——9:00洗漱,早餐。

9:00——9:30
小A端着一杯咖啡坐在电脑前,进入工作状态。在小A看来,守时是一个数据科学家必备的基本美德。利用每天会议前的半小时,小A先查看邮箱是否有新的邮件,又看看work chat里有没有同事@自己,并一一回复。
9:30——10:00 Daily standup
点开视频会议链接前30秒,小A不忘抓起椅子上的帽衫披上,盖住皱皱巴巴的睡衣领子顺便用手指理了理那桀骜不驯的发型。小A深知,对参会者只露出肩膀以上部位的视频会议而言,发型是他作为一个数据科学家最后的倔强。
About Daily Standup
这几乎是每个科技公司都会有的环节。通常在早上进行,团队成员会围成一团,一个接着一个回答三个主要问题。这个环节的目的是让团队的每个人“on the same page”。这是一个非常有效率的方式,可以尽快了解对每个人的工作进度和工作重点,也是团队成员提出问题、并且采取行动解决方案的有效方式。
一般此环节中的3个主要问题是:
  • What did you work on last?
  • What are you working on today?
  • Do you have any blockers?
团队成员轮流发言介绍前一天的工作和当天的工作计划。轮到小A时,小A表示,“昨天我主要在调集成机器学习模型的参数”。
虽然只是轻描淡写的一句话,但小A的内心潜台词是“昨天我可是试错了五十多遍才调出来,可把我厉害坏了,差点吐血。”
“接下来,我会把这些结果统计出来。并且归纳出我调整的所有参数的预测变化及其各自准确性之间的差异。”小A也说了接下来的工作计划。
10:30——12:00 工作中
“叮咚”,邮件提示有人发来了新的Ticket,小A打开Jira平台
About  Jira
Jira是一个任务管理工作平台是各个科技公司最常用的平台之一。有些公司不使用Jira,但也会有类似Jira这样的任务管理工作平台。
Sprint是指团队完成一定数量工作所需的短暂、固定的周期。
Jira的工作原理是显示用户的Sprints(通常为一到两周),并根据它们在数据科学过程中的位置对这些任务进行分组。
在Jira这样的平台中,用户可以创建Ticket。Ticket本质上是描述一个问题或一个请求等,Ticket往往带有一些描述性的话语即“comment”。
根据完成任务的难度或预计完成的时间,用户可以填写story points,以便其他团队成员知道你完成某个任务所需要的天数。此外Ticket还可以进一步进行细分成多个任务。
小A研究了一下这个最新Ticket的任务描述:嗯,需求很清楚,又瞅了一眼优先级显示是“紧急(urgent)”。小A二话不说,开始埋头干活。
这是个机器学习相关的任务,小A首先需要选择一个模型。
数据科学家的典型建模流程如下:
向上滑动阅览
1、发现问题(Business Problem Statement)
有什么问题产生,数据科学可以如何解决?有哪些手动流程的部分是我们可以让它自动化的?
2、需求收集(Requirements Gathering)
这个项目什么时候截止?哪些人会参与?想要什么可交付成果?结果是否需要每天、每周或每月更新?
3、获取数据(Data Location)
数据在哪里?是否需要访问 API 以获取更多数据?这些数据是否已经在本地数据库中了?
4、探索性数据分析(Exploratory Data Analysis) 
分布是什么样的?是否存在数据丢失?已经有足够的数据吗?还需要再观察多一些吗?
5、特征工程(Feature Engineering)
哪些特征很重要?哪些是多余的?是否需要查看相关性/多重共线性?
6、基础模型(Base Model)
需要一个用 Python 写的通用算法还是一个实际的分类模型?什么是最小可行产品?
7、最终模型(Final Model)
需要多个模型吗?有些模型比其他模型更好吗?将使用哪些成功指标?为什么?
8、模型迭代(Model Iterations)
需要调整参数吗?以前的结果看起来不对吗?可以让模型训练更快更省钱吗?
9、结果输出(Result Output)
输出结果是什么样的?是应该输出到一个CSV文件还是插入到 SQL 数据库中?
10、结果解释(Explanation of Results)
如何向别人解释你的模型和结果?将使用什么可视化工具或平台?
通过研究,小A选择了一个比较主流的模型,开始准备数据。
12:00 门铃响,外卖到。
12:00到13:00是公司的午餐时间。疫情期间公司特意组织了线上午餐会,大家可以一边吃饭一边和组里的同事聊天,相当于一场为期1小时的在线吃播大会。小A默默地怀念起和同事一起在公司食堂闲(tu)聊(cao)的悠闲午餐时间了。
13:00——13:30 午觉
结束了午餐,小A习惯性午睡一会。对于数据科学家这种高强度脑力工作而言,适当的休息,才能保证有充沛的精力应对下午的工作。
13:30——17:00 继续工作
结束午休,小A精神抖擞地重回电脑前,继续上午的工作任务。中途喝了个快乐水补充能量,此时系统提示有封新邮件,“Somebody in your team just submitted a code change and needs you to review.”
About Code Review
不要小看代码审查,代码审查是对每一个数据科学团队而言都是十分重要的环节。大多数公司是让团队成员利用GitHub平台做代码更改的审查。也有一些公司会让团队成员通过视频会议,共享他们的屏幕和代码来做代码审查。代码审查有助于确保团队的每个成员都能及时了解代码发生了更改。
代码审查的好处有:
  • 团队成员可以“on the same page”
  • 确保代码正确
  • 确保代码高效
  • 便于团队合作迸发出新的火花
  • 帮助自己更好地了解所写的代码
小A认真地审核同事的代码 ,做了一些运行测试,找到了几个 bug, 并一一标注。
17:00——18:00
处理了几个紧急任务之后,小A终于有时间开始统计前一天模型训练的结果。今天的突发任务比较多,看来统计工作是做不完了,那么明天再接着统计吧。
18:00 收工!
下班前,小A再看了一眼邮件和work chat,确保最后时刻没有落下什么工作,收工!
一个数据科学家的一天,就这么愉快地划上了句号。
看完了数据科学家小A的一天,你对这个岗位是否有了进一步的了解呢?

实际上,数据科学家的工作是在数据的海洋中寻找答案,数据是他们浏览周围世界的首选方法。他们能够对大量看似杂乱无章的数据进行分析,得出意想不到的结果。
数据科学家的重要性也不言而喻,他们可以帮助决策者从简单的临时分析转变为与数据的持续对话,从而帮助他们做出更好的决定。
一个成功的数据科学家,需要集多种技能于一身。可以说是数据专家、分析师、沟通者和顾问的混合体。
大概,这些就是这个岗位的“性感”魅力所在吧。
想获得更多数据科学家岗位的信息?
想了解什么背景的人适合数据岗的工作?
想知道Data面试要掌握哪些技术栈和知识点?
那就千万不要错过
资深数据岗面试官Logan老师
美西时间6月10日5PM线上直播
带你解读2021年北美数据岗面试趋势!
👇👇👇
扫描上方海报二维码

或联系任一已添加顾问报名
讲座主题
2021年北美数据岗职业规划&面试攻略
主讲人
Logan老师
现任知名流媒体公司Senior Machine Learning Engineer、面试官,曾任职于Apple,专攻Fraud Detection领域。
讲座时间
美西时间 6月10日 周四 5PM
美东时间 6月10日 周四 8PM
北京时间 6月11日 周五 8AM
讲座大纲
  • 什么背景的同学适合数据岗的工作
  • 2021年北美Data岗招聘趋势有哪些
  • Data面试要掌握的技术栈和知识点
  • 科技公司的面试流程考点范例剖析
参与方式
扫描下方二维码
或联系任意已添加顾问报名
第272周
最新Offer榜
向上滑动阅览

疫情期间,来Offer的学员也offer不断!
查看完整offer榜,请前往www.laioffer.com
求职,你只需要一门课程。
内容编辑:Connie
责任编辑:荨麻籽
继续阅读
阅读原文