人人都知道数据科学家是21世纪最性感的职业,但是数据科学家每天具体在做什么呢?最近,HBR采访了35位数据科学家,让我们一起来看看他们的答案。本文的原文链接你可以在文章底部看到。
现代数据科学是由各式各样的科技需求催生出来的。而如今,无论是Google搜索排名、LinkedIn好友推荐的最优化,还是Buzzfeed编辑们的头条遴选,其背后无一不是仰仗了数据科学的力量。这门科学的影响力遍布各个行业——从零售、电信、农业,到保健、货运,甚至刑罚制度的制定,数据科学势必会彻头彻尾地颠覆我们生活的方方面面。然而即便如此,人们对“数据科学”和“数据科学家”这两个词儿似乎仍然不甚理解,常常将其误用来代指一系列与数据相关的工作。
数据科学确实是一门涉及了诸多领域的学问。数据科学家们也都各自从不同的角度解答了我的提问。他们所提到的工作内容非常多,具体举几个例子来说,有的人在booking.com和Etsy做大型在线实验性框架,有的人在通过bandit算法为Buzzfeed做头条优化,有的人则在运用机器学习帮助Airbnb做商业决策……数据科学有无数种应用场景。即使是在同一行业内,它也能因业务的不同、目标的不同而演变出完全不同的花样来。
尽管其工作内容截然不同,但在与数据科学家们的对话中,我发现他们几乎都对某些话题有着一定的共识,具体如下:
很多人现在都已经基本了解数据科学是做什么的了,当然这其中,科技行业中的应用尤其为人们所熟知。具体而言,数据科学家们首先会建立起一个用于分析的数据基础。其次,他们会通过在线实验等各式各样的方法来实现可持续增长。最后,他们会打造出一系列的机器学习管道或数据产品,帮助人们更好地理解自己的行业和自己的顾客,并继而做出更好的决策。换句话说,科技行业中的数据科学主要做的是测试、基础建设、数据产品,以及通过机器学习来辅助决策等。
科技之外的其他行业也在数据科学的帮助下取得了极大进步。Ben Skrainka是一名来自货运初创公司Convoy的数据科学家,他在采访中向我们讲述了Convoy运用数据科学颠覆北美货运行业的故事;来自医疗大数据独角兽Flatiron Health的Sandy Griffith,则同样向我们描述了数据科学给癌症研究带来的巨大影响;现担任Uber无人车项目领头人的Mike Tamir,还曾在星巴克做过推荐系统的设计……这样的例子可以无穷无尽地举下去。由此可见,数据科学业已在诸多行业做出了改革性的贡献。
业界对数据科学家的要求是在不断演变的(而对深度学习的掌握甚至并不是这些要求中最重要的)。Jonathan Nolis是西雅图地区的一位数据科学专家,专门为财富500强企业提供相关服务。在与他进行对话时,我提出了一个问题:“对数据科学家来说,会运用最成熟的深度学习模型和会做漂亮的幻灯片这两种能力,哪个更重要?”Nolis的回答是后者,因为在他看来,结果的呈现是数据工作中极为关键的一部分。
更进一步来说,那些在今天被视为必需的技能,可能很快也会成为非必需。如今,数据科学家们不仅可以通过开源生态系统获取工具,还可以购买大量已经商业化、产品化的数据科学工具,这些工具大大减少了其工作量。此外,数据科学工作中许多基础的、重复的工作,诸如数据清理、数据整理等,也都已经被自动化取代。业内人就常开玩笑说,数据科学家80%的珍贵时间都花在了查找、清理和整理数据上,真正在做分析的只有剩下的那20%而已。
自动化的步伐带走的不仅仅是那些耗时费力的基础工作。在与Life Epigenetics首席数据科学家Randal Olson的对话中,我们还认识到,现如今甚至有大量机器学习和深度学习工作都已经走向了自动化。
这种飞速的变化也使得数据科学家们意识到,对他们来说,最重要的技能并不是深度学习基础架构的搭建和运用能力,而是如何在工作中不断学习、如何通过良好的沟通解答商业问题、如何向不懂技术的门外汉们解释复杂的数据结果。真正有志向、有远见的数据科学家,不应当将自己的全部精力都投入到技术上,而是应该更多地去关注那些需要解决的问题。技术是会不断更迭的,但批判性的思考和特定领域的素养则永远都会是一名优秀数据科学家的必需品。
数据科学正在走向专业化。虽然这个行业已经经历了多年的发展,但数据科学家们似乎都还没有一个明确的职业道路,且在上岗之初普遍缺乏引导与外部支持。尽管如此,数据科学行业却很快走向了专业化。根据Emily Robinson的说法,数据科学家可以分为两类:“第一类是做分析的,类似于传统的那种统计学家;第二类则更多是做机器学习模型的搭建。”
Jonathan Nolis则将数据科学的工作划分成了三块:
商业智能
这一块主要做的是“收集公司已有的数据,并将其呈现给对应的人群”。呈现的形式可以使dashboard、报告、邮件等;
决策科学
这一块的主要内容则是“通过收集信息来帮助公司作出决策”;
机器学习
最后这块研究的则是“如何搭建出数据科学模型,并将其投入持续运作”。尽管如今的数据科学家三个领域的工作都会做,但工作内容的分化正在慢慢显现出来。在将来,数据科学家们将会步机器学习工程师们的后尘,逐渐走向专业分工。
道德问题是数据科学行业面临的最大挑战之一。正如大多数人所料想的那样,数据科学家们的工作有着大量的不确定性。当我在采访中问到,这个行业除了伦理问题还面临哪些挑战的时候,Hilary Mason的回答是:“道德标准模糊、行为准则缺失、统一术语匮乏……眼前的这些挑战难道还不够我们担心的吗?”
Hilary提到的这三点都是不容忽视的问题。其中的前两点则更是此次采访对象们担忧的焦点。如果有一天,我们和世界的所有交互都被数据科学家开发出来的算法所支配,那道德又该放在什么位置呢? 对此,GitHub机器学习数据科学家Omoju Miller还在采访中表示:
我们需要通过训练形成道德上的共识,甚至是可以设置一个类似希波克拉底誓言的东西。我们还应该有从业执照,这样如果你做了什么违反道德的事儿,就会相应地受到撤销执照之类的惩罚。违反道德的人还应当接受改造教育,让他们知道在这个行业哪些事情是不能做的,也让那些未经培训而走歪了路的人有一个自我改过的机会。
数据科学的确有可能会带来严重的、有害的、不道德的结果,这也是我们本次采访中多次出现的话题。著名的再犯风险评估软件COMPAS就是这样一个例子。据非营利新闻机构ProPublica报道,这个数据分析软件曾被用于“预测全美范围内可能出现的未来罪犯”,但讽刺的是,系统中黑人被算法标记为会成为再犯的风险远高于白人——这竟然是一套存在种族偏见的算法。
如今人们正在达成的一项共识是,业界道德标准的制定需要多方人士的共同参与,包括数据科学从业者、立法者、草根运动代表以及其他众多的利益相关人。在这项推动道德标准制定的运动中,人们再次突出强调了模型要具备“可解释性”。换句话说,搭建模型要有一个基本要求,即我们要能够解释这个模型做出预测时其背后的逻辑。深度学习模型的确能帮我们做成很多事儿,但它却往往存在一个重大的问题,即“不可解释性”。令人欣慰的是,经过许多研究者、开发员和数据科学家的努力,我们已经在解释机器学习模型的道路上取得了进展。数个月前提出的Lime就是这样一个试图解释模型预测行为的方法。
总体而言,各行各业的数据科学革命才刚刚开始。数据科学家是否仍能保持“21世纪最性感工作”的地位、是否会更加专业化、是否会形成一套既定的技能要求……这些都尚是变数。正如Hilary Mason所说:“十年后世界上真的还会有数据科学吗? 在我有限的记忆中,数据科学就曾是不存在的。所以如果有一天,你告诉我我们的职业都会变成网管,估计我也不会那么吃惊吧。”
原文地址:
https://hbr.org/2018/08/what-data-scientists-really-do-according-to-35-data-scientists
继续阅读
阅读原文