对 2018 年 AI 发展预言全中，他们又立了 2019 的 Flag

By 超神经

「对于 2019 年数据科学、机器学习和人工智能，我们做出了 5 个预测。同时还回顾一下去年做的预测，看看有哪些是真的发生了。」

作者：William Vorhies

DataScienceCentral 编辑部主任; Data-Magnum 总裁兼首席数据科学家; EB5C 主席

对去年预测的快速回顾

预测 1：模型制作和数据准备将变的更加自动化。更大的数据科学运营会集成到一个平台上。只需少量的数据科学家就能胜任许多工作。

这个猜对了，随着高级分析平台上端到端的集成，无代码的数据科学正在崛起。

预测 2：数据科学会朝着专业化方向发展，而「全栈」的数据科学家将不复存在。

同样猜对。现在人们对数据工程师的关注度要高于数据科学家。因为数据工程师更加的实用。

预测 3：非数据科学家比数据科学家更能胜任大量而复杂的分析。

事实如此。从 Data Viz 和 Visual Analytics 的流行，就可以看出，非数据科学家从复杂的数据科学工具中获得了更多的价值。

预测 4：深度学习困难重重。没有多少数据科学家熟练能掌握这一领域，这会限制人工智能的应用，除非深度学习平台更加简洁化和产品化。

微软和谷歌都推出了自动深度学习平台，它们从迁移学习开始，朝着完整的 AutoDL （自动机器学习）发展。此外还有一些集成的 AutoDL 平台。比如 one clicks. ai，就有的完整的 AutoML 和 AutoDL 平台。Gartner 最近提名拥有 AutoDL 平台的 DimensionalMechanics 为「五大潮流公司」。

预测 5：尽管被大肆炒作，但人工智能及深入学习的渗透，以及对市场的影响的广度和深度都不尽人意。

除了聊天机器人的快速发展， AI 的应用其实很有限。AI 被吹的有些高了，在实际的公司中，真正用到 AI 和机器学习的比例也很小。

预测 6：公众（和政府）将开始认真研究 AI 的社会和隐私影响。

看看美国政府以及欧盟即的一些动作，就知道这些问题正在受到重视，如加利福尼亚州即将生效的隐私规范，以及澳大利亚的反加密声明。

没有悬念的，我们在去年的 6 个预测全都正确。虽然一些看法在今年依然如此，但我们还是尝试做出更具体一些预测分析。

对 2019 做的预测

预测 1：数据将会比算法更重要

深度学习和经典机器学习算法方面，已有一年多没有较大突破了。使用的是稍作改进时间卷积网（TCNs），代替掉了 RNN 以减少 NLP 的延迟，但丝毫没有创新。好的算法要么早有名气，要么就是能用自动机器学习弄出来。

目前这个时期，拥有大量优质数据是公司实现数字化转型的关键，这同时也衍生出了数据提供方案的竞争和机会，大致有下面几个方向。

第一个方向是如何获得准确标记的训练数据。像 Figure Eight 之类从事标签数据的公司，正在推广具有成本效益的智能策略。比如主动学习就能在标记数据和确保模型精度之间作出最佳选择。

第二个方向是访问第三方数据。像 DymstData 这样的服务公司，已经进入该领域作为数百种附加数据提供清算所。他们还承担着保护敏感 PII 的作用，他们的用户可以强制执行角色访问某些敏感信息，这对金融和医疗服务中尤为重要。

第三个方向是自动跟踪并记录模型中数据的来源。特别是由多个来源的流数据被集成，而且实时变化时，知道数据来源以及如何使用它，是很重要的一个方面。Tibco 和其他一些分析平台正在整合此项功能。

预测2：随着 AI / ML 将分析平台移至行业或流程特定程序，一切将变得更容易。

纵览 AI / ML 的创业公司，可以看出竞争正在转向行业或特定的程序。这些程序或迷你平台，是专注于解决各种业务中的行业特定问题，如营销，B2B 销售，医疗保健，金融科技以及其他定义的分组。

这些新应用程序专注于嵌入 AI / ML ，从而在企业更新时，不需要大型内部数据科学家组的支持，只依赖这些开发人员。

有人称这为AI / ML的商品化，但更准确地说，这是 AI / ML 的专业化。

这样的转型，就像是 90 年代后期，从流程改造（Reengineering）到企业资源规划（ ERPs ）的转变。当时 Reengineering 呼吁公司使用复杂的定制开发 IT 解决方案来改进流程，这为 Oracle，PeopleSoft，SAP 等主要集成 ERP 以及 CRM 等企业打开了大门。

新的供应商都致力于在他们的特定市场中提供广泛的解决方案，但不可避免地最终得出 ERP 规模较小的平台。

另外还要关注那些没有大型数据科学团队，或完全依赖定制开发模型的中型和小型公司，注意它们加快 AI / ML 采用率的问题。

预测3：数据工程师和数据分析师的崛起

这不是说世界已经放弃了数据科学家。还需要一个过程。但当你缺乏某些技能时，市场会以不同的方式填补这种空白。

一种方法是通过上面讨论过的行业和流程特定的智能应用，这些应用程序不需要大量的内部数据科学家。

第二种方法是迅速出现的自动机器学习（ AML ）平台。这在数据科学中更高效，意味着更少的数据科学家可以完成许多工作。

由于模型的数量没有减少，反而增加了，这会将工作担子转移给那些具备两方面技能的数据工程师。

首先，他能够创建数据科学所需的基础架构，如数据湖和 Spark 实例。

其次是采用模型，并确保它们在操作系统中实现，并跟踪准确性和刷新。

有一些数据工程师还要负责数据操作，确保数据流的清洁和预处理。