新智元报道  

来源:reddit
编辑:科雨、白峰
【新智元导读】现在国外现初创公司最频繁使用的机器学习工具是什么?本篇文章详细总结,带你全方位了解,想快速坐上人工智能顺风车的小伙伴们,请抓稳了!
有想法有创意,想快速自行发起项目?还在海量的工具包、软件、平台、库和各种插件上毫无头绪地寻觅?想加入初创公司一展身手,却找不到补课切入点?
苦苦自学却最后发现竟然是冷门技术?总是发愁资料掌握并不齐全?感叹AI实战技术发展太快,自己总是落伍?那这篇文章或许就很适合你!
机器学习工具,初创公司最爱哪款?

近日,Reddit上一则帖子火了:发帖者详细总结了近几年初创公司的机器学习团队在各个环节使用的机器学习工具,从软件开发设置IDE,机器学习框架,到实验管理,可视化工具等等。
评论区也一片火爆,大家纷纷作出补充,极大的丰富了现有最新主流资源。
小伙伴们都知道,挑选最佳的各种工具,为机器学习团队建立起良好的工作栈,对于提高项目工作效率以及按时交付工作来说,非常重要。
如果小伙伴中有人在初创公司工作过,就会对建立起一个可以随团队进步,用户需求来快速发展的机器学习环境有着更加深刻的体会。
这里我们正好为大家做个总结,将当前主流初创公司使用的,前沿的,时兴的各种软件和插件,平台,工具包,算法等等,分享给大家!
为了使结构更加清晰,接下来,我们会将内容分成下面几个主题,一一介绍:
  • 软件开发设置(Software Development Setup)
  • 机器学习框架(Machine Learning Frameworks)
  • 机器学习模型管理(MLOps)
  • 其他
软件开发工具Jupyter最热
相信大家都有这么一种感觉:开发环境是每个团队工作流程的基础,因此,如果能了解在世界范围内,大部分公司认为的最佳工具有哪些,那就最好不过了!

IDE(集成开发环境)

对于集成开发环境(IDE),主要有两个阵营:
1 Jupyter Lab+NB扩展(偶尔带有Neepnote)+Colab
2 Pycharm/VScode
(PS:当然,R Studio显然是R用户的忠实选择)

版本控制(Version Control)

那当然是每个程序员的家园—Github啦哈哈哈!

机器学习语言

经过统计,Python成为了最经常使用的语言,同时,还有一部分开发者在使用R语言~
机器学习经典框架依然受欢迎
面对花样百出,种类繁多的选择,现在海外的主流初创公司最经常使用的机器学习框架和库都有什么呢?

可视化:Pandas+Matplotlib+Plotly

这三个大名鼎鼎的工具包就不需要过多介绍了吧~这些工具可真的称得上机器学习可视化利器了。
除此之外,研究者还经常使用Altair( Python )和Hiplot( R, 超参数可视化 )

经典算法库:Sklearn+XGBoost

这两款机器学习库,包含了初创公司最经常使用的经典算法,也算是爆款工具了。

深度学习:Tensorflow+Keras 或Pytorch

大火的Tensorflow和Pytorch终于出场了~相信任何一个搞深度的朋友都已经无比熟悉了吧。有的时候,在同一家公司的深度学习项目中中,这两种框架会出现同时存在的情况。
在这里,值得注意的是,越来越多的正在更加频繁地使用Pytorch训练库,比如Lightning, Ignite, Catalyst, Fastai和Skorch。
善用编排工具,管理好你的机器学习模型
看到这里,你可能在想:「什么是MLOps」,或者「为什么要关心这个玩意儿??」
其实,这个术语其实在指DevOps,在这里,用来描述用于机器学习活动和操作的工具。
那下面就来看看初创公司到底在用什么工具来进行机器学习的DevOps吧:

编排工具:Kubeflow,Airflow,Amazon Sagemaker,Azure

模型封装&部署:Kubeflow, MLflow, Amazon SageMaker

从训练到推断:Pytest-benchmark, MLperf

当开发人员将训练好的模型用于实际情况下的推断时,就会主要使用这两个工具对模型进行分析和优化。

实验管理:MLflow, Comet, Neptune

为了进行实验跟踪,研究者常常使用这些工具,除此之外,我们还能看到TensorBorad和Scared等等之类的开源软件包。
有小伙伴还在评论里补充了Google Sheet。
整个机器学习流程,还是人最重要

相信上面的很多工具,比如Pytorch和Pandas,Jupyter Lab等等,已经在大家的预期之内了,那在对初创公司的采访中,还有什么在预期之外呢?

Wetware

在我们说这个到底是个啥之前,大家可以往后退一步,跳脱出具体的某个库某个框架,来从大局来看看:
初创公司Trust Insights的Christopher Penn说到,任何机器学习团队都会使用一种相当有趣的“工具”
——"湿件(Wetware)"——它位于您两个耳朵之间,是硬件和软件的组合,这是您拥有的最重要,最有用,最强大的机器学习工具“
到目前为止,太多人们希望AI是一把无所不能的魔杖,在几乎不需要人类输入的情况下,它可以解决一切问题。但是,反之亦然,人工智能比以往任何时候,都需要更多的管理和审查,因为,我们对复杂模型缺乏足够的了解。
在网络上爆发大量关于偏见和歧视的丑闻之后,可解释性是人工智能研究人员当前面临的最大挑战。
人工智能供应商通常专注于模型的事后(post hoc)解释(和具有内在可解释性的模型相比,事后解释就好比先训练一个黑盒模型,比如一个深度网络,然后应用一些可解释的方法,比如度量特征重要性,来作出“解释”),而不是在模型中构建解释和检查点。
所以呢?湿件(Wetare)——也就是人类,将是2020年,以及未来人工智能发展中,最有用的工具。
那直接说“多用脑子”不得了,还发明一个专业名词,果然显得高大上了一些...嗯,硅谷某些初创公司的脑回路就是不一样!
好啦,看到这里,大家还有什么想补充的吗?如果大家还有什么在实操中觉得特别好用的,可以留言评论哦~
继续阅读
阅读原文