趣味机器学习入门小项目(附教程与数据)
微信公众号
关键字全网搜索最新排名
【机器学习算法】:排名第一
【机器学习】:排名第一
【Python】:排名第三
【算法】:排名第四
没有任何理论可以代替实践,虽然教材和课程能让你掌握一些基本原理,但在尝试应用时,你会发现具体操作起来比较困难。因此项目有助于提高应用机器学习的技巧,此外在找工作中也会给自己增添一些筹码。
这个项目的目标是将现成模型应用到不同的数据集。首先,你会根据直觉为问题找到对应的模型,实践检验该模型是否对数据丢失具有鲁棒性、是否适合处理哪种类别特征;其次,本项目将教会你快速设计初始模型的技能,在实际应用中,我们一般会先找到一个简单模型进行快速实现以确定一个baseline,逐步提升模型性能,而不是一蹴而就的完成;最后,这个练习可以帮助你掌握建模的流程。下面我里除了一个机器学习问题处理的通用性步骤例如:
- 导入数据
- 数据清洗
- 将数据集拆成训练/测试或交叉验证集
- 预处理
- 变换
- 特征工程
因为使用现成的模型,这促使你有更多的机会专注于学习上述的这些关键步骤,通过以下教程可以练习回归、分类和聚类算法。
首先介绍一下该项目中所使用到的数据源:
- UCI机器学习库——350多个可检索数据集,几乎涵盖每一个主题。http://archive.ics.uci.edu/ml/
- Kaggle数据集——Kaggle社区上的100多个数据集。https://www.kaggle.com/datasets
- Data.gov——由美国政府发布的开放数据集。https://www.data.gov/
其次是教程,项目中的模型使用Python的第三方库Scikit-learn进行快速实现,需要了解scikit-learn的安装以及使用方法(参考官方手册),具体如下:
- Python:sklearn——sklearn数据包官方教程http://scikit-learn.org/stable/tutorial/
- 中文教程手册:http://cwiki.apachecn.org/pages/viewpage.action?pageId=10030179
- Scikit Learn预测葡萄酒质量——用于训练机器学习模型的分步教程http://elitedatascience.com/python-machine-learning-tutorial-scikit-learn
阅读原文
最新评论
推荐文章
作者最新文章
你可能感兴趣的文章
Copyright Disclaimer: The copyright of contents (including texts, images, videos and audios) posted above belong to the User who shared or the third-party website which the User shared from. If you found your copyright have been infringed, please send a DMCA takedown notice to [email protected]. For more detail of the source, please click on the button "Read Original Post" below. For other communications, please send to [email protected].
版权声明:以上内容为用户推荐收藏至CareerEngine平台,其内容(含文字、图片、视频、音频等)及知识版权均属用户或用户转发自的第三方网站,如涉嫌侵权,请通知[email protected]进行信息删除。如需查看信息来源,请点击“查看原文”。如需洽谈其它事宜,请联系[email protected]。
版权声明:以上内容为用户推荐收藏至CareerEngine平台,其内容(含文字、图片、视频、音频等)及知识版权均属用户或用户转发自的第三方网站,如涉嫌侵权,请通知[email protected]进行信息删除。如需查看信息来源,请点击“查看原文”。如需洽谈其它事宜,请联系[email protected]。