一直以来有人问:“ 数据分析 VS 数据挖掘 VS 数据科学家,它们到底有什么不同?入行大数据的话该怎么选?” 估计 90% 程序员,包括一些数据相关工作的⼩伙伴,都给不出准确回答。最近整理了这张对比长图,来回答这个问题!PS. 被问次数太多了,实属无奈


概括一下,逼格满满的数据科学家人群最少,要求和限制因素也最多。适合人群更广的数据分析和数据挖掘,这两个工种的差异如下。
从要求来讲:数据挖掘偏技术,数据分析偏业务;
从能力来讲:数据挖掘需要专精技术,数据分析要求综合素质。

下面这张图清晰展示了它们
发展方向间的关系



那么入行大数据,该选数据挖掘还是数据分析呢?(这两个职业同样为公司创造价值)最重要的一个因素是:看哪个职位与自己的性格、喜好比较匹配。如果对业务、商业模式感兴趣,强项在为人处事方面,数据分析显然是优先选择。

对于多数程序员来说,数据挖掘则是更优选。因为自身性格相对内敛,喜欢钻研技术,不太喜欢天天和业务打交道,做数据挖掘是在擅长的方面发力会更顺畅。当然,下面这些情况的人做技术向的数据挖掘更有优势:
研发部⻔谋求转型的开发⼈员;
计算机相关专业以及数统相关专业毕业⼈员;

专注于从事数据相关⼯作、谋求技能提升、岗位晋升以及跨⽅向发展的人。

从目前的市场来看,数据挖掘的薪资比数据分析高一些。原因很简单,数据挖掘工程师或算法工程师有较高技术门槛,不懂模型和编程,简历关都过不了,某些情况下还需要项目和学术背景。加上大多数互联网企业都是 “先工程后分析” 的流程,数据挖掘工程师的需求更迫切,薪资也最舍得给。

较高技术门槛,也意味着入门数据挖掘并不轻松。不仅要掌握一门编程语言,如 Python /Java、C / C++ ,还需要会 Hadoop,HIVE,SQL数据库操作掌握数据挖掘和机器学习的基础知识和算法特征工程的基础知识了解统计学的时间序列模型,变量的相关系数,ROC和AUC曲线,交叉验证,主成分分析
......想想就是个大的学习工程。


对急于了解大数据挖掘的你,这套硬核课程也许是及时雨。开课吧的《数据挖掘算法精讲》专题课,48 h 内免费领( 领了之后有效学习期限 7 天,抓紧看!这也为了筛选伸手党~)专题课细致解析了大厂算法工程师/数据挖掘工程师必知必会的高频算法知识点如下:
《数据挖掘高频算法精讲》


Part 1   数据挖掘概论与实践
1. 数据挖掘概念与技术
2. 数据挖掘算法类型
3. 密度聚类案例实践之中国城市群划分
Part 2   特征工程与模型选择 / 文本分类
1. 如何对文本数据进行预处理
2. 如何对文本统计,生成词云图
3. 如何对文本数据进行特征选择
4. 如何根据文本内容进行分类


Part 3   逻辑回归算法
1. 逻辑回归的算法原理是怎样的
2. 如何绘制逻辑回归的决策边界
3. 逻辑回归的局限,以及如何解决
4. 逻辑回归如何进行多分类
5. 怎样解决样本不均衡问题


Part 4   
数据挖掘之 Decision Tree 算法

( 12 月 3 日即将开讲,不要错过 1. 《信息论》熵、联合熵和条件熵的推导
熵与 Log、概率的关系;
《信息论》— 香农;
条件熵、联合熵的推导过程;2. 决策树算法的树流程的构造
决策树算法的树结构生长过程与特征选择
决策树算法的叶子节点个数与权重系数3.  ID 3 ( 信息增益 )
推导DT的目标函数信息增益(ID3)
g(D,A) = H(D) - H(D|A) 本质上是互信息4. 由 ID 3 推广出来的 C4.5 和 Gini 系数
由 ID3 推广出的 C4.5 系数
由 ID3 推广出的基尼系数
5. 案例实战:利用 Python 的Scikit - learn

的 5 步建模过程(伪代码)
长按扫码添加微信
50名可获得课件资料, 仅限48h
小助理为手动操作请大家耐心等待,会一一通过申请

福利由开课吧赞助支持,特此感谢。


开课吧 邀请 
资深数据科学家 巴川打磨了《大数据挖掘高级工程师》付费系统课程,深度对标阿里P7,帮大家顺利走上大数据挖掘之路。下一期课程即将开课,感兴趣的读者可以添加小助理微信咨询。
巴川:中国教育创新校企联盟首席数据科学家、专家委员会副主任,中国计算机学会技术前线委员会(CCF TF)数据科学研讨会主席,国家技术标准创新基地(贵州大数据)数字经济专业委员会专家,北航、西安交大、人大、对外经贸、武大等多所高校客座教师,既精通数据挖掘理论又有着丰富的企业实战经历。
开 课 吧
开课吧是行业首家集齐百度、滴滴、阿里、微软、创新工场等知名IT和互联网大厂资源的泛互联网人新职业教育品牌,将前沿互联网技术领域的一线实战项目根植于教学内容之中,可助力泛互联网人的能力提升并无缝衔接大厂用人需求。
继续阅读