行业白皮书
热门行业应用场景
常用必备技能
从业技能解析
  扫码回复【DA】,免费领取白皮书  
在现如今的数字时代,全球各地的企业都在利用数据科学来解决各类问题,每一款基于移动/网络的产品软件或数字体验类服务也都需要应用数据科学来实现个性化等精细的客户体验。无疑,如果说21世纪最缺的是人才,那么其中正为紧俏短缺的可能要有“数据科学专业人士”的姓名!
然而,如果要从事数据科学相关的工作,刚入行、出于职业发展早期阶段的新手需要的不仅仅是强有力的理论基础,还需要有交付并解决现实问题的实战经验。因此,我们整理了11个实战案例,帮助你在即将到来的春招阶段,通过模拟实际分析案例一方面充实你的简历,另一方面也能在面试中侃侃而谈、全方位展示你的实战“经验”
A.初级案例
01
“吃、热爱、评分”——如何寻找印度美食
Yelp作为风靡全美的外卖网站(类似于国内的大众点评),很多人在思考一天的难题——“吃什么好呢?”的时候都会用Yelp来帮助他们选择想要的食物。他们在线上搜索、就餐打卡、评论留言等一系列消费者行为,也同时为Yelp积累了海量的适用于数据分析的基础数据。
例如,数据科学家罗伯特·陈(Robert Chen)就基于Yelp的海量数据,研究食客评论态度的正负性和印度餐厅真实品质之间的联系,简单来说,就是人们能否将Yelp上的评论或者评分作为判断该去哪家印度餐厅就餐的依据呢?罗伯特·陈使用Python和R语言,发现参考“一个人对某一特定菜肴(在本例中为印度菜)的餐馆评论次数”以及“从姓名推测评论者是否为印度人”的可信度比较高,可以作为该消费者选择餐厅的依据之一。具体来说,在他分析的11个城市中,那些有印度名字的评论者往往只对每个城市中的同一家餐厅纷纷给予正面积极的评价,而其他不熟悉印度菜系的消费者就可以根据好评的集中程度,来选定这家“众望所归”的餐厅啦!
02
基于R、PCA和K-Means聚类的用户分层
用户分层这一理论通常被应用于营销行业。营销人员基于每个消费者的心理、行为偏好等数据进行人群分类运营,以提供有针对性的产品和服务。而数据科学领域的发展则可帮助营销人员们科学、快捷且大规模地实现上述分层诉求。
数据科学家姚丽蓓(Rebecca Yiu)利用R、主成分分析(PCA)和K-Means等机器学习算法,确定潜在消费者群体,并应用聚类算法按照不同消费者群体的差异化特征,例如:年龄、性别、地区、兴趣等完成分组,并将分组结果应用于“千人千面”的个性化广告、电子邮件活动和社交媒体帖子等营销渠道的触达,从而实现在合适的渠道、合适的时间、对合适的人群进行精准营销
03
道路车道线检测
自动驾驶汽车需要检测车道线,以确保实时遵守交通规则。数据科学和机器学习可以在实现这一点上发挥关键作用。例如:你可以使用OpenCV库、NumPy、Hough、CNN神经网略等可视化相关技术,构建一个应用程序,通过实时抓去视频帧或图像来自动识别汽车的行程轨迹线
B.中级案例
04
NFL(美国职业橄榄球赛)进球分析
除了初级案例中的餐饮、营销和交通运输领域,数据科学也在体育行业有广泛应用。例如,大家可以从数据角度分析专NFL(美国职业橄榄球赛)不同战术的得分效率。首先收集每场比赛的相关数据,再使用R语言进行分析,通过提出假设、数据验证假设、提出可行性建议的实战演练,熟悉了实际工作中数据分析项目的工作流程。
05
用神经网络识别狗的品种
图像分类是数据科学中最受欢迎和需求最广泛的细分领域之一。例如:数据科学家设计了一套帮助人们更加快速和准确识别狗狗品种的应用程序。他通过JupyterNotebook构建神经网络模型,基于大型数据集有效地处理图像(而不是传统的数据结构)以避免过度拟合,并结合在不同数据集上训练的神经网络模型结果,进行探索性数据分析,从而优化模型预测结果,直接预测准确度高于人类肉眼识别狗狗品种的准确程度。
06
Uber(优步)的高峰期分析
Uber(优步)是否让纽约高峰时段的交通变得更糟-这是美国广播公司旗下的数据驱动新闻网站FiveThirtyEight提出的四大问题之一。如果你想提高你的数据分析和数据可视化技能,这是一个不错的实战演练案例参考哦!

通过获得Uber授权的完单交易等数据,FiveThirtyEight从中研究发现Uber乘客呼单的规律性和基础特征、其与公共交通的相互作用,以及对出租车客流量的影响等,从而回答了该命题。
07
预测餐厅的成功可能性
这是另一个基于Yelp的项目,但比我们之前讨论的更复杂。数据科学家Michail Alifierakis使用Yelp数据构建了他的“餐厅成功模型”,以评估餐厅的成功/失败率。他使用了一个线性逻辑回归模型,并使用网格搜索和交叉验证对预测结果的精度进行了优化,从而贷款人和投资者更加科学地进行ROI最大化的投资
08
预测并降低犯罪率
世界各地的许多执法机构正在转向数据驱动的方法来预测和预防犯罪。例如:数据科学家奥兰多·托雷斯(Orlando Torres)的关于预测性警务的项目,就成功利用自动化模式检测过程,减轻了犯罪分析人员的工作量的同时,也有效通过预判降低了犯罪率
他根据公开信息源中的2016年实际数据,构建基于线性回归、随机森林回归、K-nearest neighbors、XGBoost和深度学习等预测模型,以预判2017年特定邮政编码地区、日期甚至时段内的犯罪事件。
09
聊天机器人
如今,企业正通过聊天机器人实现客户服务的自动化。目前的两类聊天机器人:特定域和开放域聊天机器人,都是使用自然语言处理(NLP)和递归神经网络(RNN)模型实现的。例如:Patrick Meyer通过自然语言处理来识别负向、中立和积极的语言表述;保罗·埃克曼(Paul Ekman)则将人们在文案中表露的情绪做进一步细分,即:六种情绪模型——愤怒、厌恶、恐惧、喜悦、悲伤和惊讶,以提高机器人自动化完成客服诉求的精准度。
C.高级案例
10
亚马逊 vs Ebay ——哪个平台的商品更便宜?
电商购物中,跨平台比价,寻找统一产品的最低价格无疑是大量网购者的快乐源泉之一。Chase Roberts通过比较eBay和Amazon上3500种产品的价格,帮助消费者及时制定科学的省钱/薅羊毛方案!其分析结果显示,如果选择了错误的平台购买这3500种商品(总是在价格更高的网站购物),消费者平均将花费193498.45美元;而通过自动化比价,从而在每种商品定价最低的平台分别购买这3500种商品,消费者平均只需花费149650.94美元,从而足足节省44000美元的差额,相当于为自己打了8折左右!

11
假新闻检测
最近的一项研究显示,虚假新闻比真实新闻传播得更快,触达到的人也更多。约52%的美国人表示,他们经常在网上遇到虚假新闻。加州大学伯克利分校的一个四人小组制作了一个假新闻分类器。该团队专注于点击诱导型这种常见的假新闻形式,通过从OpenSources上列出的新闻来源获取数据、使用NLP对文章进行初步处理以进行基于内容的分类、训练各种机器学习模型来划分新闻文章、并最终成功开发了一个web应用程序作为分类器的前端。
D.数据分析项目数据源
以下是一些在线数据源,当你在准备数据科学案例项目时,可以免费访问并下载先关的合规数据哦:
  • Kaggle: 拥有超过 50,000 个涉及各类主题的公共数据集,可以找到做数据科学项目所需的所有数据和代码。他们还提供具有竞争力的数据集。
以下是一些做数据分析项目的提示,当你在准备数据科学案例项目时,可以按照这一个完整的操作流程进行分析:
为了更好地帮助目前正在找实习、全职工作的同学,CareerTu特地建立了海外职场交流群,帮助大家更迅速地了解行业信息!
扫码回复【职场】,申请加入海外职场交流群。
想要学习更多关于数据分析、增长分析的伙伴们,欢迎免费领取行业白皮书!
海外增长干货
工具测评
海外品牌数字化
数据分析
交互设计
品牌增长俱乐部(畅学年卡)
突破技能界限, 赋能品牌出海
为出海品牌负责人、跨境电商从业者、海外电商人士, 提供业务技能精品课程, 突破技能界限,实现职场飞跃。
会员全年无限畅学品牌全球化技能:数字营销Digital Marketing, 商业分析Business Intelligence, 数据分析Data Analytics, 电商增长设计Growth Design、电商增长 Growth Marketing。
海外业务专家授课, 专家来自:Amazon, Google, Facebook, TikTok, Casper, LVMH等。
品牌增长俱乐部会员可以全年无限参加直播, 录播课程,巩固技能知识点、方法论,提升业务能力。同时也不定期举行资源对接、闭门分享会、微信社群等,赋能出海圈人脉拓展。
扫码添加职图咨询师

回复【会员】
领取优惠,即刻加入!
阅读推荐:
继续阅读
阅读原文