推荐语:不想使用繁琐的编辑工具“应付”工作中的微软家族(~word, ppt)需求,那么使用 officedown 或许可以帮助你解放双手、帮助你更专注于内容产出。尽管 R Markdown可以将文件编译为 word/ppt,但是在复杂的格式上却略显能力不足,需要手动修改编译生成后的文件,而 officedown 就解决了这个棘手的问题,能够让使用者从写 R Markdown 到交付给老板的完整材料的整个过程一气呵成。
推荐人:任怡萌
链接:https://alison.rbind.io/blog/2021-07-officedown/

推荐语:本文介绍使用了一个新的 R 语言统计可视化包 RainCloudPlot(包作者也同时提供了 Python 和 MATLAB 版本),这个包提供了以分布、散点、箱线图三种图像为基础的复合可视化,而且可以用于展示数据的变动关系。文章作者以 multi-analyst 问题中数据的先验后验分布变化为例进行了可视化。
推荐人:孔令仁
链接:https://shilaan.rbind.io/post/visualizing-data-with-raincloud-plots

推荐语:在现实中我们遇到的更多是非线性相关关系。本文介绍了一种距离相关系数,可以根据两个样本之间的距离来度量相关性(使用 python 包 dcor 实现),从而克服皮尔逊相关系数只能度量线性相关程度的局限性。在特征筛选中应用距离相关系数有利于挖掘变量之间更多潜在的相关关系。
推荐人:梁杰昊
链接:https://towardsdatascience.com/introducing-distance-correlation-a-superior-correlation-metric-d569dc8900c7

推荐语:万众瞩目的东京奥运刚刚闭幕,为健儿们激动叫好的大多数人却未必知道历年奥运会纵向情况如何:各国哪个项目获得奖牌数最多?该项目历年奖牌数变化如何?不妨借此机会对奥运历史来一个大盘点。(链接所在 repo 其他调查也很有意思!)
推荐人:任焱
链接:https://github.com/wurli/tidy-tuesday/blob/master/2021-07-27-olympics/2021-07-27-olympics.R

推荐语:机器学习经典书籍 ISL (An Introduction to Statistical Learning) 近日发布了第二版,在第一版基础上新增了深度学习、生存分析、多重测试、朴素贝叶斯和广义线性模型、贝叶斯加法回归树、矩阵补全等内容,同时其R代码实验也很方便R语言用户学习和实践机器学习。
推荐人:赵昊蛟
链接:https://www.statlearning.com

推荐语:在数据科学方面,jupyter 和 Rmd 经常被放在一起比对,相比于 Rmd,jupyter 的输出数据(如图片)也包含在 .ipynb文件中,不便于进行版本控制和直接的文件分享,这个 python 包提供了过滤 jupyter 得到纯代码的功能,以及 git 的过滤功能,可以让你的 jupyter 文件不再冗余。
推荐人:孔令仁
链接:https://github.com/kynan/nbstripout

GME 股票在1月份突然飙升,股价从31美元上涨到了347美元。针对这一现状,这篇文章用 R 中的Anomalize、Prophet、Forecast、CasualImpact 等包,分析了这一股价的上涨是并非是在预料之中,而是非常不可思议的。
推荐人:操懿
链接:https://jlaw.netlify.app/2021/08/12/gme-to-the-moon-how-unexpected-was-gamestop-s-january-stock-rally/

推荐语:这是一本介绍现代统计学与 R 语言的书。和其他类似的书不同在于,这本书在介绍 R 语言的部分介绍了很多常用的技巧,比如保存图片、Rmarkdown、管理内存、并行、debug 方法等,甚至专门有一章讲如何处理比较脏乱的数据(Dealing with messy data)。
统计层面,除了诸如回归、主成分分析、聚类分析等传统统计,这本书还介绍了混合模型、删失回归、倾向得分匹配,以及一些机器学习的算法。
最后,这本书比较有趣的地方在于作者探讨了很多意识流的内容,比如 Ethics and good statistical practice 等章节,值得一看。
推荐人:王祎帆
链接:http://www.modernstatisticswithr.com/

推荐语:东京奥运会刚刚闭幕,想用热乎的赛事数据分析出一些有意思的结论吗?SwimmeR 包的新版本0.12.0已经包含了东京奥运会所有游泳赛事的成绩和历届多个大型赛事各个项目的数据。本文作者通过可视化和统计检验方法对男女排球运动员的反应时间进行了研究,更多有趣结论则等着你去挖掘。
推荐人:向悦
链接:https://pilgrim.netlify.app/post/2021-08-17-olympics-reaction-times-volleyball-and-a-new-version-of-swimmer/

推荐语:这是一个有着各形各色主题的地方,你可能会看到从IT/Information Risk Management到 iOS、Node.js、Arduino & XBee +等等的帖子。哦,还有很多关于 R、Python 和“数据科学”的东西。比如最近的文章,有新冠疫情“甜甜圈可视化”,或者声学防御问题,都同时提供了 R 代码。
推荐人:李璇
链接:
https://rud.is/b/about/

请回复统计之都 Github 主站相关 issue[1] 进行文章推荐与招聘投稿,内容须与统计/数据科学相关,是否采纳取决于编辑部意见。
文章推荐包括学术论文、博客、书籍、教程或软件等的推荐,如果是英文文章在月报发布后自动作为翻译备选文章。
招聘主要面向学术界与工业界的招聘信息发布且岗位要与统计/数据科学相关。

注:统计月报每月月初发表,月底前三天截稿转入编辑阶段,当月投稿不满十篇则合并入下月(或下下月直到够数)发表。

参考文献

[1]https://github.com/cosname/cosx.org/issues/957
2021年往期回顾
统计之都:专业、人本、正直的中国统计学社区。
关注方式:扫描下图二维码。或查找公众号,搜索 统计之都 或 CapStat 即可。
往期推送:进入统计之都会话窗口,点击右上角小人图标,查看历史消息即可。
点击阅读原文,进行投稿
继续阅读
阅读原文