推荐语:如何简单地预测足球比赛的胜负和比分,本文中作者利用泊松分布的基本性质做了一点简单的尝试模拟,尽管它并不是一个很全面的模型并且作者也承认还有很多因素并未考虑进入模型中,但仍不失为一个很好的启发。
推荐人:赵昊蛟
链接:http://y5a.cn/q42pg

推荐语:这是一个 GPL 协议的快速最优子集选择算法包,包含 R 和 Python,有着成熟的文档。这个包有着很好的运算速度,内核基于 C++,作者提供的对比显示其在回归问题中优于 sklearn,而且在线性回归问题上有着多项式复杂度的理论保证,值得一试。
推荐人:孔令仁
链接:https://github.com/abess-team/abess

推荐语:这个网站提供了多个配色相关的功能,不仅可以用于网页设计的 CSS,也可以用在自己的数据可视化中。这个网站可以由任意一个自选颜色自动产生多个配色方案,方案中最多可以包含6个颜色,足以满足一般情况下的数据可视化配色需求。
推荐人:孔令仁
链接:https://mycolor.space/

推荐语:这个仓库提供了常见的数学公式符号转成代码的写法,对于要复现算法相关论文来说很有帮助。
推荐人:夏骁凯
链接:https://github.com/Jam3/math-as-code

推荐语:知己知彼,百战不殆。数据可视化可以起到很强的误导作用,我们要多加了解,避免被误导,也提醒自己不要误导别人。
推荐人:王祎帆
链接:https://paulvanderlaken.com/2021/08/31/how-to-confuse-your-shareholders-by-bad-data-visualization/

推荐语:最开始用 R 读写数据用 .csv,后来用 .RData/.Rda,这种格式的储存加载速度和文件大小已经远远优于 .csv,但还是有问题,load("mydata.RData") 默认用变量原本的名称,这有可能会覆盖一些本地已有的重要变量(而且不会有报错!莫名其妙的 bug 从此就多起来了),这个链接的视频介绍了 .rds 格式的优势,即文件大小更小,载入时强制赋变量名,如 `new_name <- readRDS("mydata.rds")`
推荐人:任焱
链接:https://www.youtube.com/watch?v=1pgrLc5FFoE

推荐语:用 R 画图时,对画图相关参数的选择总是令人困惑的。这篇文章详细介绍了可视化中最常用到的 colors,sizes, shapes 三个变量,以及这些变量的组合用法,同时附上了相应的代码与运行结果。
推荐人:操懿
链接:https://r-tmap.github.io/tmap-book/visual-variables.html#mixing-visual-variables

推荐语:我们通常需要一连串命令来达成目的,但长长的命令代码或连续的函数嵌套往往可读性差,不易理解和修改。为了让 R 代码更加简约和更加符合人类思考阅读习惯,本文介绍了 R 中管道函数包 “magrittr” 及其中函数的使用。
推荐人:向悦
链接:https://data-and-the-world.onrender.com/posts/magrittr-pipes/

推荐语:在为客户开发项目时,提供详细的时间表有助于培养信任和透明度。然而对于一个大工程来说,手动记录和生成时间表相当费力费时,因此本文介绍了 R 包 clockify,它调用了 Clockify API,辅助 R Markdown 的使用者生成非常棒的自动化时间表和报告。
推荐人:任怡萌
链接:https://datawookie.dev/blog/2021/09/clockify-time-tracking-from-r/

推荐语:因果推断是统计学、数据科学、计量经济学等领域的热门话题。哈佛的两位教授撰写的新书《What If》是非常好的入门书籍。这本书最大的特点是先从”无模型因果推断“讲起,对因果推断的起源、基本思想、实际应用做了生动形象的介绍,随后再自然引入常见的因果推断模型,最后再添加了复杂数据因果推断相关内容,内容循序渐进,层次鲜明丰富。本书目前只有电子版,相关的数据和代码都可以从主页上找到。
推荐人:梁杰昊
链接:https://www.hsph.harvard.edu/miguel-hernan/causal-inference-book/

推荐语:著名的 jupyter lab 现在有桌面应用版本了,官方团队通过 Electron 把原本的浏览器前端封装在独立的应用里,后端仍然是采用 conda 的环境作为基础,目前还处于初创版本(观察其 GitHub 发现近期开始新版本代码提交时间为2021年9月)。
推荐人:孔令仁
链接:https://blog.jupyter.org/jupyterlab-desktop-app-now-available-b8b661b17e9a

推荐语:朋友写的 R 包——SemiEstimate,主要使用 Implicit Profiling 优化普通牛顿法估计半参模型参数的运行时间,平时估计用不上,对统计计算感兴趣的可以当例子入入门。
推荐人:苏锦华
链接:https://arxiv.org/abs/2108.07928

推荐语:如何优雅地协助一个开源 R 包,CI&CD可以提高代码协作的幸福感,github 中 workflow 提供的R模板似乎太过入门,如果有兴趣开展大型甚至跨语言的 R 包项目,可以参考一下 Rcpp 的 workflow 配置文件。
推荐人:苏锦华
链接:https://github.com/RcppCore/Rcpp/tree/master/.github/workflows

请回复统计之都 Github 主站相关 issue[1] 进行文章推荐与招聘投稿,内容须与统计/数据科学相关,是否采纳取决于编辑部意见。
文章推荐包括学术论文、博客、书籍、教程或软件等的推荐,如果是英文文章在月报发布后自动作为翻译备选文章。
招聘主要面向学术界与工业界的招聘信息发布且岗位要与统计/数据科学相关。

注:统计月报每月月初发表,月底前三天截稿转入编辑阶段,当月投稿不满十篇则合并入下月(或下下月直到够数)发表。

参考文献

[1]https://github.com/cosname/cosx.org/issues/966
2021年往期回顾
统计之都:专业、人本、正直的中国统计学社区。
关注方式:扫描下图二维码。或查找公众号,搜索 统计之都 或 CapStat 即可。
往期推送:进入统计之都会话窗口,点击右上角小人图标,查看历史消息即可。
点击阅读原文,进行投稿
继续阅读
阅读原文