推荐语:Thomas Lumley 博客的8篇年度最佳文章,涵盖了包括做正态分布检验必要性、统计权重、R 版俄勒冈之旅、数据科学实践课程设计、连续映射定理证明、回归模型应用等主题。
推荐人:于淼
链接:https://notstatschat.rbind.io/2020/12/31/top-posts-in-2020/

推荐语:R 语言的 for 循环运行速度很慢,并行则可以大大提高代码效率。本文介绍了 R 中实现并行计算的方法,并以随机森林调参和置信区间估计为例,介绍 R 并行计算的代码实现。
推荐人:向悦
链接:https://www.blasbenito.com/post/02_parallelizing_loops_with_r/

推荐语:列举了10个用 R-Markdown 的小技巧,包括参数化文档,用 xaringan 去制作 slides,运行 python 代码,用 prettydoc 设置主题,在 R-Markdown 中选择性地隐藏代码,使用 Bookdown 写书,在文档中使用交互式图形,根据输出格式切换代码,在文本中写数学公式,以及将多个图片进行拼接(用 patchwork 包)。
推荐人:王祎帆
链接:https://towardsdatascience.com/ten-awesome-r-markdown-tricks-56ef6d41098

推荐语:本福特定律是由本福特在1938年重新发现1881年西蒙·纽康发现的检验数据真伪的一种经验规律,而除了数字数据,图像与声音都可以用本福特定律来检验是否是伪造的,这篇文章给出了 R 语言的检验方法,感觉 deepfake 可能有对手了而且有人已经验证可行性了。
推荐人:于淼
链接:https://www.iamnagdev.com/?p=926

推荐语:当 ggplot 遇到元胞自动机,赏心悦目的艺术作品就出现了。选择你喜欢的配色和领域定义方式,看看在迭代循环中 R 会为你生成怎样独具特色的图片吧!
推荐人:任焱
链接:https://fronkonstin.com/2021/01/02/neighborhoods-experimenting-with-cyclic-cellular-automata/

推荐语:2020年,新冠疫情对于大部分体育运动产生了了巨大的不利影响。在这篇文章中,作者研究了与上一赛季相比,新冠疫情对于英国的赛道表现有什么样的影响。具体地,作者将研究关注点放在本赛季与以前赛季之间的表现分布有何不同上。此外,作者还探究了:与面临着比赛机会减少最多的非精英运动员相比,2020年可能有更多机会参加比赛(全国冠军,钻石联赛等)的精英运动员之间是否存在某些差异。文章使用了 poweRof10 软件包从 power of 10网站 收集数据。
通过这个调查,作者发现了一些关键问题:
  • 2020年的运动员排名出现大幅下降的现象;
  • 首先,精英中长跑运动员在2020年表现出色,男女均是如此;相比之下,短跑比赛在2020年的平均表现要低得多;
  • 对于次精英运动员(排名11至100),在所有赛事中都呈现出一致的趋势,2020年的表现要低于过去几个赛季的平均表现;
  • 封城,比赛机会减少以及其他与新冠疫情相关的因素可能导致运动员的表现变差。
推荐人:任怡萌
链接:https://www.hfshr.xyz/posts/2020-12-26-powerof10-covid/

推荐语:“Outliers matter.”异常值总是容易把我们引到草率错误的结论方向。新冠病毒疫苗的接种普及程度和 GDP 是否有相关性呢?不妨使用 R 包 tidycovid19 中的全球疫苗接种情况数据做一个简单的回归,这个原本是为了让 R 使用者更便捷全面了解疫情情况的包,也成了关于异常值的迷你案例。
推荐人:任焱
链接:
https://joachim-gassen.github.io/2021/01/vaccination-data-an-outlier-tale/#fn1

推荐语:用shiny写成的一个APP "Find Economic Articles with Data" 可用于寻找经济类的文章。作者最近将它进行了更新。现在,在用"Find Economic Articles with Data" 检索文章时,不仅能从标题和摘要检索,还可以根据文章具体采用的研究方法(如随机森林、DID)检索,让使用者能更方便的检索到他们需要的文章。
推荐人:操懿
链接:http://skranz.github.io//r/2021/01/05/FindingEconomicArticles4.html

推荐语:这篇文章详细拆解了如何进行多模型平均预测的步骤,利用不同类型模型捕捉数据中存在的不同关系,然后结果加权组合形成预测实现 1+1>2 的效果,从实战角度值得借鉴,总感觉这跟神经网络里采用不同核函数节点的方式存在一定的同构性。
推荐人:于淼
链接:
https://www.mm218.dev/posts/2021/01/model-averaging/


推荐语:隔离生活让很多人开始学习烘焙,谷歌的一个工程师从网上收集了面包、蛋糕还有饼干的99个食谱,然后训练了一个 TensorFlow 模型来根据输入的配料预测做出来的东西并放到了网上。我看了下预测出所谓一半蛋糕一半饼干的照片,感觉像是重新发明了国内的枣糕。不过要是机器学习用到菜谱上,感觉会打开被常识封印的黑暗料理界大门。
推荐人:于淼
链接:https://sararobinson.dev/2020/04/30/baking-machine-learning.html

推荐语:如何利用闲置的的乐高 mosaic 拼图完成一幅特定人像风格画,这篇文章完成该趣味性任务的同时涉及了图像处理的相关算法,如利用泛洪算法 (flood fill)选取色彩相近的区域,利用线性规划解决有限色彩拼图分配的问题,处理风格图片后可以直接上手乐高,趣味十足。
推荐人:苏锦华
链接:https://joachim-gassen.github.io/2021/01/meet-lamg/

推荐语:这是 Karim Douieb 用 R 写的一份著名可视化作品 «Land doesn't vote, people do» ,展示了公众投票的结果。在此过程中使用的所有数据都是通过瑞士开放政府数据平台 opendata.swiss 检索的,使用的数据代码可以在链接内找到。
推荐人:李璇
链接:https://github.com/zumbov2/votemapswitzerland

请回复统计之都 Github 主站相关 issue[1] 进行文章推荐与招聘投稿,内容须与统计/数据科学相关,是否采纳取决于编辑部意见。
文章推荐包括学术论文、博客、书籍、教程或软件等的推荐,如果是英文文章在月报发布后自动作为翻译备选文章。
招聘主要面向学术界与工业界的招聘信息发布且岗位要与统计/数据科学相关。

注:统计月报每月月初发表,月底前三天截稿转入编辑阶段,当月投稿不满十篇则合并入下月(或下下月直到够数)发表。

参考文献

[1]https://github.com/cosname/cosx.org/issues/922
往期回顾
CapStat
稿
继续阅读
阅读原文