推荐语:通常情况下,我们总相信大样本意味着准确,但在论文 More Data Can Hurt for Linear Regression: Sample-wise Double Descent 作者发现对于参数过量的回归模型,会得到有悖于常理的结果,链接的文章用 R 给出了论文实验的复现。
推荐人:任焱
链接:http://y5a.cn/Sdhlg

推荐语:GooglyPlusPlus2021 是一个包含了丰富数据与图表类型的交互可视化 Shiny App,最新一版的更新包括了:
  • 可以与绘图/图表进行交互以获取有关基础数据的更多详细信息
  • 可以通过多种方式对图表中的数据进行切片
  • GooglyPlusPlus 还收纳了来自新西兰的“Super Smash T20”联赛数据,可以分析击球手、投球手、比赛、球队和排名 Super Smash (SSM)
推荐人:任怡萌
链接:
https://gigadom.in/2021/05/29/googlyplusplus2021-is-now-fully-interactive/

推荐语:CRAN 在2021年4月收录了179个 R 包,作者从计算方法、数据、基因组学、机器学习、数学、医学、网络、运筹学、统计学、时间序列、公用事业和可视化这12个类别中,选出了排名“前40“的 R 包,并对其中几个 R 包进行了简单的介绍。
推荐人:操懿
链接:https://rviews.rstudio.com/2021/05/25/april-2021-top-40-new-cran-packages/

推荐语:谢大大介绍了在 R Markdown 中如何使用 knitr 重复使用代码块和块选项,更多关于 R Markdown的“骚操作”可阅读他的作品 Rmarkdown-Cookbook
推荐人:王祎帆
链接:https://yihui.org/en/2021/05/knitr-reuse/

推荐语:这是一本 R 语言处理流行病学数据的电子书,大流行开始后很多人被动科普了流行病学模型,而这本书几乎覆盖了从基础入门、可视化、shiny、生存分析等所有相关主题,虽然流病领域主流还是用 SAS。
推荐人:于淼
链接:https://epirhandbook.com

推荐语:R-Universe 可以用来构建自定义版的 CRAN,可用来发布软件与文档,这是一篇教程。
推荐人:于淼
链接:https://ropensci.org/blog/2021/06/22/setup-runiverse/

推荐语:Introduction to Modern Statistics 的电子书,侧重基于仿真模拟的探索性数据分析,适合非统计但需要统计分析的专业的人阅读入门。
推荐人:于淼
链接:https://openintro-ims.netlify.app/index.html

推荐语:如何在一个字符串中插入新的字符串?作者提供了一种与 Python 中实现方法对应的 R 语言实现方法,通过自定义函数 cat_v,实现字符串的新值插入功能。更多有用的、有趣的函数可以去 Useless_R_function repository 中挖掘。
推荐人:任怡萌
链接:https://tomaztsql.wordpress.com/2021/07/09/little-useless-useful-r-functions-inserting-variable-values-into-strings/

推荐语:作者看到了一张用 ppt 绘制,描述流媒体市场份额的柱状图。他尝试用 R 复现了这张柱状图,并在原有图片的基础上进行了一定的改进,绘制了形式更丰富的图。
推荐人:操懿
链接:https://jcarroll.com.au/2021/07/02/improving-a-visualization/

推荐语:如果你像我一样看到一个【可能】有用的 github 仓库就想 fork 下来,那你的 github 空间可能已经很拥挤了。多数 fork 下来的仓库积灰数年,真正需要的仓库却无法快速找到,却也不想逐一清理删除。而本文介绍的gh包则是批量删除仓库的利器,简单的一行命令,空间瞬间整洁。
推荐人:向悦
链接:https://www.jumpingrivers.com/blog/github-clean-remove-forks/

推荐语:当你需要认真写一个 R 包时,两个必读的文档是 Advanced R 和 R package。但当你在遇到传参问题时会发现 tidy dots 这个概念,官网文档提供的 list2、exec 和 do.call 有时候可能并不能帮你让一个用户提供的函数(比如雅克比矩阵)很好的支持!!! args_list,这时候几个函数和包可能帮到你 (1) mget (2) list2env (3) ellipsis包。链接是一篇介绍 ellipsis 的博客。
推荐人:苏锦华
链接:https://www.r-bloggers.com/2015/02/r-three-dots-ellipsis/

推荐语:科研作图从最早 boxplot 到可以展示分布的 violin 图与 ridgeline 图,现在又出了 raincloud 图,其背后的逻辑就是更多关注统计估计中的不确定性,ggdist 包是对这个问题一个不错的总结与可视化方案。
推荐人:于淼
链接:https://mjskay.github.io/ggdist/

推荐语:Rstudio 的网站里面有一个专门的 Cheatsheets(速查表)总结页面,包含了 Rstudio 的以及其他用户贡献的速查表,这样就不用自己去搜集不同R包的速查表了。
推荐人:孔令仁
链接:https://www.rstudio.com/resources/cheatsheets/

请回复统计之都 Github 主站相关 issue[1] 进行文章推荐与招聘投稿,内容须与统计/数据科学相关,是否采纳取决于编辑部意见。
文章推荐包括学术论文、博客、书籍、教程或软件等的推荐,如果是英文文章在月报发布后自动作为翻译备选文章。
招聘主要面向学术界与工业界的招聘信息发布且岗位要与统计/数据科学相关。

注:统计月报每月月初发表,月底前三天截稿转入编辑阶段,当月投稿不满十篇则合并入下月(或下下月直到够数)发表。

参考文献

[1]https://github.com/cosname/cosx.org/issues/948
2021年往期回顾
统计之都:专业、人本、正直的中国统计学社区。
关注方式:扫描下图二维码。或查找公众号,搜索 统计之都 或 CapStat 即可。
往期推送:进入统计之都会话窗口,点击右上角小人图标,查看历史消息即可。
点击阅读原文,进行投稿
继续阅读
阅读原文