统计月读（2019年6-7月）

推荐语：这个仓给出了常见算法的 python 实现，其实对其他语言也做了汇总，不过 python 的这个算是最完整的。R 的话 caret 包的文档可能对机器学习的包总结比较全些，至于排序、寻址、加密解密这些算法估计一般也不会用 R 来实现吧。

推荐人：于淼

链接：https://dwz.cn/6js5Lovx

推荐语：国际贸易数据对于我们了解历史与现状有很大的启发意义，中美贸易战是不是广场协定的翻版？外贸在各国经济比重与政策倾向性有没有关系？红酒的全球销售网络特性与全球尺度的贫富差距有没有关系？除了等砖家解读，现在我们也有了这类数据的开放接口与对应的 R 包来自己寻找答案，Open Trade Statistics 旨在打造一个可重复计算的货物进出口数据处理项目，开源是一种力量。

推荐人：于淼

链接：http://mrw.so/4EovwD

推荐语：R中进行可重复性研究的工具已经很多了，rrtools 包旨在整合这些工具例如 Rocker 支持、文献管理、版本管理、持续集成、论文写作，与其他类似工具不一样的在于这个包更像是工作流的整合，会关心文件夹结构，这些细节对于形成良好的研究习惯是很重要的。对于 RMarkdown 类 word 的评论模式，可以考虑用 redoc 包来实现 rmarkdown 与 word 文档间进行包含评论的转化。

推荐人：于淼

链接：http://mrw.so/4LUIBE

推荐语：有环无向图（DAG）伴随因果分析正在越来越多应用在公共卫生领域，很多流行病学研究现在都会在论文里带上个DAG方便读者理解推理建模过程。个人感觉 DAG 对于d分离的表示是非常直观的，ggdag 包就可以很方便的进行 DAG 的绘制。不过科研应用中因果分析最大的问题不在其理论本身，更多时候是模型假设有问题。

推荐人：于淼

链接：http://mrw.so/4TqVqn

推荐语：线性模型与层级模型可以看作两类最基本的统计模型，其中线性模型可以看作层级模型的特例，约翰霍普金斯大学的这套层级模型讲义对这个问题总结的很到位，里面也提到了层级模型在频率学派与贝叶斯学派两种思路下的解释，以及边际效应模型与随机效应模型的应用场景。正如线性模型可以一定程度上统一t检验、方差分析，层级模型应该是个不错的统计大一统模型（如果存在的话）的理解起点。

推荐人：于淼

链接：https://dwz.cn/skjK5iwB

推荐语：ETL(extract, transform and load) 是数据分析/建模中必不可少（但烦人）的步骤。优秀的 ETL 工具有助于我们更高效地完成 ETL 流程，将更多精力投入到数据分析/建模的工作中。本文介绍了13款不同的 R 语言 ETL 工具（包括开源的和付费的）。值得一提的是其中的 imdb 还提供了下载 imdb 数据的方法。

推荐人：张晔

链接：http://mrw.so/4wSiuw

推荐语：哈佛的 STAT110 是一门非常受欢迎的初等概率课程，它也在 edX 上有免费的公开课；授课老师 Joe Blitzstein 和 Jessica Hwang 最近将相应的教科书免费发布出来了（http://probabilitybook.net；墙外），书中有配套的初等 R 代码，可供巩固理解概率论中的一些概念，或用模拟验证理论结果（我瞄了一眼，要是代码中能多打一些空格就更好了……）。

推荐人：谢益辉

链接：http://stat110.net

推荐语：一门制作精良的广义可加模型（Generalized Additive Models）课程，作者 Noam Ross。

推荐人：谢益辉

链接：http://mrw.so/5oc9v6

推荐语：

多进程和分布式是大规模数据处理的必需品。遗憾的是，python 在相关方面做得并不好（谢谢你，GIL）。Ray 提供了一种简单的方法，可以自动将你的 python 函数和类，映射成 task 和 actor，让你方便地将单线程代码改写成多线程并行代码（它还能自动处理任务之间的依赖！）。Ray 是一个值得关注的 python 库。

推荐人：张晔

链接：http://mrw.so/51HL1v

推荐语：Our world in data 网站收集了很多统计数据（比如世界人口增长），并为这些数据作了精致的可视化处理，对“如何用数据描述现象与问题”大有启发。

推荐人：张晔

链接：https://ourworldindata.org/

推荐语：说到人口统计数据，就不得不提此方面研究的先锋。这里有很早就流行起来，并且在TED做过多次演讲的数据团队。对于学统计的同学来说，可能已经习以为常，但是对于统计和宏观相结合，依然是前沿中的前沿。这里能让宏观研究者更懂数据，能让数据科学家更了解全人类与世界。

推荐人：霍志骥

链接：http://mrw.so/4TqVrP http://mrw.so/50X8wG

推荐语：谷歌在今年的 Next ‘19 上发布了 AI Platform Notebooks^[1]，现在公测版已经支持 R 了，感觉就是把数据分析开发环境打包云计算资源放一起做成在线平台，随用随取，按需购买调用云计算资源，核心是 JupyterLab。

推荐人：于淼

链接：http://mrw.so/5oc9w4

推荐语：缺乏不确定性的可视化经常产生误导性结论，那么什么是不确定性？如何对不确定性可视化？这一系列连载文章将通过案例来详细讨论不确定性的可视化问题，行文严谨，值得阅读。

推荐人：于淼

链接：http://mrw.so/5gFWrx

推荐语：《纽约时报》做了一个非常棒的可视化来展示科技公司隐私条款的阅读长度与难度，绝大部分都需要大学水平才能读明白，很多阅读难度甚至超越了《纯粹理性批判》。最容易读的是 BBC 的条款，最难的是百度，最长的则是 Airbnb ，谷歌则在欧盟启动 GDPR 前后大幅降低了阅读难度。不过，不论用户条款还是隐私条款，真正读的估计没几个，印象中某个软件的条款写过“反正你也不读，点同意就好”，也有写读到这里可以发邮件领奖结果四个月后才有人发现， iTunes 还要求用户不能造核弹… 也许未来的考古学家与密码学家会从今天的软件条款协议里发现类似达芬奇密码的东西。

推荐人：于淼

链接：http://mrw.so/4EovkR

请回复统计之都 Github 主站相关 issue^[2] 进行文章推荐与招聘投稿，内容须与统计/数据科学相关，是否采纳取决于编辑部意见。

文章推荐包括学术论文、博客、书籍、教程或软件等的推荐，如果是英文文章在月报发布后自动作为翻译备选文章。

招聘主要面向学术界与工业界的招聘信息发布且岗位要与统计/数据科学相关。

注：统计月报每月月初发表，月底前三天截稿转入编辑阶段，当月投稿不满十篇则合并入下月（或下下月直到够数）发表。

参考文献

[1]

AI Platform Notebooks:

https://cloud.google.com/ai-platform-notebooks/
[2]

issue:

https://github.com/cosname/cosx.org/issues/841

往期回顾

·2019年1月统计月读

·2019年2月统计月读

·2019年3月统计月读

·2019年4月统计月读

·2019年5月统计月读

统计之都：专业、人本、正直的中国统计学社区。

关注方式：扫描下图二维码。或查找公众号，搜索统计之都或 CapStat 即可。

往期推送：进入统计之都会话窗口，点击右上角小人图标，查看历史消息即可。

点击

“阅读原文”

，进行

投稿

！

继续阅读

阅读原文