亲爱的,我在寻找真爱,

穿过这浓雾是如此艰苦。
请指出通往你内心之路,
我会重整旗鼓加快速度。
来源 | 《贝叶斯数据分析(第2版)》
作者 | 约翰·K. 克鲁施克(John K. Kruschke)
译者:王芳
1
你真的可以读懂本书
本书告诉你如何使用真实的数据(比如你自己的数据)来进行贝叶斯数据分析。本书从概率与程序设计的基本概念出发,逐渐进阶到实际数据分析中用到的高级模型。你不需要具备统计与编程的基础。
本书面向的是社会科学及生物科学领域的一年级研究生或高年级本科生:在乌比岗湖长大,但不是接受过核物理学家的训练又决定来学习贝叶斯数据分析的神话般的人物。(本书第 1 版出版后,真的有这样神话般的人联系了我!所以,即使你确实接受过核物理学家的训练,我同样希望你能从本书中有所收获。)
下面列出了学习本书所需具备的具体的预备知识。但首先说明一点:正如你在读本章内容时所看到的,本书每一章的开端都是一位著名诗人所写的优雅而富有见解的诗。这些是由扬抑抑韵格的四音步诗行构成的四行诗,俗称“乡村华尔兹”韵律。通过引用华尔兹时代不朽的人类主题,这些诗传达了每一章的概念主题。
如果你觉得它们并不是那么有趣,
如果它们令你想要回你花费的钱,
好吧,亲爱的,你花费的金钱实际很少,
因为,如果你继续阅读,将会学到很多。
预备知识
数据分析中总是不可避免地要用到数学。不过,本书绝对不是一本数理统计教材,也就是说,本书的重点并不是定理证明或者数学分析但是我确实希望阅读本书的你具有一些数学分析知识,也就是微积分的基础知识。具体地说,如果你理解表达式
的含义,你就可以继续阅读本书了。
注意前面这句话是要你“理解”积分的含义,而不是要你自己来“创造”它的含义。因为数学的推导过程有助于理解,所以本书将向你呈现一系列的中间步骤。这样会使你熟悉整个旅途的过程与目的地并感到安心,而不是像被蒙住眼睛扔到后排座椅上然后在高速路上绕弯一样而感到晕车。
如果你有一些计算机编程的基础经验——虽然这种经验并不是必需的——那么你将更快地上手。计算机程序只是计算机可以执行的一系列命令而已。如果你曾经把等号输入到 Excel 电子表格的单元格中,那么你就已经写过编程命令了。如果你曾经利用 JavaCPythonBasic 或其他任何一种计算机编程语言写过一系列的命令,那么说明你已经准备好了。我们将使用的语言是 RJAGS 和 Stan它们都是免费的,本书中会对其进行详细的解释。
2
本书内容
本书分为三大部分。第一部分介绍基础知识:贝叶斯推断的基本思想、模型、概率以及 R 语言编程。
第二部分涵盖了现代贝叶斯数据分析的所有关键思想,使用的是最简单的数据类型,比如同意/不同意、记住/忘记、男性/女性等二分数据。
由于这些数据非常简单,内容的重点就可以集中在贝叶斯技术上。特别地,这部分深入且直观地解释了现代技术“马尔可夫链蒙特卡罗”(Markov chain MonteCarloMCMC)方法。因为这一部分用的是简单的数据,所以我们可以用丰富的图形细节来帮助我们直观地想象层次模型的意义。第二部分也探讨了用来计算得出特定精度的结论所需要的数据量的方法,也就是“功效分析”(power analysis)。
第三部分将在实际数据上应用贝叶斯方法。这些应用是围绕所要分析的数据类型和所采用的解释或预测数据的方法类型组织的。不同类型的方法需要不同类型的数学模型,但它们隐含的概念总是相同的。之后将列举所涵盖内容的更多细节。
请按顺序阅读本书各章,以学习基本的贝叶斯数据分析技巧。尤其是第一部分和第二部分,如果按顺序阅读,你会更容易掌握其中的知识。但如下文所述,你也可以采用更短的阅读路线
3
你很忙。你最少要阅读哪几章
以下是本书的极简浏览列表。
  • 第 2 章:贝叶斯推断的思想与模型参数。这一章介绍重要的概念,不要跳过。
  • 第 3 章:R 语言。你需要知道如何安装软件及与本书相关的程序扩展包。其他部分可以略过,或者之后需要时再回过头来阅读。
  • 第 4 章:概率的基本思想。你很有可能已经了解了这一章的内容,那就略过。
  • 第 5 章:贝叶斯法则。
  • 第 6 章:贝叶斯法则的最简单的正式应用,本书的其余部分都有提及。
  • 第 7 章:马尔可夫链蒙特卡罗方法。这一章介绍了使现代贝叶斯应用成为可能的计算方法。你不需要清楚所有的数学细节,但需要明白那些图片中的要点。
  • 第 8 章:用 JAGS 编程语言实现 MCMC。
  • 第 16 章:两组数据的贝叶斯估计。使用上述各章的所有基本概念对两组数据进行比较。
4
你真的很忙!能阅读得再少一些吗
如果你只想了解基本概念并以最快的速度获得操作经验,并且你已经具有一些传统概率统计的知识,比如 检验,那么我的建议如下。首先阅读本书第 章,获得概念基础。然后阅读 Kruschke有关两组数据的贝叶斯估计的文章(Kruschke2013a,与传统的 检验类似)。基本上,这时你已经跳到了本书的第 16 章。这篇文章提供了帮助你获得操作经验的软件。该软件有一个版本是基于JavaScript 的,无须安装其他软件即可在你的浏览器中使用。有关详细信息,请访问印第安纳大学伯明顿分校网站。
5
你想多读一点内容,但不要太多
在阅读完上面的极简浏览内容之后,如果你想深入了解更多的具体应用,需要阅读以下各章。
  • 第 9 章:层次模型。许多实际的应用场景涉及层次结构或“多级”结构。使用贝叶斯方法时非常令人兴奋的一件事,就是它们可以毫无障碍地应用于层次模型。
  • 第 13 章:从贝叶斯角度对研究进行功效分析和研究规划。这一章在第一遍读时并不重要,但重要的是请不要永远跳过它。毕竟,失败的计划就是计划的失败。
  • 第 15 章:广义线性模型概述。想要知道什么类型的模型适用于你的数据,你需要了解常规模型的典型种类,其中许多模型可以归类于广义线性模型。
  • 第 16~24 章中的一部分。直接跳到与你感兴趣的数据结构相关的章节(阅读完第 15 章的时候你会明白的)。
  • 25.1 节,其中有关于如何报告贝叶斯数据分析结果的建议。如果你想让你的研究有一定的影响力,你就必须能够向其他人介绍你的研究。(好吧,我想可能还存在其他的说服方法,但你必须从其他地方得知了。
6
如果你只是需要拒绝一个零假设……
传统的统计方法关注的往往是我们能否拒绝一个零假设,而不是估计它的幅度及其不确定性。有关零假设的贝叶斯观点,请阅读以下两章。
  • 第 11 章:传统方法中使用 p 值进行零假设显著性检验的风险。
  • 第 12 章:评估零假设值的贝叶斯方法。
7
本书中与某传统检验等同的方法在哪里
由于许多读者在阅读本书之前已经熟悉了传统的统计方法,也就是零假设显著性检验(nullhypothesis significance testing,NHST),因此,本书将提供与 NHST 课本上常见的主题类似的贝叶斯方法。表 1-1 列出了标准统计学入门教科书中涵盖的各种统计检验方法,以及与它们类似的贝叶斯方法在本书中的第几章。
表 1-1 中提到的统计检验方法均被称为“广义线性模型”。已经熟悉这一术语的人,可以直接翻到表 15-3 以查看哪些章节涵盖了哪些实例。那些还不熟悉这一术语的人,请不要担心,因为第 15 章的全部内容都在介绍并解释这些思想。
表 1-1 可能使人得出一个肤浅的结论:“呀,这张表格告诉我们,在所有情况中,传统统计检验方法与贝叶斯方法所做的事情都类似,所以花费时间和精力来学习贝叶斯数据分析是没有意义的。”这个结论是错误的。首先,传统的 NHST 有深层次的问题,我们会在第 11 章讨论。其次,贝叶斯数据分析提供了多种内容更丰富且信息量更大的统计推理方法,本书中的许多例子将证明这一点。
8
第 2 版中有哪些新内容
这一版中主题的基本进程与上一版相同,但是从封面到封底,本书的所有细节都有所变化。本书里的所有程序全部进行了重新编写。以下是一些较为重要的变化。
  • JAGS 和 Stan 的程序是全新的。这些新程序比本书第 1 版中的脚本更易于使用。特别是现在有一些精简的高级脚本,可以帮助你更简便地处理自己的数据。写这些新程序的过程本身就是一项艰巨的任务。
  • 第 2 章介绍了贝叶斯推断针对多种可能性来判断它们可信度的基本思想。我重写了这一章并进行了扩展。
  • 关于编程语言 R(第 3 章)、JAGS(第 8 章)和 Stan(第 14 章)的三章是全新的。关于 R 的一章内容较长,包含了对数据文件与结构的解释,例如列表和数据框,还有一些工具函数。(这一章还有一首我特别喜欢的新诗。)关于 JAGS 的一章包含了对 runjags 包的解释,它是用来在并行的计算机核心上运行 JAGS 的。关于 Stan 的一章新颖地解释了哈密顿蒙特卡罗(Hamiltonian Monte Carlo)算法的概念,还解释了 Stan 和 JAGS 在程序流程上的概念差异。
  • 关于贝叶斯法则的第 5 章内容经过了大幅修订,强调了贝叶斯法则如何在从先验到后验的过程中,在参数值之间重新分配可信度。前面各章中所有关于模型比较的内容都删掉了,这些内容在整合之后将以更精简的形式在第 10 章呈现。
  • 关于 Metropolis 算法和 Gibbs 抽样的内容原本是独立的两章,现在被整合进关于 MCMC 方法的第 7 章。
  • 第 7 章和第 8 章中添加了大量关于 MCMC 收敛性诊断的新内容,其中有关于自相关和有效样本量的解释,还有关于最高密度区间(highest density interval,HDI)范围估计的稳定性的解释。新的程序会展示这些诊断方法。
  • 关于层次模型的第 9 章新增了关于收缩量这个关键概念的大量独特的材料,以及新的例子。
  • 关于模型比较的内容在本书第 1 版中是分散在不同章节中的,现在被整合进独立的一章(第 10章)。这一章强调了模型比较与层次建模。
  • 关于零假设显著性检验的第 11 章也经过了全面的修订。新版中增加了介绍抽样分布概念的新内容,以及关于各种终止规则和多重检验的抽样分布的新说明。
  • 关于零假设值评估的贝叶斯方法的第 12 章,添加了关于实际等价区域(region of practicalequivalence,ROPE)的新材料、用贝叶斯因子接受零假设值的新例子,以及使用 Savage-Dickey方法的关于贝叶斯因子的新解释。
  • 关于统计效应与样本量的第 13 章,添加了关于序列检验的内容,并建议将估计的精度作为研究目标,而不是拒绝或接受某一特定的值。
  • 关于广义线性模型的第 15 章经过了全面修订,将用更多更完整的表格显示预测变量类型与被预测变量类型的多种组合。
  • 关于均值估计的第 16 章,新增了关于两组比较的大量讨论,以及效应量(effect size)的估计方法。
  • 关于计量变量回归的第 17 章,现在包含大量使用 JAGS 和 Stan 进行稳健线性回归的例子。关于层次回归的新示例(其中包含二次趋势的示例),使用了图形来说明个体斜率与曲率估计的收缩,同时说明了加权数据的用法。
  • 关于多重线性回归的第 18 章,新增了关于贝叶斯变量选择的一节,其中,备选预测变量概率性地进入回归模型。
  • 关于单因素方差分析的第 19 章中,例子都是全新的,包括一个完全可行的与协方差分析类似的例子,以及一个涉及非齐性方差的新例子。
  • 关于多因素方差分析的第 20 章中,例子都是全新的,包括一个完全可行的裂区实验设计的例子,这个设计同时包含一个被试内变量与一个被试间变量。
  • 关于逻辑斯谛回归的第 21 章,增加了稳健逻辑斯谛回归的例子,以及名义变量的例子。
  • 关于多重逻辑斯谛回归的第 22 章是全新的。这一章中有本书第 1 版缺少的使用广义线性模型(也就是使用名义变量)的案例。
  • 关于顺序变量的第 23 章进行了大幅扩展。新的例子解释了单组数据与两组数据的分析,演示了将顺序变量作为计量变量进行分析的特点。
  • 新增的 25.4 节解释了在 JAGS 中如何对缺失数据建模。
  • 很多练习题是全新的或者经过修改的。
哦,我是不是提到过本书这一版的封面与第 1 版不同?明确一下小狗与贝叶斯法则之间的关系:后验小狗的折叠耳朵,是似然小狗的直立耳朵与先验小狗的松软耳朵折中的结果。MCMC 方法通常不计算边际概率,因此分母中的小狗因为没事可做而昏昏欲睡。我希望本书封面与封底之间的内容就像封面上的小狗一样友好且迷人。
  推荐阅读
《贝叶斯数据分析(第2版)》
作者:约翰·K. 克鲁施克(John K. Kruschke)
译者:王芳
1.美国加州大学伯克利分校博士,特罗兰研究奖获得者,美国印第安纳大学心理学和脑科学名誉教授、统计学副教授约翰·K. 克鲁施克,拥有近25年的统计学教学经验总结!
2.极佳的贝叶斯统计入门书籍!如果你认为统计学很难,或许是因为你在入门时错过了本书。
3.原著豆瓣高达9.4分!全面覆盖实用的贝叶斯统计知识,可读性强!
01

《贝叶斯的博弈:数学、思维与人工智能》
作者:黄黎原
译者:方弦
法国数学类科普书、大学数学参考及教材类图书畅销书目,在机器学习、人工智能、逻辑学和哲学等众多领域中,探索贝叶斯定理蕴藏的智慧与哲理。
贝叶斯定理一旦与算法相结合,就不再是一套枯燥的数学理论或认识论,而变成了应用广泛的知识宝库,催生了众多现代数学定理,以及令人称道的实践成果。
02

《趣学贝叶斯统计:橡皮鸭、乐高和星球大战中的统计学》
作者:[美] 威尔·库尔特(Will Kurt)
译者:王凌云
本书用十余个趣味十足、脑洞大开的例子,将贝叶斯统计的原理和用途娓娓道来。你将从直觉出发,自然而然地习得数学思维。读完本书,你会发现自己开始从概率角度思考每一个问题,并能坦然面对不确定性,做出更好的决策。
03

《谁在掷骰子?不确定的数学》
作者:[英] 伊恩•斯图尔特
译者:何生
几个世纪以来,在好奇心以及精确预测未来的“野心”驱动下,具有开拓意识的数学家希望从概率论和统计学着手,减少各种“不确定性”。但他们发现,某些问题始终难以解决,而直觉也在不断误导人类。
本书探讨了关于“不确定性”的有趣故事和相关科学知识。知名科普作家伊恩·斯图尔特巧妙地建立起一个易于理解、充满想象力的数学框架,从概率论、统计学、贝叶斯方法、混沌理论等角度展现了“不确定性”在金融市场、天气预报、人口普查、医学、量子物理学和宇宙学等诸多领域中的重要作用,展望了与不确定性问题紧密相关的科学门类的广阔研究前景。
04

《普林斯顿概率论读本》
作者:[美] 史蒂文·J. 米勒(Steven J. Miller)
译者:李馨
本书讲解概率论的基础内容, 包括组合分析、概率论公理、条件概率、离散型随机变量、连续型随机变量、随机变量的联合分布、期望的性质、极限定理和模拟等, 内容丰富, 通俗易懂, 并配有丰富的例子和大量习题, 涉及物理学、生物学、化学、遗传学、博弈论、经济学等多方面的应用,极具启发性。
继续阅读
阅读原文