作者:石川,北京量信投资管理有限公司创始合伙人,清华大学学士、硕士,麻省理工学院博士。《因子投资:方法与实践》领衔作者。
封面来源:https://www.pexels.com
未经授权,严禁转载。
中文版《机器学习与资产定价》创作背后的心路历程。
上期的文章推荐了我和王熙老师翻译的 Stefan Nagel 的 Machine Learning in Asset Pricing。在我 move on 到常规文章之前,不妨再找今天这个机会梳理一下创作中文版背后我的心路历程(王老师的灵魂实在太有趣,咱代表不了啊)。
以下将从“选材”、“联手”以及“翻译过程”三个方面叙述;三方面内容的长度满足“选材”>“联手”>“翻译过程”。
01
选材
自打我精读了 Kozak, Nagel and Santosh (2018, 2020) 以及 Martin and Nagel (2022)(包括早期 working paper 版本)之后,就深深地被 Nagel 圈粉。而 2021 年的某一天,刘洋溢将 Machine Learning in Asset Pricing 一书推荐给我。我读过之后心潮澎湃,心中充满了相见恨晚的情绪。之后,我又“二刷”、“三刷”,仔细体会 Nagel 在字里行间传递出的理论和实证前沿。
现如今,机器学习越来越被人们熟知,其在其他领域的成功应用也早已让学界和量化投资业界对于其在资产定价方面的应用跃跃欲试。然而,在寄希望于机器学习大展身手之前,人们也不得不承认资产定价和其他应用方面存在的巨大差异(下表),它们阻碍着机器学习在资产定价领域的成功应用。
相比于其他把机器学习应用于资产定价的书籍,Nagel 这本书充分考虑了上述差异,其最大的特点是强调经济学推理对成功应用机器学习方法的重要性,并且在这个观点之下给出了如何将二者联系在一起的研究框架。在 Machine Learning in Asset Pricing 之前,并没有哪本书从这个视角来审视机器学习对于资产定价所能够发挥出的作用。从这个意义上说,它是独一无二的。
由于其阐述视角的创新(我其实想说“所站在的高度”),它和其他把“机器学习”和“资产定价”结合在一起的“工具类”书籍截然不同。也正因如此,在我第一次读完它便猜想它的口碑可能会非常分化:喜欢的人会如获至宝,而不感冒的人也许会不屑一顾,正如下面这两个 Amazon Review。
庆幸的是,我是第一类人。我关注的是“机器学习是否适用于资产定价”以及“如何让机器学习发挥出更大的作用”这类 fundamental 问题,而 Machine Learning in Asset Pricing 对这些问题进行了很好的作答。
举个简单的例子。
大量实证结果表明,当存在诸多协变量时,OLS 的样本外表现不如岭回归(ridge regression)。当人们感慨正则化的作用时,不妨从另一个角度思考一下其背后的解释。如下图所示,在一定的假设下,岭回归的估计量和贝叶斯估计量的形式相同,这意味着岭回归的罚项具有贝叶斯解释,其超参数  控制着人们对于先验的强弱(即参数向先验收缩程度的高低)。
在资产定价以及量化投资中,过拟合的根源正是过分的重视数据而忽视先验。如果先验中没有任何有效的信息,那么使用 OLS(即完全相信数据)并无不妥。然而,由于金融数据信噪比非常低,在资产定价以及投资中放弃先验是非常危险的。上面这个简单的例子形象地说明了如何通过贝叶斯框架将先验和模型联系起来。
这样的例子和精妙设计在 Machine Learning in Asset Pricing 中随处可见。而随着阅读的深入,我也愈发地被它所折服。也就在这个时刻,我萌生了一个念头:这本书值得有高质量的中文版。
02
联手
近年来,海外不少金融和投资领域的书籍(其中不乏经典著作)先后有了中文版,其中有一些翻译地很到位,而另一些则实在不敢恭维(让我伤心几分钟)。一个合格的中文版的最低标准是准确表达原著的内容和思想,但想要达到这个最低标准的前提条件却一点也不低:译者应非常了解原著及原著作者所涉及的领域。
在翻译 Machine Learning in Asset Pricing 这个项目中,我非常高兴有机会和北大经院的王熙老师合作。王老师是留美回来的博士,研究方向正是机器学习、资产定价以及贝叶斯统计的交叉学科。差不多两年前,我去北大经院做实证资产定价和因子投资的报告时和他结识,后来又因为共同参加了海通证券的量化投资论坛而熟悉,并从那之后开始讨论和研究各种实证资产定价的模型。在这个过程中,我对他“使用的每个公式都应该能够推导”的研究态度十分欣赏,并常常在讨论中被他有趣的灵魂所打败、被他抛过来的大公式所碾压。
后来机缘巧合,我和他提了 Nagel 的 Machine Learning in Asset Pricing。他对该书也非常认可,于是我们一拍即合决定合作翻译中文版。能与王老师联手也让我坚信,我们能够为各位呈现高质量的中文版,而不是糟蹋这本资产定价领域的前沿著作。后来,我们和电子工业出版社合作,向原著的版权方普林斯顿大学出版社提出中文版的出版申请,顺利地得到了对方的同意。在此,再次感谢普林斯顿大学出版社的信任。
如果各位小伙伴看过中文版之后认可其传达的观点和研究框架(正如 Amazon Review 的第一类人),那么首功自不必说,一定在 Nagel;而功劳簿上的第二名就要数王老师。而之于我,能实现“Machine Learning in Asset Pricing 值得有高质量的中文版”这个愿望,就已足够。
03
翻译过程
选完材、组完队,翻译过程也就水到渠成。
为了创作合格的中文版(合格定义见前一节第一段),精读原著以及精读原著所引用的所有重要文献、复现推导每个公式、反复讨论敲定用词、发扬“不是处女座胜似处女座的精神”多稿迭代互相“挑刺”、贯穿全书不吝惜篇幅加入必要的译者注(只为了让读者更好地体会原著的魅力)、甚至是反向看出出版社编辑老师的 typos,这些都仅仅是常规操作。
我可以问心无愧地说,虽然这不是我自己的书,但我在翻译过程中投入的热情和认真程度绝不亚于之前写作《因子投资:方法与实践》。这可以体现在译者注中列出的那些原著勘误。有些勘误是公式中遗漏了变量这种非常直观的,而有一些则是“只有把原著当作自己写的书才能看出来的勘误”。对于这后者,就留给细心的小伙伴在阅读中文版时慢慢体会。
最终,Nagel 对翻译稿的评价是:The author is happy with the quality.
看到这个评价的时候,一切努力都是值得的。

以上就是我想说的全部。
对了,如果要说翻译书和写书有什么区别,那就是翻译的时候必须忠于原著,最贴切地呈现原著的内容,因此作为译者也就没什么发挥空间(也不应该随意发挥)。不过,我们还是在译者序里以“主人公”的身份写下了我们对原著的看法以及写给你的话(上篇推文就选自译者序),希望各位小伙伴能从中捕获到两个有趣的灵魂。
参考文献
Kozak, S., S. Nagel, and S. Santosh (2018). Interpreting factor models. Journal of Finance 73(3), 1183 – 1223.
Kozak, S., S. Nagel, and S. Santosh (2020). Shrinking the cross-section. Journal of Financial Economics 135(2), 271 – 292.
Martin, I. W. R. and S. Nagel (2022). Market efficiency in the age of big data. Journal of Financial Economics 145(1), 154 – 177.
免责声明:入市有风险,投资需谨慎。在任何情况下,本文的内容、信息及数据或所表述的意见并不构成对任何人的投资建议。在任何情况下,本文作者及所属机构不对任何人因使用本文的任何内容所引致的任何损失负任何责任。除特别说明外,文中图表均直接或间接来自于相应论文,仅为介绍之用,版权归原作者和期刊所有。
总写量化
分享量化理论和实证心得
继续阅读
阅读原文