量化投资与机器学习微信公众号，是业内垂直于量化投资、对冲基金、Fintech、人工智能、大数据等领域的主流自媒体。公众号拥有来自公募、私募、券商、期货、银行、保险、高校等行业30W+关注者，曾荣获AMMA优秀品牌力、优秀洞察力大奖，连续4年被腾讯云+社区评选为“年度最佳作者”。
Campbell Harvey、王啸

机器学习

近年来，机器学习技术的出现推动了量化投资策略的发展与迭代。事实上，这些技术其实已经存在很长一段时间了，当年很多人都在用。只不过因为算力、对模型的理解和数据等问题没有像今天这样如此繁荣。

机器学习是量化投资一个非常关键一环，但其只是整个量化投研框架中的一部分，它是很重要，但它只是其中的一个部分！

提一句：随着数百种机器学习算法以及越来越多的人工智能技术的出现，选择适合自己的其实是最重要的。只有合适的没有最好的！

有三个具体因素导致了机器学习应用的激增，但我们也要注意很多问题：

1、数据

在Cray 2的时代，1GB的存储成本是1万美元。今天，1GB的成本不到一美分，这使得大量数据的收集和存储变得廉价。除了廉价的存储之外，数据的范围从量化扩展到众多非结构化数据（文本、语音、网络、地理卫星、图片等）。

举个例子。在我们做Alpha的时候，假设我们要预测未来5天的收益率，一年250个交易日，独立的5天的信息只有50点，你只有4000只股票，就算你有10年的数据，你可拥有的训练数据量是也是极为有限的（大家可以自己算算）。相比互联网场景，因为互联网的文本、图像等信息是无穷无尽的。

有的人会说我写1万个因子、写10万个因子，是不是就会增加数据量？

大家要理解一个概念就是“独立数据量”，因为你简单的把高开低收做各种各样的组合，这样的因子其实是没有更多的信息的。

例如一个量化研究员写了一个和价格有关的一个因子，关于过去10分钟的close（mean），然后把这个因子复制成close（high）、close（low）等等，但其实这些因子相关性是极其高的，看上去你是有很多的因子，但根本没有增加任何信息。也就是说在量化金融场景里，真正有效的因子的数量也是有限的。

所以，数据量太少，是量化行业一个非常大的挑战。所以我们才要在另类数据领域寻找一些新的因子与方向！

2、算力

1990年，一台Cray 2超级计算机耗资3200万美元，重5500磅，每秒能进行19亿次浮点运算，同时还需要一个冷却装置。今天，我们使用的手机比Cray 2快500倍。

这里我们引入另外2个话题：

1、一个从互联网科技大厂去量化对冲基金的工程师可以顺风顺水吗？

2、硬件算力强就代表量化投研能力强吗？

我们结合起来回答：

算法是对世界的简化，通常是高度参数化的。它们对过去的行为进行优化，但世界在不断的变化，即使使用今天的技术，构建一个可靠的算法也会随着时间的推移而改版。这时的难点在于如果你把模型训练的太好，它对那段训练的数据学的太好，如果接下来的是市场和你训练的环境不一样，你会亏很多钱，如果你不去训练，你也会亏很多钱。

因为金融数据的信噪比很低，一个过拟合的算法在回测中看起来很棒，但在实时交易中表现不佳。

所以量化的难点在于你怎么找到在过拟合与欠拟合中间的那个平衡点！

现在，我们可以回答第二个问题：量化的难点永远不是你算力有多强！

如今互联网进入大语言模型的时代，大家的工作都在做一个事，就是如何让我的集群把更多的GPU连接起来。把GPU连起来需要这个人有两个能力：算法的能力、工程能力。

所以，互联网的难点之一是你需要把越来越多的GPU连起来，但你从来不需要担心过拟合问题。

所以，我们可以回答第一个问题：因为在第一点我们讲到了量化的难点之一是我们根本就没有那么多的数据，数据又极其的不稳定，所以管理人的难点是没有那么多很优秀的机器学习工程师。

所以现在国内的量化私募大量招聘从像腾讯、华为这样的公司过来的工程师，但最后他们成功的人却非常的少，而且有些留下来的都是后续培养出来的。虽然他们每个人在原来的岗位上都做出过一些成绩。

再例如：我们在训练一个预测未来1天或3天的模型，大概会放1000~2000个特征。

有人就会问：放2万个会不会更好？其实不会！

但如果你在高频领域，你预测未来5分钟的模型，你可以放1-2万个特征，但也就如此了。

所以到最后，算力其实是一个简单的数字，且这个数字是有限度的，不像互联网的那样无穷无尽。

3、开源

今天，我们得开发效率变得十分高效，因为工程师不必再重新造轮子，GitHub就是一个很好的例子！

GPT用得好 ≠ 量化投资做得好

假设GPT发展到终极阶段，他可能会成为一个很聪明的人，但量化投资领域是一个认知比拼的领域（意思就是说得有人告诉他很多很多的细节该怎么做）。

量化不是一个黑箱，也不是一个圣杯，也不是你做了一个模型就开始躺着赚钱的工具。

量化是一个不断迭代、中间有几千上万个细节和环节堆积在一起的一个工作！

这些东西需要有人教GPT，未来也许会有，但现在还是还非常遥远的。

当然，GPT对量化也有一些帮助，例如debug代码，帮你写一些基础的东西等等，在此不再展开讨论。

最后，GPT可以是一个很好的工作帮手，但在量化投资领域，目前它不是一个最优的解决方案！

各位Quant，加油！

任重而道远~

继续阅读

阅读原文