量化投资与机器学习微信公众号,是业内垂直于量化投资、对冲基金、Fintech、人工智能、大数据领域的主流自媒体公众号拥有来自公募、私募、券商、期货、银行、保险、高校等行业30W+关注者,曾荣获AMMA优秀品牌力、优秀洞察力大奖,连续4年被腾讯云+社区评选为“年度最佳作者”。
量化投资与机器学习公众号独家撰写
2023年世界人工智能大会,在“Smart Data · Smart Way——数据智能论坛”上,黑翼资产创始人邹倚天发表了《从信号挖掘到模型构建,全流程AI拓宽量化边界》的主题演讲。
QIML公众号对演讲内容做了精华解读:
AI技术在量化投资的全流程运用
量化投资经过十几年的发展,现在已经进入到精耕细作的时代,必须把每个环节打磨的非常细才能做出超额收益,因而大家使用的模型也日渐复杂,对算力要求也越来越高。黑翼是如何在量化投资整体流程中运用AI的,下面的内容给出了解答。
第一步:策略想法构建
主要是基于对市场观察、学术论文所产生的想法去构建策略。
第二步:因子构建
研究员从各种数据库或实时数据源去找数据建模,并进行回测验证想法。
第三步:预测模型
负责预测的相关同事从成千上万的因子库中提取特征,并通过各种模型进行组合,对股票价格进行预测(可以是简单的线性模型也可以是复杂模型)。
第四步:组合优化
组合优化的流程是缘于对预测的股票不能直接交易,因为实际交易中存在摩擦成本,交易会对市场造成冲击。
第五步:算法交易
根据要交易的数量进行建模,判断短期流动性、市场波动率、短期市场价格走势,找到最好交易的时点,确保交易不会对整个市场造成过大影响。
在这几个环节里面,黑翼都用到了AI技术。我们具体看看是如何应用的:
1、数据收集环节
通过NLP技术、大语言模型等对结构化量价数据、文本数据等海量文本进行分析,判断文本情感等等。
目前许多网站上的财经新闻以及投资者对于某些股票的评论,其中不乏负面/中性/积极的情绪,若通过人工检索极慢,但通过NLP技术即可在短时间内扫描大量新闻,分析出大众投资心态,给出情感打分,并对未来股价造成的影响进行分析。

在分析券商研报时,也可以把内容放到模型里面去做定量的打分,这一点用人工很难区分,但是大语言模型则能够很好地甄别其中细微的情感变化。
2、因子挖掘环节
AI机器挖掘因子比传统的人工挖掘因子的方式效率更高,预测精度更高。
比如在对贵州茅台的未来股价进行预测为例,传统因子可以从宏观、行业、个股分析得到的不同类型因子,加上新闻舆情的情感分析,以及历史数据中蕴含的模式与趋势等结合起来,形成综合性的选股策略。而AI模型挖掘因子,主要是集中在高频量价领域,丰富了传统因子的维度。
我们通过AI算法可以将人工挖掘的整个思考、分析、设计过程进行转化,变成复杂数学空间中的搜索优化过程,从而可以实现超大规模金融信号的自动挖掘与自动建模。AI的参与,让我们在挖掘基本面因子和人工量价因子外,还加入了更多高频量价和另类数据。
AI机器挖掘因子与人工挖掘因子两者的区别在于,AI可以处理大量非结构化数据,在因子合成和特征提取上比人工要更具效率。相比传统的基于规则或指标的选股方法,AI模型可以同时考虑多个因素和指标,以及它们之间的复杂关系,加强了模型整体的稳定性。
将AI挖掘出的因子与人工挖掘出的因子进行优势互补,提升整个模型的稳定性。这样不仅仅考虑到公司的基本面和中长期前景,亦能够考虑到市场的博弈情况。

3、收益预测环节
将各种特征结合起来,用AI模型对股票进行预测,这也是AI模型利用最多的一个步骤。
对于市场的预测,总的来说其实是一个时序预测的问题,所以我们要在时序上将不同的输入信息结合,对于不同类型的输入,会用到不同种类的深度模型。
比如,DNN可以用在因子的组合上,LSTM可以用在时序量价数据上。另外还有一些比较少见的,比如用知识图谱的方式来学习产业链、供应链等信息。而且由于金融市场低信噪比这个特点,我们在做模型的时候十分需要避免过拟合的问题,有人说量化投资就是一个暴力挖掘的过程,其实不然,量化投资里需要非常多的人工经验积累去处理过拟合的问题。
我们以神经网络算法为例,在预测流程上具体分为三个环节,输入层,隐藏层和输出层。首先,在输入层,我们将历史数据中的各项指标输入到神经网络中。包括量价行情数据、舆情媒体研报等文本信息,还有电商数据、产业链等另类数据。
然后,进入隐藏层,会对输入层的数据进行处理和转换,提取出更加有用的特征。隐藏层中的神经元数量和层数可以根据实际情况进行调整。
最后是输出层,根据隐藏层的输出,预测未来的股票价格。

4、组合优化环节
在股票组合优化环节,我们也可以把这个问题用强化学习的方法来处理。首先,需要对问题进行建模,强化学习中的环境空间对应着股票交易市场,动作空间对应着投资决策的可选行动集合,例如买入、卖出、持有不动或调整仓位比例等。
强化学习依赖于奖励函数来评估每个决策的好坏,在股票组合优化中,奖励函数可以根据实际收益、风险、目标达成情况等来定义,目标是寻找最大化长期收益并控制风险的策略。
然后,我们可以通过使用强化学习算法(如DQN等),从历史数据中学习最佳的股票组合优化策略。算法将根据当前状态选择动作,并通过与环境的交互进行学习和优化,寻找最佳的收益-风险平衡。

5、算法交易环节
对于量化投资来说,最理想的交易是把石头扔到池塘里产生的波浪越小越好——即,对极短时间内的股价波动和流动性变化做预测,寻找最佳交易时点,尽量减少自身交易对市场的冲击。
总结
数据、算法、算力作为AI本身的三要素,各自都有着对量化投资的巨大赋能力,数据质量的提升将给AI算法提供源源不断的优质食料,算力又为海量数据分析和复杂模型的运行提供支撑,三者之间是相辅相成的。

随着AI技术的持续发展,它将飞速提升各个行业的生产力,也将继续为量化投资行业带来新的变革,成为核心的驱动力!

量化投资归根到底是科学和艺术的结合。
不论我们的模型多么好,算力多么强,其背后依靠的还是人才,尤其是大数据分析人才、AI算法人才,所以量化投资行业非常需要这些人才的加入。
资本市场本身是一个博弈的过程,它跟其他领域非常不一样,我们在fit the market的同时也在make the market
让我们一起御风而行,探索量化的边界!
继续阅读
阅读原文