量化投资与机器学习微信公众号，是业内垂直于量化投资、对冲基金、Fintech、人工智能、大数据等领域的主流自媒体。公众号拥有来自公募、私募、券商、期货、银行、保险、高校等行业30W+关注者，曾荣获AMMA优秀品牌力、优秀洞察力大奖，连续4年被腾讯云+社区评选为“年度最佳作者”。

最近学术论文不是很多，但好文章还是有的。给大家带来三篇论文，从模型的复杂度选择到限价单执行的微观预测。

特别是第一篇文章，非常值得仔细研读。第二篇文章关于MFINs，可以结合之前一篇关于DIN的推文一起阅读。

随着机器学习的发展，无论是学术界还是业界，都越来越多的在量化投资，包括收益预测和组合构建中使用机器学习。相对于传统的计量模型，机器学习算法通常包括更多的参数，即更复杂的模型。如何选择模型的复杂度，从而在预测能力和过拟合中找到平衡，常常是困扰研究者的关键问题。

本文从实证的角度尝试解答这个问题，并鲜明的给出了答案：当对预测结果进行适当的收缩（shrinkage）时，随着模型复杂度的提高，样本外预测的准确度和组合的表现会得到明显的提升。（文中推导出了能够最大化样本外模型表现的最优shrinkage）。分析人员应该始终使用她所能使用的最复杂的模型。这样的提升并不只在资产收益率的解释变量非常大的时候，即使使用少量的解释变量，模型复杂度的提升也能提高收益预测的准确度。

---

之前的机器学习研究通常依赖于人工定义的输入特征。本文开发了一个可以从数据中自动学习有用特征的模型。为了实现这一目标，我们引入了多因子初始网络（MFIN）作为一种结合多个资产的量价和另类数据的新方法。

这借鉴了先前在Deep Inception Networks（DIN）中的工作，并将概念扩展到多个因子。我们的实验表明，MFIN策略在扣除交易成本后仍然可以盈利，并学习到与传统策略不相关的行为，如动量和回归。MFIN还可以与现有的传统策略组合相结合，对夏普比率和盈亏平衡交易成本做出积极贡献，同时限制亏损。

---

订单执行策略中的关键决策之一是在被动(提供流动性)或主动(获取流动性)订单之间的选择，以执行限价订单(LOB)中的交易。这种选择的关键是LOB中的被动限价订单的执行（Order Filled）概率。

本文提出了一种深度学习方法来估计在LOB的不同层次上发布的限价订单的执行时间。作者开发了一种新的生存分析模型，将LOB的时变特征映射到限价订单的执行时间分布。我们的方法是基于卷积变压器编码器和单调神经网络解码器。使用适当的评分规则将其方法与生存分析中的其他方法进行比较，并执行可解释性分析以了解用于计算执行概率的特征的信息性。作者的方法明显优于生存分析文献中通常使用的方法。最后，作者对具有不同队列动态和交易活动的资产在订单簿（例如，在买卖价差内）中的订单执行概率进行了统计分析。

文章获取方式

后台回复：3篇

继续阅读

阅读原文

模型越复杂越好？