量化投资与机器学习微信公众号,是业内垂直于量化投资、对冲基金、Fintech、人工智能、大数据领域的主流自媒体公众号拥有来自公募、私募、券商、期货、银行、保险、高校等行业30W+关注者,曾荣获AMMA优秀品牌力、优秀洞察力大奖,连续4年被腾讯云+社区评选为“年度最佳作者”。
2024《因子日历》:200+个高频因子!够不够?
来自:The Journal of Financial Data Science Winter 2024
作者:Andrew Chin、Yuyu Fan、Chang Ge、Haobo (Tony) Zhang
标题:Leveraging Natural Language Processing on Chinese Broker Research Reports for Stock Selection

根据监管机构规定,上海和深圳交易所上市的公司必须公开披露经纪商或其他机构进行的任何现场调研,公众可通过券商调研报告获取这些信息。
在本文中,我们将这些报告称为券商现场调研报告(BRD)。
典型的BRD由两个部分组成:陈述和问答(QA)。陈述部分包括公司的目标概述,详细说明业务绩效、财务状况和战略优先事项。它向经纪人提供有关公司运作的基本信息和目标。在QA部分,调研人员会问一些具体的问题获得更深入的见解。
本文使用最新的NLP技术处理分析师现场调研报告,构建新的因子:
  • 首先,我们利用一个全新的数据源系统地提取分析师的观点。
  • 其次,我们利用基于NLP的技术分析以上文本。并通过比较词袋方法和上下文感知方法来获得情绪,从而提供了额外的见解。我们还测试了最先进的基于Transformer的方法。
  • 最后,本文发现文本复杂性为投资者提供了有意义的信息。将复杂性与情绪信号结合在一起可以获得重要的信息。
本文使用来自Orbit提供的BRD数据,如下是大族激光再2017年6月20日被现场调研前后的股价表现。在现场调研时,公司披露了他们强有力的经营情况和多个业务部门的业绩增长。报告发布后的两周该公司股价跑赢大盘超过5%。这个例子表明,报告发布后市场价格没有完全立即调整,我们有机会从报告的内容中获益。
表2显示了每年有BRD事件的公司的数量,表4显示了一家公司每年平均有22次BRD,且大约有5%的公司每年的BRD超过20次。表5显示BRD在每个月份均有发生,且5月、9月及11月现场调研次数相对较多。
基于NLP模型的BRD文本分析
本文使用Chinese-finBERT从情绪和复杂度两个角度对文本进行分析。文本复杂性通常通过复杂词汇的使用或句子的长度来衡量,还可以使用包括从句的平均字数和副词的比例 和句子中的连词来衡量。复杂的语言可能暗示未来基本面和股市表现不佳。相反,容易理解的信息很快被市场价格吸收,因此对潜在的错误定价的影响最小。关于复杂度的示例,请看下表7。
情绪是一个引人注目的特征,情绪较高的股票往往与更高的未来回报有关。尽管公司高管越来越意识到他们的语言受到算法的监控和剖析,有些人有意调整他们的语言来表达积极的情绪,试图影响模型,但我们发现,最先进的语言模型仍然能够从BRD中提取有用的情绪特征。本文分别使用词性统计和BERT模型对BRD进行情绪分析,分析结果见表10和12。
回测分析
首先,简单的分析下有BRD的公司和没有BRD的公司,相对基准的超额收益有没有显著差异,结果如下表所示,这两类公司的超额收益并没有显著差异:
接下来,基于MSCI China A Onshore指数成分股,对复杂性和情绪进行分组测试,下两表是复杂性因子和情绪因子的测试结果:
总结
分析师调研报告通常包含了上市公司最新的重要信息,除了常用的情绪因子,复杂因子的表现更为突出,且其与情绪因子的相关性非常低。
继续阅读
阅读原文