核心观点
1、本文基于公司间产品关联度构建产业链网络,再对产业链网络做社群检测,并与现有的行业分类进行对比;
2、产业链网络内部,有关联股票对比无关联股票对表现出更强的相关性,但整体表现不及原始行业;
3、产业链网络社群内部,二次聚类的社群内股票对比一次聚类的社群内股票对表现出更强的相关性,且表现也不弱于原始行业;“社群内+连接关系”有助于提升社群本身的表现,二次聚类的社群内相连股票表现已优于原始行业;
4、上述表现在不同市值板块内部、行业内部也都成立,能在板块或行业内部进一步筛选出相关性高的股票,基于产业链网络的社群检测相比传统行业分类能更全面综合的考察公司间关系。
一、前言
在之前的《基于 A 股供应链网络的股票收益分析》和《 基于 A 股新闻共现网络的股票收益分析》中,我们分别研究了供应链网络和新闻共现网络,通过社群检测算法对网络进行聚类分析,能够得到新的股票分类方式,带来增量信息,丰富股票间关联关系的维度。在本篇中,我们着眼于 A 股产业链网络,采取与之前相类似的分析流程,深入探讨产业链上相关的股票的关系,并与现有的行业分类体系进行对比。
二、构建产业链网络
2.1 产业链网络的构建步骤
2.1.1 产业链网络的数据及其来源
产业链网络的数据来源于数库提供的产业链数据,主要应用的数据表为 fin_secu_sam_product 表和dict_product_rs 表。其中 fin_secu_sam_product 为公司原始分项表,主要使用到的字段如下表所示:
dict_product_rs 表为产品字典表,主要使用到的字段如下表所示:
2.1.2 产业链网络的构建步骤
在构建产业链网络时,我们参照了兴业证券《 基于产业链的行业重构研究 》中企业关联图的构建方式,具体步骤如下:
1、对 A 股上市公司,基于数库产业链数据中的原始分项表和产品字典表,将下属层级的产品收入统一映射到数库二级产品上,从而构建公司在数库二级产品收入上的分布向量;
2、对同一个报告期下的不同公司,计算公司与公司在产品上的关联度,具体的计算方式如下:A,B 分别代表两个企业,𝑤𝑒𝑖𝑔ℎ𝑡𝐴,𝐵,𝑖 为在报告期 i 中企业 A 与企业 B 的企业关联度,𝑠𝑢𝑚(𝐴∪𝐵)𝑖为在报告期 i 中在企业 A 或企业 B 有收入的产品营收金额总和,𝑠𝑢𝑚(𝐴 ∩ 𝐵)𝑖为在报告期 i 中在企业 A 且企业 B 有收入的产品对应的营收金额总和,关联度的计算如下:
3、根据以上计算得到的企业关联度,去除其中关联度为 0 的关系,构造对应报告期下的加权无向产业链网络图,图中的点为A股上市公司,边的权重则为公司与公司在产品上的关联度;
4、补充:当二级产品营业收入为负时,令负营业收入为 0;若最终边的权重为 0 ,则用该横截面所有边权重的最小值代替,这样能保留该产品下的股票关系。
下图展示了 2021 年年报下产业链网络中部分企业的关联关系:
2.2 产业链网络A股覆盖度统计
相比供应链网络和新闻共现网络,产业链网络在 A 股上的覆盖度相对较高,全 A 上的覆盖度稳定在 88% 以上,沪深300、中证500、中证1000 等常见板块上的覆盖度稳定在 90% 以上,这是因为大部分上市公司在财报中都会比较详实地披露营业收入分项数据。
三、产业链网络的社群检测
与前 2 篇《基于 A 股供应链网络的股票收益分析》《基于A股新闻共现网络的股票收益分析》文章保持一致,下文仍然沿用图论的社群检测算法 leiden 算法对产业链网络进行社群检测(无向图、带权重,边权重为公司共有产品的关联度),深入探究产业链中的公司间关系。
3.1 社群检测结果展示
下表统计了各横截面社群检测后各集群的规模。对产业链网络进行初次聚类,也会得到一个超大组件和几个迷你集群,再对最大组件进行第一次社群检测,聚类后的集群数量在 11~15 个,前几个大集群的规模超过 300 只股票。由于第一次聚类后集群数量相对较少,头部集群中的 A 股仍相对集中,所以下文我们将对第一次聚类得到的集群再做一次社群检测,即进行第二次聚类。
下表统计了各横截面二次聚类后得到的集群数量和集群规模。经过第二次社群检测后,集群数量提升至 55 个以上,头部集群规模也相对更均衡。
下图挑选展示了一次聚类后某个集群进行二次聚类后的聚类结果,时间为 2021 年年报:
3.2 社群检测与行业分类的差异
产业链网络的社群检测本质上基于公司间业务上的相似度做公司分类,这与常用的中信行业分类、申万行业分类的分类标准参考的信息是一致的。下文统计了二次聚类后社群内部成分股与中信一级行业成分股的平均重叠率( 集群 i 对行业 j 的重叠率 = 集群 i 内属于行业 j 的公司数量 / 所有集群内属于行业 j 的公司数量,然后横截面对 所有集群的重叠率计算求中位数。),仍然是银行和金融类行业与个别集群有着很高的重叠率。反过来看,产业链网络的社群检测得到的公司分类结果与中信行业分类仍存在较大差异,两者并不等价,前者考察了公司的全部业务,是整体相似性的反映,后者主要考察了公司的最大主营,是局部相似性的反映,前者包含的信息量更丰富。
下面几幅图展示了 2021 年报和 2022 中报的中信一级行业成分股在一次聚类集群内部和二次聚类集群内部的分布情况,产业链网络社区检测得到的集群内部大多都是包含了多个行业,而不是单一行业,是不同于传统行业的公司分类方式。
四、收益率相关性分析
在之前的供应链网络和新闻共现网络研究中均发现:存在供应链关联/新闻共现关系的股票对比无关联股票对表现出更强的相关性,且供应链网络/新闻共现网络集群内股票对的相关性最强。本篇继续探究上述规律是否在产业链网络中同样存在。除此之外,相比于供应链网络和新闻共现网络,产业链网络中应用了两次 leiden 社群检测算法,分别得到了一级和二级的产业链网络聚类结果,因此也将探讨 2 种聚类方式的结果对比。
在计算不同关系下股票对收益率相关系数时,对于 t 年的半年报,收益率序列的时间区间为 [t 年的 8 月 30 日,t+1 年的 4 月 30 日);对 于 t 年的年报,收益率序列的时间区间为 [t+1 年的 4 月 30 日,t+1 年的 8 月 30 日)。由于半年报和年 报收益率序列长度存在不一致,下文在绘制收益率相关系数分布时,会同时展示 2021-12-31 和 2022- 06-30 两个报告期的表现。
4.1 产业链网络的收益率相关性分析
4.1.1 全 A 上的表现
下图对比了不同报告期下产业链网络中关联股票对和不关联股票对的收益率相关性数均值(关联股票对 connected,即为产业链网络中每条边两端的节点对;不关联的股票对 unconnected,即为产业链网络所有 A 股节点两两配对后剔除掉前面那部分关联股票对后剩余的股票对。),此外还特意加入了属于同一个中信一级行业的股票对做进一步对比( industry 为对每个中信一级行业内部股票两两配对后的并集)。从对比结果可知,至少生产一种相同产品的股票对比生产产品各不相同的股票对表现出更强的相关性,但前者的相关性表现仍要差于属于相同中信一级行业的股票对。
下图绘制了 2021 年报和 2022 中报横截面上,关联股票对和不关联股票对收益率相关系数分布情况。可以清晰的看出,关联股票对的分布位置更位于 x 轴的右侧。
4.1.2 板块内部表现
同样分别在沪深 300、中证 500、中证 1000 板块内部计算了各时点上关联股票对和非关联股票对的收益率相关系数( 对板块内成分股两两配对,并划分成关联股票对和非关联股票对两部分。),计算均值,并绘制如下对比图,可以发现,不同市值股票间也都存在上述规律,产业链网络上的关联关系不受市值的影响。
4.1.3 行业内部表现
行业维度,分别挑选了银行、医药、汽车 3 个中信一级行业,在行业内部计算各横截面关联股票对和非关联股票对的收益率相关系数,计算均值,并绘制如下对比图。虽然银行与社群的重叠率很高,但银行内部仍然表现出:有相同业务公司间的相关性更高。
4.2 集群内外的收益率相关性分析
前文有提到,基于产业链网络的社群检测与传统的中信行业、申万行业是同一维度的公司分类方式(都基于公司业务),但两者的分类结果仍存在较大差异。为了评判哪种分类方法更有效,下文对比分析了集群内外和行业内外股票间收益率相关性的差异。将产业链网络所有节点两两配对,得到股票对集 random;将中信一级各行业内部成分股两两配对再求并集,得到股票对集 industry;将第一次聚类后各集群内部的 A 股分别进行两两配对再求并集,得到股票对集 cluster_l1;从 cluster_l1 中筛选出相连的股票对即为股票对集 cluster_connected_l1;将第二次聚类后各集群内部的 A 股分别进行两两配对再求并集,得到股票对集 cluster_l2;从 cluster_l2 中筛选出相连的股票对即为股票对集 cluster_connected_l2。分别计算上述 6 种股票关系的收益率相关系数。
4.2.1 全 A 上的表现
下图对比了不同横截面上 6 种股票关系的平均收益率相关系数。对比第一次聚类和第二次聚类,第二次聚类后集群内部股票对 cluster_l2 的相关性表现明显优于第一次聚类 cluster_l1,但都稍弱于中信一级行业的表现industry ;进一步在“集群内且相连”条件下,第一次聚类 cluster_connected_l1 的表现才达到 cluster_l2 水平,但第二次聚类 cluster_connected_l2 的表现也进一步提升超过了 industry 的表现。结合上文结果可知,对产业链网络进行二次聚类的效果优于一次聚类的效果;在社群基础上叠加连接关系有助于提升社群本身的表现;通过对产业链网络进行社群检测的这种公司分类方式也能比传统中信行业效果更优。
下图绘制了 2021 年报和 2022 中报横截面上第一次聚类和第二次聚类的股票对相关系数分布图,分布形态也与上文结论相一致。
下图绘制了不同集群内部股票对(对应股票对集 cluster_l2)收益率相关系数分布图,其中,越靠左侧的集群规模越大,集群内相关性表现与集群规模并不存在显著关系。相关性相对高的集群(如 2021 年报的 37、45、52 集群;2022 中报的 37、51、54 集群),查看集群内成分股可知,都是属于银行和金融类的股票。
查看 2021 年报相关性排名第 4 的 55 集群内部 12 只成分股(如下表所示),成分股所属中信一级行业并不一致,但这些来自不同行业的股票都聚类到了同一个集群,通过查阅这些成分股的 SAM 4 级行业,也都同属于半导体产品与设备。这也进一步说明基于产业链网络的社群检测相比传统行业分类能更全面综合的考察公司间的关系。
4.2.2 板块内部表现
下图同样展示了不同市值板块内部在行业内部和二次聚类集群内部的相关性表现,可以发现上述结论也是同样成立的,而且在沪深 300 上表现最明显,集群内表现也不受市值的影响。
4.2.3 行业内部表现
下图也同样展示了银行、医药、汽车行业内部的二次聚类集群的相关性表现,也同样不受行业的影响,而且社群表现要优于行业自身表现。
五、总结
从上文的分析结果可知,与供应链网络和新闻共现网络一样,产业链网络中同样存在" 关联股票对比非关联股票对表现出更强的相关性,集群内股票对比集群外股票对也表现出更强的相关性"的现象,同样也基本不受市值和行业的影响,能带来新的增量信息。同时,产业链网络也有其自身的特性。在产业链网络中,产业链网络的二次聚类得到的集群相关性显著高于一次聚类得到的集群,可以类比于行业分类中细分行业的相关性更高,说明聚类在带来新的增量信息的同时,也符合行业越细分区分度越好的规律;在二次聚类的基础上叠加连接关系能继续提升社群本身的表现,相比于传统中信分类效果更好。
关于数库科技
数库科技成立于2009年,是一家引领产融数字化的数据科技公司,五次荣获KPMG中国Fintech 50企业。数库科技长期致力于在金融及产业领域提供基于产业逻辑的智能数据产品与系统服务,帮助金融机构、企业集团、政府部门解决业务场景中的数据和系统需求。数库科技目前提供产业监控、区域产业解析、智慧招商、智能风控、资产管理、智能投研、优企追踪、产业上下游精准营销、智能资讯、量化投资等多维度业务场景。同时,拥有SAM产业链、供应链、企业图谱、新闻舆情等全方位数据流服务,以及Clue对公数字化中心,企业舆情监控及风险预警中心、政务级产业大脑、供应链舆情预警、金融机构级内部资讯头条、企业级智能资讯等场景化解决方案。
市场联系:19921361104
官方客服:021-36359362
企业网址:www.chinascope.com
商业合作:[email protected]
继续阅读
阅读原文