随着全市场基本面 alpha 增量信息的挖掘变得越来越困难,行业内选股模型开始备受关注。一方面是因为有很多因子只在某一行业,或者某些特定行业有效,而全市场建模无法方便的加入这些信息。另一方面,由于不同行业的属性不同,细分行业建模可能比全市场建模预测的更加准确。基于上述两个原因,我们尝试构建行业内选股模型,期望该方法能够对原有的全市场模型有所改进。
本文测试和逻辑相结合的方法,即先测试每个行业每个因子的表现,然后从中找到一些行业逻辑。这类方法较为方便,但十分容易找到伪逻辑,从而陷入过拟合。例如我们在交运行业测试因子,发现资产周转率增长表现很好,在所有测试的因子中 ICIR排名第一,我们认为这是由于交运行业较为重视公司的周转率,于是将该因子纳入交运行业的因子池,但这显然是靠测试得到的逻辑,有很高的过拟合的概率。因为资产周转率的提升在每个行业都代表着公司运营效率的提升,按照这个逻辑,资产周转率增长因子应该在每个行业都表现较好,但事实是只有部分行业中该因子有选股能力。
行业内因子筛选
由于行业内的样本过少,当前成分股最多的行业也只有不到 300 只股票,而最少的只有30 只左右,在我们样本区间的早期,大部分行业成分股的样本数量都不到 100 只。因此在选取行业内因子时,我们必须找到因子的逻辑。
表1:因子列表
基础因子
在基础因子中,经过测试我们发现其中有几个因子几乎在所有行业中的有效。可以看到,这几个因子都与公司的净利润相关,这也是公司基本面最核心的因素。同时这几个指标分别代表了公司的三的方面,估值,盈利能力,以及成长性。
表2:因子无效行业
我们发现餐饮旅游行业,这些最基本的因子都没有效果。我们认为可能有两点原因。第一是餐饮旅游行业的股票数量过少,截止目前只有 30 只左右,因子中包含的噪声较多。同时其子行业又分旅行社、景区、酒店、餐饮,成分股之间差异较大,题材频出,因此市场表现可能会与基本面有较大的偏离。对于餐饮旅游行业,我们将不进行单独的行业内预测。
oy_or_q:营收增长按道理在每个行业都是较为重要的指标,但是在很多行业中,其并没有选股效果例如煤炭,农林牧渔,军工,食品饮料,轻工,公用,石油石化,纺织服装,建材。这些行业并没有明显的共性。但是在 TMT 行业,营收增长因子效果非常好,排在所有行业的前列。这可能的原因是在 TMT 行业中,有较多公司或者项目尚未盈利,但其未来成长性较好,因此在评价公司成长性时会更加重视公司的营收增长。
表3:单季度营收增长因子测试
bp: 按照逻辑我们应该在强周期行业中使用 bp 指标,这是由于强周期行业在不同时期市盈率波动较大,而企业的净资产相对于盈利来说周期性并不强,因此 bp是一个较为有效的指标。我们在金融和周期板块中测试了该因子,均有不错的表现。
汇总
在上述的分析中,我们尽可能的从逻辑出发,针对因子在不同行业的适用性,以及一些行业的特质逻辑,选取了每个行业适用的因子。因子最少的行业只有 3 个因子,而因子最多的行业也只有 8 个因子。虽然我们选取的因子不多且都是一些常见的因子,但是基本能够保证这些因子在行业内是有逻辑的,其因子表现是可以持续的。如果今后能够再找到某些因子的行业逻辑,我们可以对该因子列表进行持续的填充。
组合构建
得到每个行业适用的指标之后,我们尝试构建行业内的选股模型。我们将因子分为估值,成长,盈利和其他四类,然后在小类中等权合成,再将大类因子用 ICIR 加权。由于行业中样本过少,ICIR 较为不稳定,这里我们使用过去 24 个月的 ICIR 值作为权重。得到各行业内的组合之后,我们将其和全市场选股的模型进行对比。
第二节中提到餐饮旅游行业的股票过少,而且常见的因子对其也没有预测能力,因此我们不对餐饮旅游行业进行行业内预测。综合行业没有特定的行业逻辑,我们也不对其进行行业内的预测。对于银行券商行业,全市场模型几乎没有预测能力。其他行业中,建筑,国防,石油石化等行业,行业内模型是要略好于全市场模型的,但是电力设备,建材等行业,行业模型要略差于全市场模型。
我们分别测试两种结合预测的方法:
1)在每个行业内,将两个预测按其过去两年 ICIR 进行加权,如果其中一个模型过去两年无效,即ICIR 为负,则使用另外一个预测,如果两个模型都无效,则等权加权。
2)不区分行业,直接用全截面过去两年的表现进行加权,其他细节与方法一一致。
尽管行业内选股模型的 IC 值要低于全市场选取模型,但是将二者结合之后,alpha 信号的 IC 以及其ICIR 都有显著的提高。但是对于结合方法,方法一和方法二并无显著的差别。
分行业来看,合成后的预测模型不管是从 IC 的角度还是从分组收益的角度,基本在所有行业都优于全市场模型。但只在少数行业有显著的提升,大部分行业提升较少,分组收益和 IC 都仅在 1%左右。
我们用上述两个方法分别构建 500 增强和 300 增强组合,结果如下:
图1 300增强策略净值
表4 300增强结果对比
图2 500增强策略净值
表5 500增强结果对比
总结
如何将行业内的信息纳入进传统的多因子模型是大家一直较为关心的问题。本报告对行业内选股模型进行了初步的探索,试图寻找到行业内选股的有效解决办法。通过阅读已有的报告和结论,我们放弃了纯测试的方法。但在试图通过纯逻辑的方法去寻找有效因子时,总是会跟随着行业研究的思路把逻辑拆的越来越细,从而很难形成有效的选股因子。因此,我们最终采取了测试和逻辑相结合的方法,为了避免该方法过拟合的可能,我们将因子分为基础因子和特质因子,并用不同的方法分别去寻找他们的逻辑,从而得到了每个行业的适用因子列表。我们使用这些因子构建行业内选股模型,并与原来的全市场预测相结合,在大部分行业内,结合后的预测都略好于原本的全市场预测。最后我们构建了300 和 500 增强组合,300 增强模型有所提升,而 500 增强模型提升不大。中 300 增强的提升主要是由于银行和券商两个行业。
本报告是我们对于行业内选股的初步尝试,得到的结论与目前市场上的认识基本一致。基于研究过程中的思考以及研究结论,我们认为行业内模型未来的研究方向如下:
1)首先,我们在研究过程中花大量的时间研究了基础类因子在不同行业的表现及其逻辑,试图对于每个行业给出有逻辑且适用的因子。但如果仅使用全市场模型已有的因子,即使正确且有逻辑的选取了每个行业有效的因子,分行业建模带来的增量信息并不多。这一方法对于行业指数增强策略有一定的意义,但如果想提升宽基指数增强策略或者全行业的主动量化策略,这一方法可能不会有显著效果。因此未来的研究应该更加集中在新因子的寻找,而不是对原有因子的分域研究。
2)其次,我们在寻找选股因子时,还是基于多因子的思路,希望找到对整个行业都有选股效果的因子,但对整个行业有意义的指标基本上都是常见的财务指标,这就导致很难寻找到新的增量信息。因此,未来的研究中,我们不一定要延续多因子大样本的思想,可以先从逻辑出发,找到细分小样本中的特质因子,这样至少能够保证该因子是有增量信息的,再想办法将该信息结合进原有模型。
3)最后,不同行业由于行业特征和行业样本不同,不一定都适合在行业内进行建模预测。因此,我们如果想使用行业内选股提高原有策略,应当针对策略的特征进行研究。例如对于 500 增强策略,我们可以对其进行归因分析,对贡献超额收益较少的行业以及权重较大的行业进行针对性的研究,最终的提升效果可能会更加显著。
- The End -
本文仅供参考,投资有风险
请投资者自行判断投资机会并承担投资风险
爱晖资产
专注于量化领域的证券基金资产管理公司