基于神经网络集成方法的公司盈利预测研究

潘道华

（黑龙江民族职业学院，黑龙江哈尔滨 150066）

摘　要：盈余预测具有引导投资者投资行为的作用，因此受到投资者的广泛重视。然而，国内对公司未来盈利进行预测的研究还相当少。提出了以决策树作为基分类器，采用集成学习方法，利用上市某公司2001至2005年的财务数据对该上市公司在2006年的盈利状况进行预测研究。首先，采用有放回的随机抽样技术分别从训练样本和测试样本中产生50个训练子集和1个测试集；然后利用决策树，采用CHAID算法对50个训练子集分别进行训练，得到50个基决策树分类器；通过采用Bagging方法，构建决策树集成模型。所得到的集成模型在测试集上的分类准确率达到96%以上，通过比较由不同数目的基分类器构成的集成模型和单个分类器的预测准确率，证明了该集成模型的预测准确率高且稳定。

教育期刊网 http://www.jyqkw.com
关键词：神经网络；集成学习；盈利预测

中图分类号：F275文献标志码：A文章编号：1000-8772（2014）31-0253-02

收稿日期：2014-10-28

作者简介：潘道华（1981-），女，汉族，黑龙江哈尔滨人，研究生，主要研究方向：人工智能、数据挖掘与决策支持。

1 引言

公司的财务状况及其未来盈利情况不但对公司的管理层十分重要，而且对其他投资者也非常重要。如果能够利用公司以往的财务报表数据和其它一些宏观经济数据（如GDP、CPI、利率等）及早准确预测公司未来的盈利状况的话，那么就可以更有效地对公司进行管理和指导投资者的投资行为。但是，一个公司的财务报表往往只反映了公司在过去的财政年度内的经营状况，并不反映出公司在下一年中的管理情况。因而，一个公司的财务状况与其未来盈利之间的关系并没有那么明显，它受到很多因素的影响，要构建一个精确的模型反映它们之间的关系是很困难的。针对此情况，本文提出采用决策树集成方法，构建模型来刻画公司财务状况与其未来盈利之间的关系，利用上市公司已有的财务数据，并结合主要的宏观经济变量来预测公司未来的盈利状况，这必将是公司财务处理的一个新发展。

数据挖掘技术越来越多地被用于预测研究。集成学习方法作为数据挖掘技术中一种较新的方法，由于其在提高预测的准确性上的优点，正被越来越多的研究者使用。

尽管许多领域都应用集成学习方法来进行研究，但在对公司未来盈利的预测研究上还很少，在国内尚未见到任何报导。虽然Takashi Washio等人对日本上市公司的未来盈利状况进行了研究，但是他们只是将盈利状况分为两种情况来进行研究。本文通过利用集成学习方法，考虑宏观经济对公司盈利可能造成的影响，提出将宏观经济变量纳入变量体系，同时，为了使结果更有指导意义，将上市公司的每股收益（EPS）指标将公司盈利的情况划分为三类，即EPS为负，EPS大于均值及EPS介于二者之间，对其进行预测研究。

2 研究方法

2.1神经网络

人工神经网络是由大量并行分布式处理单元组成的简单处理单元[1]。由于神经网络具有非线性，自学习能力、自适应性强和容错性高等优点，因而被广泛用于各种非线性预测问题。

所有神经网络都有一个输入层和输出层，一个网络结构可以包含一个或多个隐含层。神经网络的学习是通过调整连接权重和偏差实现的。Cybenko等人证明了如果神经网络利用一个有界的，连续的，非递减的激活函数时，只要不对隐含层的神经元数进行限制，一个三层网络（包含一个隐含层）就能够学习任意一个在输入和输出空间的连续映射[2]。在实际应用中用的最多的是BP神经网络。

BP神经网络是一种基于误差后向传播算法（BP算法）的多层感知器网络。BP神经网络的激活函数一般采用Log-Sigmoid或Tangent Sigmoid等可微函数。BP算法分为两个阶段。第一阶段是前向过程，逐层计算各神经元的输出值，第二阶段是误差后向传播过程，从后向前逐层传播输出层的误差并据此修正各层权重，直到输出结果满足预先设定的精度要求或达到算法设定的最大循环次数。

2.2神经网络集成

如何根据观测数据学习得到精确估计是机器学习领域中人们非常关注的一个问题，机器学习的一个重要目标就是对新的测试样本尽可能给出最精确的估计。构造一个高精度估计是一件相当困难的事情，然而产生多个只比随机猜测好的粗糙估计却很容易。传统的机器学习方法是在一个由各种可能的函数构成的空间中寻找最接近实际分类函数的分类器。常用的单个分类器模型主要有决策树、人工神经网络等。

集成学习（ensemble learning）的基本思想是在对新的实例进行分类的时候，把若干个单个分类器集成起来，通过对多个分类器的分类结果按某种方式来进行组合，决定最终的分类，以取得比单个分类器更好的结果。如果把单个分类器比作一个决策者的话，集成学习方法就相当于多个决策者共同进行一项决策。

尽管单个神经网络在处理非线性问题上表现良好，但是用单个神经网络来进行预测，一个不足的地方就是结果的稳定性差。因为神经网络的预测结果受网络各层之间的初始权重影响很大。为了克服这一不足，本文利用集成学习的思想，采用以BP神经网络作为基分类器的神经网络集成方法来对公司未来盈利状况进行预测。

以神经网络作为基分类器构建集成模型的方法主要有Bagging和Boosting。本文选择采用Bagging方法，因为Bagging方法较易于实现，而且不容易产生过拟合现象。对一个已知的有n个数据元素的数据集，Bagging法的原理是[1]：对每次循环（=1，2，…，），采用有放回的随机抽样方法从数据集中抽取m个数据形成训练集（mn），分类器模型从中学习。为了对一个未知的元素X分类，每个都返回一个分类值，将该分类值看成是一票，而最后的集成分类器，通过统计这些投票，将X归为得票最多的那一类。

3 研究步骤与具体实例分析

3.1样本选取

本文采用的上市公司数据样本来自天软数据库。在剔除了财务变量有大量缺失值后，样本共包含从2001年至2006年的深市和沪市A股的1174家上市公司。其中，沪市上市公司734家，深市440家。本文选取了反映上市公司偿债能力，成长能力，经营能力，资本结构，盈利能力，现金流，每股指标等方面的29个财务变量作为初始变量。此外，为了研究宏观经济环境对公司未来盈利的影响，相应的选择了2001年至2006年的三个宏观经济变量：国内生产总值增长率（GDP），居民消费价格指数增长率（CPI）及一年期金融机构贷款基准利率。这几个变量都与公司的盈利状况有着密切的关系。国内生产总值反映了整个国家的经济状况，而居民消费价格指数是反映居民购买并用于消费的商品和服务项目价格水平的变动趋势和变动幅度的相对数，它可以全面反映多种市场价格变动因素及其对居民实际生活的影响程度。一年期金融机构贷款基准利率会影响公司的营运成本，会对公司的利润产生直接的影响。所有变量见附表。

为了预测未来公司的盈利状况，本文将数据样本分为训练样本和测试样本。其中，训练样本由2001年至2005年的公司样本数据用有放回的随机抽样方法得到，每个训练样本包含1000个观测，测试样本是用相同方法得到的上市公司在2006年的数据样本，包含400个观测。

3.2指标选择

对于初始变量表，变量之间存在着相关性。虽然神经网络对变量间的相关性具有较强的容忍度，但是，变量太多会增加网络的复杂度，还有可能使网络过适应，从而使得网络在测试样本上的表现很差，而且并不是变量越多，神经网络的预测精度就越大，所以适当选择具有代表性的指标变量既可以达到与用所有变量相同的预测精度，又能降低网络的复杂度，避免使网络陷入过适应，提高网络的训练速度。

然而，运用神经网络方法，对输入变量的选取目前并没有一个公认的方法。为了从众多的初始变量中选择具有代表性的变量，本文利用spss Clementine11.1数据挖掘软件包选项面板中的建模栏中的特征选择节点来对变量进行筛选。通过构建一个带有特征选择节点的流，可以为每一训练集筛选出重要的变量。利用筛选出来的变量和全部变量分别对训练样本进行训练，得到两种神经网络模型，分别对测试样本进行分类，并分别构建集成模型。

3.3 建立模型

本文是对2001年至2005年上市公司的数据样本进行训练得到单个神经网络模型，用该模型对测试样本进行预测。如何产生不同的分类模型是影响集成模型准确性的一个重要因素[4]。以下四种方法——不同的初始条件，不同的网络结构，不同的训练数据，不同的训练算法常用来产生分类模型。本文采用不同的训练数据和不同的网络结构这两种方式结合得到基神经网络。

按照Bagging方法的要求，本文采用有放回随机抽样方法，从训练样本中随机抽取了15个子训练集，并用相同的方法从测试集中抽取了400个样本数据组成测试集。每个子训练集含有1000个样本，它们均由2001至2005年的200个公司样本组成。利用特征选择节点在每个训练集上选出的变量分别在这15个子样本上进行训练得到子分类器，然后用这些子分类器对测试样本进行分类。采用多数投票法对子分类器进行集成，得到集成方法在测试集上的预测结果。

3.4 结果分析

为了比较集成模型与单个神经网络预测准确率的差异，按照单个神经网络模型预测准确率按升序进行排序，分别计算了由7个、9个、11个、13个、15个基神经网络模型构成的集成模型的预测准确率，集成模型，不论是由用全部变量进行训练得到的基神经网络构建还是由用筛选出的变量进行训练得到的构建，都显示出了很高的准确率，而且得到的预测准确率相当稳定。

4 结论

本文利用神经网络集成的方法，以上市公司过去的财务数据和宏观经济数据为样本，对上市公司的未来盈利状况进行预测。研究结果表明，相比于单个神经网络模型，尽管选用7个预测精度最差的单个神经网络作为基神经网络，其集成网络的预测准确率仍然很高，因而集成方法得到的结果更稳定，更具有说服力。

由于上市公司管理水平的差异，影响公司盈利状况的因素又多，所以要想较好的刻画它们对盈利状况的影响，是一个很有挑战性的问题。本文的研究结果还表明，采用神经网络集成方法来研究未来盈利状况是可行的。进一步的研究可以从以下几个方面考虑：

（1）变量的选取。为了使预测更为准确，在建模时，需要考虑更多的影响因素。由于公司盈利状况跟公司的管理水平直接相关，因此，如何合理选取量化一些有关公司治理的指标变量，将它们加入到模型中去，是一个值得深入研究的问题。

（2）产生集成神经网络的方法。除了Bagging方法，还有其他产生集成神经网络的方法，比如Boosting方法。不同的方法会得到不同的结果，从而通过比较不同的结果，可以得到一个用来研究此类问题的最好的方法。

教育期刊网 http://www.jyqkw.com
参考文献：

[1] Lars Kar Hansen， Peter Salamon. Neural network ensembles，IEEE transactions on pattern analysis and machine intelligence，vol.12， pp993-1001， 1990.

[2] Li-Chiu Chia，Tseng-Chung Tang. Artificial neural networks in reorganization outcome and investment of distressed firms： The Taiwanese case， Expert Systems with Applications， vol.29，pp641-652， 2005.

[3] Jiawei Han Micheline Kamber， data mining; concepts and tech-niques（second edition）[M]．北京：机械工业出版社，2006．

[4] E.Alfaro， et al.， Bankruptcy forecasting： An empirical comparison of AdaBoost and neural networks， Decision Support Systems （2008），doi：10.1016/j.dss.2007.12.002.

（责任编辑：赵媛）