当前位置:大学毕业论文> 硕士论文>材料浏览

关于财务数据论文范文写作 基于随机森林创业板和主板上市公司财务数据比较相关论文写作资料

主题:财务数据论文写作 时间:2024-04-09

基于随机森林创业板和主板上市公司财务数据比较,本论文主要论述了财务数据论文范文相关的参考文献,对您的论文写作有参考作用。

财务数据论文参考文献:

财务数据论文参考文献 创业论文上市公司财务分析论文大学生就业和创业指导论文上市公司盈利能力分析论文

[摘 要]文章利用四种不同的分类模型Logistic模型、决策树模型、BP神经网络以及随机森林对2015年创业板和主板上市公司差异性财务数据进行了识别.研究发现不同的识别方法,识别结果有一定差异,在识别差异性数据的此类问题上,随机森林具有一定的优势.随机森林识别出的两板差异性数据主要有速动比率、流动比率、应收账款周转率等.

[关键词]随机森林;上市公司;财务数据;差异性识别

[DOI]10.13939/j.cnki.zgsc.2018.02.188

1 引 言

2009年启动创业板,至今已有600多家公司成功发行.虽然创业板和主板市场的准入条件、交易规则以及投资者特征等方面不同,但可以根据统计财务数据对两市场进行对比研究,找出两个市场在哪些方面存在差异,分析差异的原因,并通过彼此之间的借鉴来加以完善,这对我国股市持续稳定的发展具有参考价值.为识别出两板上市公司差异性财务数据,通常涉及传统的ANOVA方差分析,和此同时,分类模型可为此类问题提供一种方法.分类问题在医学、经济管理等领域经常涉及,针对这一类问题通常采用统计学方法Logistic进行分析.近年来,越来越多的机器学习方法对分类模型给出了新的解决方案,常见的机器学习分类模型如决策树模型、BP神经网络、随机森林等,一般来说,建立的分类模型是用来预测.但无论是Logistic模型还是上述的机器学习都可以对输入的变量按重要性提取出关键变量,这对我们识别创业板和主板上市公司的差异性财务数据提供了另外一种可行的方法.进一步通过上述多类模型的比较,可以选取出适合差异性差别的方法.

2 变量选择和数据预处理

2.1 研究对象

本文财务数据来自国泰安数据服务中心中国上市公司财务指标分析数据库,剔除一些异常上市公司和极端值后,选取2015年创业板的491家上市公司,1249家主板上市公司,共计1740个观测值.由于本文是为了识别差异性财务数据,充分使用数据进行建模,所以把所有数据作为训练样本进行训练且充当检验样本进行检验.

2.2 变量选择

依照选取财务指标的全面性、重要性、科学性的原则从上市公司共选取30个财务指标,如表1所示.

即使其中有的指标之间可能高度相关 ,但本文采用的方法比较均能较好地处理高度相关性,选取较多的财务数据将尽量包含比较多的信息 ,尽可能多地从各方面识别出主板和创业板上市公司的差异性财务数据.

2.3 缺失值处理和数据标准化

缺失值对于上述模型有着很显著的影响,为了降低这一影响,利用统计软件SPSS19.0中的以缺失值邻近点的算术平均值进行替代.再对所有指标进行标准化处理.采用Z-score标准化方法也叫标准差标准化,经过处理的数据符合标准正态分布,即均值0,标准差为1,其转化函数为:

其中σ用所有样本数据的标准差估计,μ用所有样本数据的均值估计.

3 基于随机森林的差异性指标识别

随机森林算法是组合分类模型中的一种,该分类器最早由LeoBreiman和AdeleCutler提出.随机森林是由很多CART决策树分类模型集成的组合分类模型,在给定自变量X后,每个决策树分类模型都有一票 权来选择最优的分类结果.其基本步骤为:首先利用Bootstrap重抽样方法从原始训练样本中抽取n个样本,且每个样本的容量都和原始训练集中的样本个数相同,对n个样本建立n个CART决策树模型得到各个分类结果,最后 记录并决定最终分类结果.随机森林的每棵树都不剪枝,让其充分生长,最终的模型结果是对所有的决策数的结果的简单平均.

在R3.33版本中利用程序包RandomForest可以快速地对数据进行建模.随机森林变量重要性识别的方法是置换精度重要性,其原理是:随机删减某些变量,这时如果预测精度大大降低,则说明该变量特别重要.首先使用RandomForest函数,使用样本量为500(Ntree等于500),对每个样本建立一棵决策树,并按照置换精度重要性输出自变量重要性.

自变量重要性如表2所示,重要性大小的从大到小排序前十位依次为:速动比率、流动比率、应收账款周转率、市销率、市净率、本利比、总资产增长率、资产负债率、股东权益比率、产权比率.

4 不同分类模型比较

4.1 分类模型拟合混淆矩阵

根据综上建立的四个分类模型输出的混淆矩阵,进行汇总得到表3.分类模型的拟合判别正确率会对差异性指标的识别造成影响.

从拟合效果分析来看,随机森林拟合效果最好为100%,其次分别为BP神经网络、决策树、Logistic模型,這样的结果通常是可以理解的.

4.2 分类模型优劣分析

第一,Logistic模型作为传统的统计方法,其特点是识别线性特征,对于非线性特征的处理存在一定的劣势.

第二,决策树对于识别非线性特征有优势且易于理解和分析,在相对短的时间内能够对大型数据源做出可行且效果良好的结果,但其对异常值过于敏感, 很容易导致树的结构的巨大变换.

第三,BP神经网络其非线性映射能力非常强,能够处理内部机制非常复杂的问题,并且容错能力也很有优势,在部分神经元被破坏的条件下依然能够保持较高的精度.但其缺点也是很明显的,神经网络结构选择不一会导致每次训练得到不同结果的,同时模型复杂不易理解.这给神经网络的应用在一定程度上造成了一些影响.

第四,随机森林作为组合模型针对差异性指标识别问题有着很大的优势,随机森林可实现隐式特征选择,并且提供一个很好的特征重要性指标.由于随机森林在每棵树的每个节点仅仅随机选择少数变量来竞争拆分变量,限制了强势变量,很多变量都进入了决策树,这对随机变量的误判率降低提供了很大的帮助.更重要的是在识别差异性指标这类问题,随机森林这种节点竞争变量随机限量选择的做法使得一些弱势变量可以有机会参加建模,这对差异性指标的识别效果的提升帮助很大.除此之外,随机森林的训练速度快也是其受欢迎的一个原因.

结论:关于本文可作为财务数据方面的大学硕士与本科毕业论文财务数据分析论文开题报告范文和职称论文论文写作参考文献下载。

主板上市公司并购新三板公司案例
摘要:近年来,中国并购市场日渐活跃,并购整合尤其是主板上市公司并购整合交易数量及交易规模均呈现稳定增长态势。2016年共完成并购重组594家次,。

上市公司财务管理风险预防和控制
摘 要:新时期背景下,国民经济发展速度明显加快,上市公司以此为契机取得了理想的成绩,上市公司数量也随之增加,但同样也使其面对更为严峻的挑战与风险。

上市公司财务风险管理
摘 要:随着上市公司的持续发展,其所面临的财务风险趋于多样化,对财务风险进行控制管理成为企业财务管理工作的重要内容,并且要求越来越高。本文以财务。

钢铁行业上市公司财务风险管控
摘 要:钢铁产业是我国国民经济的重要组成部分,在国民经济发展中占据着极其重要的地位,一定程度上推动了钢铁行业上市公司财务风险的管控建设,已经得到。

论文大全