全国大学生数据挖掘竞赛 优秀作品 作品名称:基于数据挖掘技术的市财政收入分析预测模型 荣获奖项:二等奖 作品单位:华南师范大学 作品成员:陈凯东刘依依李梓欣 广州市财政收入预测模型研究 摘要:广州市在实现经济快速发展,地区生产总值飞跃的同时,财政收入也在增加。对广州市未来的财政收入做出合理、有效的预算,能够克服年度地方预算收支规模确定的随意性和盲目性,为财政政策的制定提供指导依据。为了对广州市2015年的财政收入作出分析和预测,文章基于1999年至2014年广州市的相关数据,考虑了各种财政因素对财政收入的影响,按照定量与定性相结合的原则,应用逐步回归思想,最小二乘原理,BP神经网络原理分别建立逐步回归模型、多元线性回归模型和BP神经网络模型,再利用三种模型的有效组合预测模型,建立了广州市财政收入的预测模型,并在此基础上为下一年的政策提供指导依据。 关键词:广州,财政收入,多元线性回归,BP神经网络,组合预测,建议 Study on the forecasting model of Guangzhou’s financialrevenue Abstract:As Guangzhou achieving rapid economic development and great leap of regional GDP, itsrevenue is growing as well. To make reasonable and effective prediction of Guangzhou’s revenue can helpgovernment avoid randomness and blindness when it intends to figure out the scale of annual regionalrevenues and expenditures. Also, it provides guidance for formulating financial policy. In order to makeanalysis and prediction of Guangzhou’s revenue of 2015, this paper, being based on the data of Guangzhoufrom 1999 to 2014, according to the principle of combining qualitative and quantitative analysis, andconsidering various influential factors of financial revenue, make use of stepwise regression, the leastsquares principle and the principle of BP neural network to establish stepwise regression model, MultipleLinear Regression model and BP neural network model respectively. It combines the above three modelseffectively to establish the forecasting model of Guangzhou’s financial revenue which can provideguidance for policy-making next year. Key words:Guangzhou, financial revenue, Multiple Linear Regression, BP neural network, CombinedForecast, guidance 目录 1.挖掘目标...............................................................................................12.分析方法与过程....................................................................................12.1.总体流程.....................................................................................................................12.2.单项预测模型的构建和预测.....................................................................................22.3.组合预测模型的构建和预测...................................................................................112.4.模型评价...................................................................................................................123.对策与建议.........................................................................................124.参考文献.............................................................................................135.附录..........................................................................................................13 1.挖掘目标 财政收入是政府实现其公共职能的重要基础。中央财政收入是我国整体经济社会长期稳定发展的重要保证,而地方财政收入作为我国地方性政府部门的公共收入,也同样是保证我国区域经济社会长期稳定发展的重要基础,是区域国民经济的综合反映以及市场经济国家的政府进行宏观调控的基础。 从地方公共财政收入总额来看,国内各省收入差距较大,广东夺魁,而广州市作为广东省的省会,改革开放的前沿城市,在实现经济快速发展,地区生产总值飞跃的同时,财政收入也在增加。对广州市未来的财政收入作出合理、有效的预算,能够克服年度地方预算收支规模确定的随意性和盲目性,为财政政策的制定提供指导依据。 本文基于1999年至2013年广州市的相关数据,首先应用最小二乘原理,建立多元线性回归模型再利用逐步回归模型(多项式拟合模型),以及BP神经网络模型探究、分析影响广州市财政收入的关键影响因素;然后立足于对影响因素的分析,对广州市2015年的财政收入及相关类别收入作出分析和预测;最后结合社会经济发展状况及广州市的财政情况,对广州市财政局提出建议。 2.分析方法与过程 2.1.总体流程 本文先确定了影响广州市财政收入的关键影响因素,接着进行建模,主要思路是将财政收入预测模型分为两个主要的模块,其中一个模块是将广州市财政收入和四种主要税种作为预测对象,通过运用时间序列方法、多元回归分析和BP神经网络原理三种预测方法分别对其进行建模预测,最后利用组合预测的方法将三种方法融合在一起,以减少各单项预测方法由于各自的缺陷没有考虑到的信息,改进单项预测的精确度。 另外一个模块是基于模型确定的关键影响因素和预测结果,以及考虑广州近几年的财政收入及支出等情况,从财政收入和支出预算的角度,给广州市财政局提出的建议。 2.2.单项预测模型的构建和预测 2.2.1.逐步回归模型的构建和预测 首先,从时间序列图(如图1所示)中可以看出,财政收入具有明显的增长趋势; 再进行纯随机性检验可判断其为非白噪声序列。 简单观察时序图后,先用趋势拟合对序列进行拟合, 可见线性拟合和曲线拟合效果都不够理想,下面进行逐步回归; 逐步回归的原理是先使用多项式拟合趋势拟合好之后,再对残差序列进行自回归拟合,SAS会默认一个高阶自回归阶数,然后通过逐步回归的方法,筛选合适的延迟阶数,得到最优AR模型,该方法也称为逐步自回归方法。 分别用2次、3次进行拟合,得到的拟合效果图如下: (1)trend=2:即要求拟合线性趋势txabt (2)trend=3:即要求为曲线拟合 显然曲线拟合效果更好,更符合财政收入的增长趋势。模型的预测结果如下:(单位:万元) 预测2014年财政收入为23224030万元,区间为20978900-25469160;由2014年广州市统计局的报告,2014年的实际财政收入为24539000万元,在模型预测范围之内,可见预测的精准度在可接受的范围内。2015年地方财政收入预测值为26384091.482万元。 以同样的方法,我们预测出了个人所得税、营业税、增值税和企业所得税四大税种的预测值:预测2014年个人所得税值为512540.16,2015年为536824.77;营业税2014年值为1939984.45,2015年为2047753.45;增值税2014年值为2058348.52,2015年为2187122.41;企业所得税2014年值为1188464.21,2015年为1236212.28。 2.2.2.多元回归分析模型的构建和预测 (1)指标变量的选择: 根据宏观经济学的相关理论,可以将影响财政收入的因素归纳为以下几个方面,分别为土地、资本、劳动力、政策,除此之外,还有众多其它的影响因素。根据对参考文献的总结,有前人认为财政收入的规模受到经济规模等诸多因素的影响,如第一产业总产值、第二产业总产值、第三产业总产值、社会消费品零售额、国土受灾面积、新增固定资产投资等;也有研究人员认为影响因素主要有总税收、国内生产总值、其他收入和就业人数等。因此,在考虑分析宏观经济理论以及前人有 关研究的基础之上,笔者决定从国民经济水平因素、资本因素、劳动力因素、消费因素及贸易因素这几个方面选取影响因素,作为指标变量。 GDP代表国民经济总体水平,主要反映的是财政收入构成中的新创造的归社会支配的剩余产品价值部分,即社会生活中的总产值,国民生产总值是第一产业、第二产业以及第三产业生产总值的加和,全面反映了国民经济的发展情况,是财政收入的主要影响因素,当国民生产总值增加时,财政收入也会随之增加,一般来说财政收入将与国民经济生产总值保持相对稳定的增长态势。同样地,地区财政收入也应与地区生产总值有着密切联系,因此选取广州市主要年份的第一产业生产总值、第二产业生产总值及第三产业生产总值作为国民经济水平因素的变量。 全社会固定资产投资代表社会投资水平,反映的是国民经济的未来增长趋势,在经济发展态势良好的情况下,将会引致投资的增加,进而引起国民经济生产总值的持续增加,形成良性循环;而当国民经济生活发展态势消极时,将会导致居民消费需求降低,经济循环能力不足,进而降低闲置资金再投资的积极性。因此,固定资产投资也对地区财政收入有一定程度的影响,应选取作为资本因素的变量。 全社会消费品零售总额代表社会整体消费情况,是可支配收入在经济生活中的实现。当社会消费品零售总额增长时,表明社会消费意愿强烈,这一部分程度上会导致财政收入中增值税的增长,同时,当消费增长时,也会引起经济系统中其他方面发生变动,最终引致财政收入的增长,因此可选作消费因素的变量。 城镇居民储蓄存款余额、城镇单位职工年平均工资反映的是人民生活水平以、社会分配情