全国大学生数据挖掘竞赛 优秀作品 作品名称:基于数据挖掘技术的市财政收入分析预测模型荣获奖项:二等奖作品单位:广东金融大学作品成员:周婉倩侯晓佳陈国权指导教师:骆世广 广州市财政收入的实证分析与预测 摘要:科学、合理地预测地方财政收人,对于正确处理地方财政与经济的相互关系具有十分重要的意义。为了探究广州市财政收入的影响因素和预测2015年的财政总收入及各个类别收入,选取地区生产总值、第二三产业产值比、税收收入、社会从业人员、固定资产投资额,收集1985-2013年广州市的相关数据为样本。 首先,建立VAR模型,通过Johansen协整检验,判断出影响广州财政总收入的关键因素是社会从业人员,地区生产总值和税收收入。 接着,运用GM(1,1)白化预测模型,预测出2015年五个影响因素的预测值,再代入VAR模型,求得2015年广州财政总收入预测值为23978544.28万元;将财政收入分为个人所得税、企业所得税、营业税、增值税、其他税收收入、非税收收收入和政府性基金七大类,利用时间序列和神经网络模型,个人所得税、企业所得税、营业税、增值税、其他税收收入、非税收收收入和政府性基金的其预测值分别为346249.60、982475.60、1708531.43、2353663.07、4209813.22、2929400.73、15986526.18万元。 最后,在VAR模型的基础上,通过VEC模型、脉冲响应函数和方差分解,对财政收入与影响因素的关系进行进一步分析,并提出实现充分就业,以经济增长带动财政收入增长,提高税收征管执行力度和优化产业结构等相关建议。 关键词:财政收入;VAR模型;Johansen检验;灰色预测;时间序列;神经网络 The empirical analysis and forecast of Guangzhou fiscalrevenue Abstract:Scientific and reasonable prediction of local fiscal income, tocorrectly handle therelationship between local finance and economy has very important significance. In order toexplore the key factors influencing the Guangzhou revenue, and forecast 2015 total revenueand income in each category,this article selects GDP, the secondary industry and the tertiaryindustry output value, tax revenue, social workers, fixed assets investment and collectes in thecity of Guangzhou in 1985-2013 phase closed data as the sample. First,through the establishment of VAR model and Johansen cointegration test , the keyfactors affecting the total fiscal revenue of Guangzhou are social workers, GDP and taxrevenues. Then, using GM (1,1) gray prediction model to predict the predicted values for eachvariable in 2015. And then substituted into the VAR model, obtained in 2015 the total revenueof Guangzhou predictive value of 239785.4428 million.For the 2015 income projections foreach category, this article divides into personal income tax revenue, corporate income tax,sales tax, VAT, other tax revenues, non-tax revenue and government funds received sevencategories, time series and neural network models, seeking obtaining predictive values were3462.4960,9824.7560,17085.3143,23536.6307,42098.1322,29294.0073,159865.2618 million. Finally, based on VAR model, through the VEC model, impulse response function andvariance decomposition,relationship of fiscal income and the influencing factors werefurther analysed, and we make some related suggesttions like realizing full employment,promoting economic growth to drive revenue growth, improving tax collection andmanagement implementation efforts,optimizing the industrial structure and so on. Key words:Fiscal revenue,VAR model,Johansen test,gay prediction,time series,neuralnetwork 目录 1.挖掘目标.....................................................................................................1 2.分析方法与过程.........................................................................................1 2.1.总体流程.......................................................................................................................12.2.具体步骤.......................................................................................................................2 3.结论与建议...............................................................................................16 3.1.结论.............................................................................................................................163.2.建议.............................................................................................................................17 1.挖掘目标 本次建模的目的是对广州市财政收入进行实证分析与预测。首先,利用1985-2013年广州市财政收入与地区生产总值、第二三产业产值比、税收收入、社会从业人员、固定资产投资额的相关数据,分析、识别影响财政收入的关键因素;接着,基于数据挖掘技术,对广州市2015年的财政总收入及各个类别收入进行预测;最后结合社会经济发展和广州市近几年的财政收入及支出等情况,向广州市财政局提出促进就业等几点建议。 2.分析方法与过程 2.1.总体流程 主要包括以下步骤: 步骤一:选取影响财政收入的因素和收集相关数据步骤二:建立VAR模型,通过JJ协整检验分析关键影响因素步骤三:结合灰色预测模型和VAR模型,预测2015年广州的财政收入步骤四:利用时间序列预测法、神经网络模型对财政收入进行细化预测 步骤五:建立VEC模型,利用脉冲响应函数和方差分解进行进一步分析 2.2.具体步骤 步骤一:财政收入影响因素的选取和相关数据的收集处理 (1)因素的选取:影响财政收入的因素有很多,结合广州市实际情况,本文选取广州市地区生产总值、第二三产业产值比、税收收入、社会从业人员、固定资产投资额作为考虑因素进行分析研究。 (2)数据的收集:利用大赛给出的附件和广州市统计局等网站收集了1985-2013年财政总收入Y/万元、地区生产总值/万元、第二三产业产值比、税收收入/万元、社会从业人员/人、固定资产投资额/万元的数据。 (3)数据预处理: 利用EViews6.0软件,导入1985-2013年序列Y与的数据,分别做出时序折线图,进行初步的观察与分析,结果如图1-6所示。(Eviews操作过程和相关结果详见附录一) 从图1-6可知,七个指标的时间序列数据均呈明显的指数上升趋势,直观来看,显著非平稳。根据序列的上升趋势,为了减小上升趋势中的波动,同时消除与的异方差,对序列Y与进行对数化处理(对数化的数据并不影响原序列之间的协整关系),相应地得到对数序列与。 为了证实对数序列是否平稳,进一步对对数序列与做ADF检验,结果如表1。 由表1可知,对数序列与计算出来的ADF检验值的t统计量都比1%、5%和10%的检验水平下的t统计量大,P值显著较大,也就是说,在1%、5%和10%的检验水平下不能拒绝原假设,可以认为对数序列与分别至少有一个单位根,即在1%、5%和10%的检验水平下,对数序列与不平稳 为得到平稳序列,我们对对数序列与进行一阶差分,再对其进行ADF检验,结果如表2。 由表2可知,对数序列与的一阶差分序列ADF检验值的t统计量都比1%、5%和10%的检验水平下的t统计量小,P值显著偏小(小于0.1),也就是说,在1%、5%和10%的检验水平下可以拒绝原假设,即可以认为对数序列与的一阶差分没有单位根。 因此,对数序列与是一阶差分平稳的。 步骤二:建立VAR模型,通过JJ协整检验分析关键影响因素 (1)单方程协整检验(E_G两步法) 由于对数序列与是一阶差分平稳I(1)型的时间序列,需要对这些变量进行进一步的协整检验,以确定变量之间是否存在长期稳定的均衡关系。目前,常用的协整检验有E_G两步法和Johansen协整检验法两种,本文先从E_G两步法入手,寻找对数序列与之间的稳定性关系,再通过Johansen协整检验法得出多个经济变量之间的关系。 第一步:运用普通最小二乘法估计参数建立对数序列与之间的关系,得到估计方程为: 该方程相应的检验结果如表3。 表3方程(1)的检验结果 Dependent Variable: YLMethod: Least SquaresDate: 05/