全国大学生数据挖掘竞赛 优 作品名称:基于数据挖掘技术的市财政收入分析预测模型 荣获奖项:二等奖 作品单位:暨南大学 作品成员:刘宇霞 基于组合预测模型的地方财政收入预测研究 ——以广州市为例 摘要:本研究选取大量关于广州市财政收入、税收等方面的经济数据,经过数据预处理,如缺失值处理、异常值处理等,建立相关性分析、灰色关联分析模型,分析得出了影响广州市地方财政收入的关键因素有:全社会房地产开发投资额、农林牧渔业总产值、城镇单位职工年平均工资、高新技术产品企业个数、进出口总额、城市商品零售价格指数等。 本文接着创新性地建立了基于“灰色预测-BP神经网络的组合预测模型”,以此分别构建广州市财政收入及各主税种的预测模型。通过实证研究证明了该“组合预测模型”的有效性和准确性。并对广州市2015年的财政收入和主税种作出了预测。模型预测得到2015年广州市财政收入为27160531.02万元,与政府2015年预算草案报告的预算值相近。 本文还就“组合预测模型”与“单一预测模型”的预测效果进行了比较,从经济现实和误差统计的角度,定性和定量地证明了“组合模型”的优越性。 最后,本文根据所建立的各种模型的结果,结合广州市社会经济发展和近几年的财政收支情况,从多个角度进行剖析,综合经济因素和非经济因素,从财政收入的影响因素角度、财政收支的角度、税税收制度角度等向广州市财政局提出政策性建议。 关键词:灰色关联分析;灰色预测;BP神经网络;组合预测模型;模型比较 Local revenue forecasting based on combinationforecasting model study-a case study of Guangzhou Abstract:This research selected large amounts of economic data on Guangzhou revenue, and tax,after data pretreatment, as missing value processing, and exception value processing, and establishedcorrelation analysis, and grey associated analysis model, analysis obtained has effects Guangzhou placerevenue of key factors has: society real estate development investment, and forestry Shepherd fisheriesgross, and town units workers years wage, and high-tech products enterprise number, and import and exporttotal, and city merchandise retail price index. We innovatively built a model based on "combinations of grey BP neural network prediction model"in order to construct forecasting models of all main types of taxes and revenue in Guangzhou. Empiricalresearch shows the validity and accuracy of"combination forecast model". And the 2015 fiscal revenue andtaxes in Guangzhou was predicted. Models predict revenue 271,605,310,200 Yuan, Guangzhou, 2015.Tt issimilar with the value of“2015 with the Government budget draft report values”.we also compares theresults of"combination forecast model" and the "single predictive model", from the perspective of errorstatistics and economic realities, both qualitative and quantitative evidence the advantage of "combinationmodel". Finally, based on the results of the various models, combined with the socio-economic developmentand the fiscal balance in recent years, and analysis from multiple angles, general economic factors andnon-economic factors, factors affecting the revenue of the angle, angle of financial revenue and expenditure,the tax system in terms of policy recommendations to the Bureau of Guangzhou City, such as. Key words:Grey relational analys is; grey-forecasting; BP-neural network ;combined forecastingmodel; model comparison 目录 1.挖掘目标...............................................................................................12.分析方法与过程....................................................................................12.1.总体流程.....................................................................................................................12.2.具体步骤.....................................................................................................................22.3.结果分析.....................................................................................................................83.结论.....................................................................................................274.参考文献.............................................................................................275.附录......................................................................................................28 1.挖掘目标 本次建模目标是利用广州市统计信息网积累下来的关于广州市财政收入、税收等经济海量真实数据,采用数据挖掘技术,如相关分析、灰色关联分析等,分析各类经济指标与广州市地方财政收入之间、各经济指标与各税种之间的关联关系;并通过数据挖掘技术,如BP神经网络、灰色预测等,有效构建广州市财政总收入及各类别收入的预测模型。从而可以为广州市2015年的财政收入作出相应的预测,并以此向广州市财政局提供有指导性的建议。 2.分析方法与过程 2.1.总体流程 本用例主要包括如下步骤: 步骤一:样本收据选取; 步骤二:样本数据预处理,如对数据的缺失值处理、异常值处理、对数据的标准化处理等; 步骤三:对各指标和广州市财政收入间进行相关性分析,求解相关系数矩阵; 步骤四:运用灰色关联分析进一步求解各经济指标与地方财政收入之间的具体关联度,并对关联程度进行排序,得出各指标的影响大小程度; 步骤五:建立基于“灰色预测—BP神经网络”的组合模型,构建广州市财政总收入及各个类别收入的预测模型,并对各模型分别进行训练、验证、修正,证明模型的可行性和有效性; 步骤六:运用预测模型对广州市2015年的财政总收入及各个类别收入进行预测; 步骤七:将组合预测模型与单一预测模型预测效果进行比较,证明组合模型的优越性; 步骤八:对预测结果进行分析,提出政策性建议。 2.2.具体步骤 步骤1:样本数据选取 1)针对题目需求1,首先预选取广州市1999-2013年的财政收入数据,及同时期一些与广州市财政收入相关联经济因素指标的数据。根据题目所给背景及相关文献资料,最终预选取财政收入相关影响的经济因素数据有:①城市商品零售价格指数、②城镇单位职工年平均工资、③广州市地区生产总值、④第二产业增加值、⑤第三产业增加值、⑥高新技术产品企业个数、⑦进出口总额、⑧全社会房地产开发投资额、⑨全社会固定资产投资额、⑩社会消费品零售总额、⑪农林牧渔业总产值,这11个指标值。 2)针对题目需求2,还需要对各类别税种分别进行预测,所以接着选取广州市1999年-2013年的主要税种增值税、营业税、企业所得税、个人所得税及及同时期与各税种相关联的经济因素指标的数据。参考相关文献及题目数据,最终预选取数据如下: 增值税的指标数据为:①地区生产总值、②工业增加值、③工业增加值占GDP、④批发零售业零售值、⑤批发零售业增加值、⑥商品进口总值,这6个指标。 营业税的影响因素指标数据为:①第三产业增加值、②公路货运量、③公路客运量、④建筑业增加值、⑤建筑业总产值、⑥全社会房地产开发投资额、⑦全社会住宅投资额、⑧限额以上餐饮业主营业务收入、⑨住宅和餐饮业零售额,这9个指标。 企业所得税的影响因素指标数据为:①城市商品零售价格指数、②第二产业增加值、③第三产业增加值、④规模以上工业企业盈亏相抵后利润总额、⑤规模以上国有及国有控股工业企业亏损面、⑥建筑业企业利润总额、⑦建筑业总产值、⑧全社会固定资产投资额、⑨限额以上连锁公司零售额,这9个指标。 个人所得税的影响因素指标数据为:①城市居民年人均可支配收入、②城市单位职工年平均工资、③城镇居民储蓄存款余额、④地区生产总值、⑤第二产业增加值,这5个指标。 第2页 步骤2:样本数据预处理 数据预处理主要包括缺失值处理,异常值处理,及根据模型需要的标准化处理、归一化处理等。 缺失值处理 在原始计量数据中,发现有些税种的影响因素指标存在某些年限的缺失值,如对于个人所得税的影响指标“城镇非私营单位从业人员数”在1999年缺失;企业所得税的影响指标部分也存在一些年份的缺失,为确保建模数据的有效性,将这些值抛弃掉,计算平均值时,不列入其中。 异常值处理 在原始样本数据中,发