您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [TIPDM]:第三届挑战赛B10-基于数据挖掘技术的市财政收入分析预测模型 - 发现报告

第三届挑战赛B10-基于数据挖掘技术的市财政收入分析预测模型

2015-11-23 TIPDM 庄晓瑞
报告封面

全国大学生数据挖掘竞赛 优秀作品 作品名称:基于数据挖掘技术的市财政收入分析预测模型 荣获奖项:二等奖 作品单位:贵州师范学院 作品成员:何丽严亚运陈飞 指导教师:雍进军 摘要:文章先运用R工具对1999—2013年广州市的主要财政收入:个人所得税、企业所得税、营业税、增值税等数据进行逐步回归分析,得出预测各税收的回归模型;其次剔掉不显著的因素,得到影响财政收入的关键影响因素,通过残差分析来判断模型的拟合度,得到最优模型;最后用指数平滑预测出2014和2015年广州市财政收入中个人所得税、企业所得税、营业税、增值税的预测值,并结合其他影响财政收入的因素,对广州市2015年的财政总收入进行预测;结合社会经济发展和广州市近几年的财政收入及支出等情况,从财政收入和支出预算的角度,向广州市财政局提出几点建议。 关键词:财政收入回归模型逐步回归指数平滑预测 Abstract:Article first use R tools for the main revenue:1999-2013 inguangzhou city of personal income tax, enterprise income tax, business tax andvalue-added tax stepwise regression analysis, the data of tax of forecastingregression model; Second shave no significant factors, key factors affecting theparameters that influence the fiscal revenue, judging byresidual analysis of themodel fitting and get the optimal model; With exponential smoothing finallypredicted in 2014 and 2015, the guangzhou fiscal revenue of individual incometax, enterprise income tax, business tax, value-added tax forecast, and combinedwith other factors that influence the revenue forecast for guangzhou's fiscalrevenuein 2015;Combined with social and economic development andguangzhou in recent years, the financial revenue and expenditure, etc., from theperspectiveof fiscal revenue and expenditure budget,put forward somesuggestion to the guangzhou bureau of finance. Keywords:Fiscal revenueThe regression modelStepwise regressionExponentialsmoothing forecast 目录 一研究目标…………………………………………………二分析方法与过程…………………………………………(一)总体流程……………………………………………(二)具体步骤………………………………………………1.1问题1的重述……………………………………………011.2问题1的分析、预测模型的建立与求解…………………01(1)广州市财政收入中个人所得税的预测型………………02(2)广州市财政收入中营业税的预测模型……………08(3)广州市财政收入中企业所得税的预测模型…………11(4)广州市财政收入中个增值税的预测模型…………132.1问题2的重述…………………………………………162.2问题2的分析和求解………………………193.1问题3的重述……………………………………193.2问题3的分析和求解………………………19 0101 0101 3.2.1对2014年广州市主要财政支出分析19 3.2.2建议 三、参考文献…………………………………………………………23 一、研究目标 1.数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程,利用广州市往年影响财政收入的因素积累下来的真实数据,采用数据挖掘技术,分析每个因素对财政收入的影响; 2.构建不同的回归模型,剔除对财政收入影响小的因素,以达到一个最优模型; 3.预测下一年的财政收入,从而对财政收入支出与收入方向做出备案; 4.通过对近几年广州市财政收入与支出的数据分析,向广州市财政局提出几点建议。 二、分析方法与过程 (一)总体流程 (二)具体步骤 2.1问题1重述 梳理影响广州市财政收入关联指标的有关数据,分析、识别影响财政收入的关键影响因素; 2.2问题分析、模型的建立与求解 研究结果表明,影响财政收入的因素有GDP、固定资产投资、人口总数、就业人数、农业总产量、商业税收(个人所得税、企业所得税、营业税、增值税)等因素有关。税收收入是财政收入的主要来源,我们在此分析影响广州市各税收收入的因素,通过逐步回归分析,得到各种税收及其变量(主要影响因素)的函数关系。 (1)广州市财政收入中个人所得税的预测模型 步骤1:数据分析个人所得税 影响个人所得税分因素有城市居民年人均可支配收入、城镇单位职工年平均工资、城镇居民储蓄存款余额、地区生产总值、第二产业增加值、城镇非私营单位从业人员数、地方财政收入等。根据收集的数据用R对其建立回归模型,然后再根据建立的模型筛选出相关性大的数据进行逐步回归,直到得到最优模型为止。由得出的P值进行判断,若其P值小于0.05这说明影响显著。 步骤2:符号说明 y:个人所得税; 1x:城市居民年人均可支配收入; 2x:城镇单位职工年平均工资; 3x:城镇居民储蓄存款余额; 4x:地区生产总值; 5x:第二产业增加值;6x:城镇非私营单位从业人员数7x:地方财政收入0β1β,2β,3β,4β,5β,6β7β:回归系数;步骤3:问题的分析 对以上的即y对1x到6x初步的回归分析,我们再引入一个常量回归系数0β,作出了初步的模型: 步骤5:预测模型的求解 lm.test<-lm(个人所得税~城市居民年人均可支配收入+城镇单位职工年平均工资+城镇居民储蓄存款余额+地区生产总值+第二产业增加值+城镇非私营单位从业人员数+地方财政收入) summary(lm.test)confint(lm.test,level=0.95) 得到相关系数: 步骤6:预测模型的改进 由以上的分析,我们剔掉2x:城镇单位职工年平均工资得到模型 lm.test2<-lm(个人所得税~城市居民年人均可支配收入+城镇居民储蓄存款余额+地区生产总值+第二产业增加值+城镇非私营单位从业人员数+地方财政收入) summary(lm.test2)confint(lm.test2,level=0.95) 再次检验相关参数 剔掉6x y=0β+1β1x+3β3x+4β4x+5β5x+7β7x(3) lm.test3<-lm(个人所得税~城市居民年人均可支配收入+城镇居民储蓄存款余额+地区生产总值+第二产业增加值+地方财政收入) summary(lm.test3)confint(lm.test2,level=0.95) 再次检验相关参数: 剔掉3x y=0β+1β1x++4β4x+5β5x+7β7x(4) lm.test4<-lm(个人所得税~城市居民年人均可支配收入+地区生产总值+第二产业增加值+地方财政收入) summary(lm.test4)confint(lm.test4,level=0.95) 再次检验相关参数: 步骤7:结果分析 由数据可知,地区生产总值和第二产业增加值对个人所得税的影响最大。 模型(4)的拟合度已经达到了R2=0.941,趋于1,F=57.68趋于最大,P=7.169e-07趋于最小,再通过残差函数对模型的拟合度的检验,确定模型是否达到最优,也可以用step函数看AIC的值在整个逐步回归模型中是否最小。 得到最优预测模型: y=-2.121e+05+3.790e+011x+3.524e+014x-2.339e-025x+3.088e-027x (2)广州市财政收入中营业税的预测模型 步骤1:数据分析营业税 对营业税进行分析,与营业税相关的因素有公路货运量、公路客运量、建筑业增加值、第三产业增加值、全社会房地产开发投资额、全社会住宅投资额、地方财政收入、建筑业总产值、住宿和餐饮业零售额、限额以上餐饮业主营业务收入等。根据收集的数据用R对其建立回归模型,然后再根据建立的模型筛选出相关性大的数据进行逐步回归,直到得到最优预测模型为止。由得出的P值进行判断,若其P值小于0.05这说明影响显著。 步骤2:符号说明 y:营业税1x:公路货运量、2x:公路客运量3x:建筑业增加值4x:第三产业增加值5x:全社会房地产开发投资额6x:全社会住宅投资额7x:地方财政收入8x:建筑业总产值9x:住宿和餐饮业零售额10x:限额以上餐饮业主营业务收入。 步骤3预测模型的建立 10109988776655443322110+++++++++=yxxxxxxxxxx 0,1,2,3,4,5,6,7,8,9,10:回归系数 步骤4:预测模型的求解、改进和结论分析 (1)预测模型的求解和改进 用R软件建立一个lm()函数,对lm()函数进行总结,用summary(lm())得到模型(1)的回归系数估计值及置信区间(置信水平a=0.05),通过逐步回归法剔除对营业税的影响不显著的因素,用专业的统计分析软件R对数据进行逐步回归分析,最终得到如表所示的结果: 输出结果报告中。列出了用逐步回归法挑选自标量过程,五个变量5x,10x,9x,4x,1x,在0.05的水平下是不显著的被依次踢出,同时还概要地提供了每个回归模型变化时的R^2值,F值,,相应的统计量P值,y=0β+1β1x+3β3x+4β4x+5β5x+6β6x+7β7x 利用05.0Pr的数被踢掉,最后留下的都是小于0.05的,说明留下的因素对营业税的影响都是显著,最后得到一个最优预测模型。 (2)结论分析: 由以上可知,公路客运量、建筑业增加值、全社会住宅投资额、地方财政收入和建筑业总产值对营业税的影响最大。 lm.test6<-lm(营业税~公路客运量+建筑业增加值+全社会住宅投资额+地方财政收入+建筑业总产值) summary(lm.test6)##查看回归系数和模型的检验结果Call: Min1Q Median3QMax-60067 -20426 -122815633 100319 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept)-5.712e+051.594e+05-3.583 0.00591 **公路客运量5.756e+016.438e+008.940 9.02e-06 ***建筑业增加值7.816e-01 8.439e-029.262 6.75e-06 ***全社会住宅投资额-2.407e-01 3.480e-02-6.917 6.93e-05 ***地方财政收入3.538e-02 1.492e-022.3710.04183 *建筑业总产值-1.781e-01 2.665e-02-6.683 9.03e-05 ***--- Signif. codes