您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [TIPDM]:第三届挑战赛B11-基于数据挖掘技术的市财政收入分析预测模型 - 发现报告

第三届挑战赛B11-基于数据挖掘技术的市财政收入分析预测模型

2015-11-23 TIPDM M.凯
报告封面

全国大学生数据挖掘竞赛 优秀作品 作品名称:基于电商平台家电设备的消费者评论数据挖掘分析 荣获奖项:二等奖 作品单位:华南师范大学 作品成员:刘天虹吴慧敏邱舒琪 基于数据挖掘技术的市财政收入分析预测模型 摘要:本文以广州市财政收入为研究对象,主要分成两部分,第一部分是分析和识别影响财政收入的关键影响因素,第二部分是对广州市2015年财政总收入及各类别收入进行预测。第一部分中,将财政收入组成成分分成四大类,并找出各自的初始影响因素。然后汇总各类初始影响因素,对财政收入做回归筛选出九个主要影响因素,再对这九个主要影响因素进行主成分分析,得到三个主成分。第二部分中,对财政收入的各个项目建立ARMA模型,据此预测2014年、2015年的收入。最后收集2014年的数据与其预测值作比较,计算预测误差,发现预测模型是有效的。整个挖掘过程主要通过R、SAS、SPSS软件实现。 关键词:财政收入聚类分析主成分分析应用回归时间序列预测SAS Analysis and Forecast Model of Financial Revenue Based on Data Mining Technology Abstract:The thesis based on the datas of financialrevenueof Guangzhou government is dividedinto two parts.The first part is to analyse and identify key elements that influence financialrevenue.Thesecond one is to forcast the sum and every single component of the year 2015. In the first part,we separatefinancial income into four categories to find out their own equations,after which it comes to remain ninemain factors according to the results of applied regression.Then Principal Component Analys is is used tosummarize out three principal components.Besides,we establish several ARMA models to predict eachrevenueitem of 2014 and 2015 in the second part.Finally,comparisons are made between the predicted andthe true values to find out the validity of the models.R,SAS and SPSS softwares are utilized through thewhole process of data mining. Key words:financialrevenueCluster AnalysisPrincipal Component AnalysisAppliedRegressionPrediction of Time SeriesSAS 目录 1.挖掘目标..........................................12.分析方法与过程.....................................12.1.总体流程.........................................................12.2.具体步骤.........................................................22.3.结果分析........................................................153.结论.............................................174.参考文献.........................................18 1.挖掘目标 本次挖掘目标是利用广州市在1999-2013年财政收入、经济、教育等方面的真实数据,采用数据挖掘技术,分析、识别影响财政收入的关键因素,构建广州市财政收入分类体系以及财政收入预测模型,实现对广州市2015年的财政总收入及各个类别收入的预测,从经济因素与非经济因素出发,在财政收入以及支出预算方面向广州财政局提出建议,帮助其做出下一年有效的财政收入预算,为下一年的政策提供指导依据。 2.分析方法与过程 2.1.总体流程 【步骤一】对源数据进行缺失值补充及标准化; 【步骤二】运用聚类分析的思想,将财政收入各个组成成分分成四大类:三大经济税(包括增值税、营业税和企业所得税)、对与社会生产有关的对象所征收税、税外收入和政府性基金; 【步骤三】通过文献查找,定性分析影响对与社会生产有关的对象所征收税、税外收入和政府性基金的其他潜在因素(附件提供的因素除外),并到广州市统计信息网等网站搜集相关数据; 【步骤四】尝试运用前进法、后退法、逐步回归法筛选影响增值税、营业税、企业所得税、个人所得税四大税的关键因素; 【步骤五】汇总财政收入的十九个影响因素,运用前进法回归,得到影响总财政收入的九个主要因素,将这九个主要因素建立主成分分析模型并检验; 【步骤六】运用时间序列模型分别对广州市1999-2013年各个项目建立相应的ARMA模型,并据此对2014、2015年财政收入的各个项目收入进行预测; 【步骤七】将用时间序列模型预测得到的广州市2014年财政收入的各项目收入数据与实际数据对比,计算预测误差,对模型可行性进行检验。 2.2.具体步骤 2.2.1数据预处理 (1)缺失值处理 缺失值处理是指对样本由于各种原因导致的数据缺失进行的一种补救,方法包括删除法、随机插补、均值插补、回归法等。在我们得到的数据中,由于营业税中批发零售业增加值与批发零售业零售额所反映的对象相同,都是体现批发零售业的发展,而且批发零售业增加值有5个缺失值,所以我们决定剔除批发零售业增加值样本。 另外,针对样本中的其他缺失值,为了避免样本的进一步减少和信息的丢失,我们采用填补的方法进行补救。由于各个变量的取值不是随机数据,且变量之间具有一定的相关关系,所以,拟合含有缺失值的变量和其相关变量之间的一个回归会是一个比较合理和有效的补救方法。将有缺失值的变量作为因变量,相关变量作为自变量建立回归方程,最终以得到的预测值作为我们所需要的填补值。 根据以上分析,利用R软件,我们对企业所得税中的规模以上国有及国有控股工业企业企业亏损面、建筑业企业利润总额和限额以上连锁店(公司)零售额以及个人所得税中的城镇非私营单位从业人员的缺失值进行填补。结果如表1和表2所示(加粗部分为填补值): (2)标准化处理 因为不同的数据之间具有不同的量纲,这会影响模型的建立和模型的精确度。所以,在建立回归模型之前我们需要对各大税影响因素的样本数据进行均值为0,方差为1的标准化处理,以达到消除量纲的目的。 2.2.2对财政收入的组成成分进行分类 为进一步分析和研究财政收入的组成成分和影响因素,我们对财政收入的各个组成成分(包括营业税、增值税、企业所得税、个人所得税等16个组成成分)进行分类。运用聚类分析样本距离分类的思想和SAS聚类模块,得到如下聚类结果: 由聚类的历史图看到,当分类数为3时,CCC达到峰值,所以认为将财政收入的组成成分分为三类为宜。即第一类:增值税、营业税、企业所得税;第二类:政府性基金收入;第三类:其他收入。又因为第三类中的其他收入包含税收和非税收,为了更好地解释其经济意义,我们把第三类其他收入再进行细分,分为对与社会生产有关的对象所征收税和税外收入,所以,最终分类结果如下: 第一类:增值税、营业税、企业所得税 第二类:政府性基金收入 第三类:对与社会生产有关的对象所征收税(个人所得税、城市建设维护税、房产税、印花税、城镇土地使用税、车船使用税、契税) 第四类:税外收入(国有企业计划亏损补贴、行政性收费收入、罚没收入、专项收入、其他收入) 其中,第一类反映实体经济的主要收入;第二类反映国家通过向社会征收以及出让土地、发行彩票等方式取得收入,表示国有资源的经营收入。在社会主义市场经济下,政府性基金收入大部分需要在全社会范围内进行统一筹集和使用,市财政分配的主要对象;第三类反映的是在社会建设、拥有个人资产等时候对个人征收的各种税;第四类反映的是税外收入,是在一般生产经营活动中征收的其他收入,具有较大的灵活性和相对不稳定性。 2.2.3定性分析和寻找影响财政收入组成类别的潜在因素 财政收入的组成成分众多而复杂,要研究影响财政收入的影响因素,就要从财政收入的各个组成成分入手。根据上面聚类分析的结果,我们对这四类组成成分进行定性分析,以寻找和挖掘出影响各类财政收入的因素(第一类反映实体经济的税收的影响因素已经给出,见附件)。 第4页第二类政府性基金预算收入是为实现特定经济社会领域的政策目的,各级人民政府及其所属部门按照规定程序批准,依法向特定群体无偿征收的具有专项用途的一种非税收入,主要有出让土地、发行彩票等方式,政府性基金种类繁多,与一般税、特殊类型税、规费、受益费等有着明显区别,其基本特征表现为特别政策性、被课征群体特定性、特殊的法律关联性、非对待给付性和专款专用性。 正是由于这些特性,使得每年政府性基金收入的涨跌基本与当时的政策干预有关,并且大多数资料显示,政府性基金收入很大程度上与土地出让收入直接相关,而这又与当地政府出台的有关土地出让方面的政策相联系。因此,政府性基金收入基本与当地相关政策和社会整体情况有关。 第三类财政收入是对与社会生产有关的对象所征收税,包括个人所得税、城市建设维护税、房产税等。其中,房产税、契税主要与房屋买卖、房屋交换等行为有关,故反映房地产发展、商品房销售情况的因素均会对它们产生影响,如商品房销售面积、商品房销售合同金额等。城市维护建设税是指为加强城市的维护建设,扩大和稳定城市维护建设所征收的一种税,其纳税人是有经营收入的单位和个人,故与经济有关的因素、就业人数、教育水平以及人口数都会对其产生影响。土地使用税是指对土地使用权征收的一种税,它和车船使用税都在一定程度上反映了社会固定资产的总量。而印花税则关系到经济、生产活动的方方面面,居民消费水平是衡量经济发展的重要指标,故它会对财政收入产生一定的影响。最后,政府财政支出是与财政收入相辅相成的因素,正是因为政府要为实现一定职能而投出资金,才有了财政收入的必要。 第四类财政收入是指税外收入。企业计划亏损补贴主要是指国家为了使国有企业能够按照国家计划生产、经营一些社会需要,但由于客观原因使生产经营出现亏损的产品,而向这些企业拨付的财政补贴。而专项收入,是指根据特定需要设置有专门用途的收入。行政性收费是指国家机关、司法机关和法律、法规授权的机构,依据国家法律法规、相关规定行使其管理职能,向公民、法人和其他组织收取的费用。罚没收入是指执法、司法机关依照法律规定,对违法违章者实施经济的罚款收入。这些收入均属于税外收入,是对税收的补充收入,具有较大的灵活性和相对不稳定性,所以影响因素主要由经济发展水平和政策变动,即地区生产总值和政策干预。 根据上面分析,我们便可以确定影响财政收入组成成分(增值税、营业税、企业所得税、个人所得税除外)的其他潜在因素(数值型变量),通过广州市统计信息网等网站搜集相关数据,得到数据汇总见表3: 表3财政收入第二三四类组成成分的影响因素错