全国大学生数据挖掘竞赛 优秀作品 作品名称:基于数据挖掘技术的市财政收入分析预测模型 荣获奖项:二等奖 作品单位:长沙理工大学 作品成员:龙承运杨芳蔡碧碧 指导教师:戴志锋 基于数据挖掘技术的市财政收入分析预测模型 摘要:本文从经济理论及实践考察出发,确定影响财政收入的关联指标为税收、生产总值、全社会固定资产投资、就业人数和其他收入。经广州市年历年统计年鉴,整理出各项指标数据,并利用多元回归分析数学模型识别出影响财政收入的关键因素为:税收、其他收入、全社会固定资产投资。通过函数拟合计算出2015年各关键因素的预测值,从而得出2015年财政收入预测值为23741728万元。通过各关键因素对财政收入的影响程度并结合广州市近年来财政收支的实际预算情况,从经济和非经济视角对广州市未来几年的财政收支预算提出相关建议。 关键词:经济理论;关键因素;多元回归分析;函数拟合;预测值 Analysis and forecast model of financial revenue based onData Mining Technology Abstract:This paper from the economic theory and practice study of determinethe impact on fiscal revenue related indicators for tax, GDP, whole society fixedassets investment, employment and other income.After years of Guangzhou CityStatistical Yearbook, sorting outthe index data, and by using multipleregression analysis mathematical model recognition is the key factor inaffecting fiscal revenue: taxes, other income, whole society fixed assetsinvestment.By fitting a function calculated 2015 the key factors of predictivevalue, so as to obtain the fiscal revenue in 2015 predictive value for23741728_wan million yuan.Through the key factors on the extent of the impactof fiscal revenue and combined with the Guangzhou City in recent years the actualfinancial revenue and expenditure budget, from the perspective of economic andnon economic of Guangzhou City in the next few years, the fiscal revenue andexpenditure budget put forward related suggestions. Key words:Economic theory; key factors; regression analysis; fitting;prediction 目录 1.挖掘目标...............................................................................................1 2.分析方法与过程....................................................................................1 2.1.总体流程.....................................................................................................................12.2.具体步骤.....................................................................................................................22.3.结果分析...................................................................................................................7 4.参考文献...............................................................................................9 1.挖掘目标 本文建模的目标是通过挖掘广州历年统计年鉴中财政收入的关联指标,经过财政收入经济理论研究及实践考察,确定财政收入的影响因素。并通过传统的多元回归数学模型识别影响财政收入的关键因素。为做出下一年有效的财政收入预算,为下一年的政策提供指导依据,本文通过函数拟合预测出各关键因素的预测值,并利用财政收入与各关键因素的相关函数,计算出未来几年财政收入预测值。结合社会经济发展和广州市近几年的财政收入及支出等情况,从财政收入和支出预算的角度,对广州市提供相关合理建议。 2.分析方法与过程 2.1.总体流程 主要步骤描述: 步骤一:数据预处理,梳理1999年—2013年数据,并对关联指数据标进行分类; 步骤二:判断数据是否线性相关,即判断各指标数据与财政收入数据的相关性,以便建立相应回归模型; 步骤三:建立回归模型,根据多元回归分析原理、步骤,结合财政收入与各指标的关系,建立相应数学模型; 步骤四:模型求解,运用MATLAB求出财政收入与各指标的函数表达式; 步骤五:显著性检验,根据回归函数返回的相关系数2R值、_F检验值、f阈值、显著性系数p值进行标准检验; 步骤六:剔除多余变量,若假设检验不符合标准,即存在多余变量或异常点,应对其进行剔除; 步骤七:关键因素表达式,根据剔除后的模型求出财政收入与关键因素之间的函数表示; 步骤八:关键因素及财政收入预测,根据多年的数据,可先对各关键因素函数拟合并求预测值,进而运用步骤七得出的函数表达式计算出财政收入。 2.2.具体步骤 步骤一:确定关联指标 研究财政收入的影响因素离不开一些基本的经济变量。回归变量的选择是建立回归模型的一个极为重要的问题。如果遗漏了某些重要变量,回归方程的效果肯定不会好而考虑过多的变量,不仅计算量增大许多,而且得到的回归方程稳定性也很差,直接影响到回归方程的应用。影响市财政收入的因素很多,本文通过经济理论对财政收入的解释以及对实践的观察,确定对财政收入影响的因素主要有税收、生产总值、全社会固定资产投资、就业人数和其他收入。 (1)税收。税收由于具有征收的强制性、无偿性和固定性特点,可以为政府履行其职能提供充足的资金来源。因此,各政府都将其作为政府财政收入的最重要的收入形式和最主要的收入来源。 (2)生产总值。常被公认为衡量区域经济状况的最佳指标。GDP会促进国民收入, 从而提高居民个人收入水平,直接影响居民储蓄量,并与财政收入的增长保持一定的同向性。 (3)全社会固定资产投资。是建造和购置固定资产的经济活动,即固定资产再生产活动主要通过投资来促进经济增长,扩大税源,进而拉动财政税收收入整体增长。 (4)就业人数。就业人数的上升伴随着居民消费水平的提高,从而间接影响财政收入的增加。 (5)其他收入。结合广州市财政的特点,本文将国有资本经营收入、行政事业性收费、罚没收入、专项收入、政府基金收入等均纳为其他收入。因此,其他收入作为财政收入的组成部分,具有广泛性和不确定性,对财政收入有直接影响。 步骤二:数据预处理 (1)数据来源 本文数据均以广州统计局提供的《广州统计年鉴》为源,使用1999—2013年财政收入、税收、广州市生产总值、全社会固定投资、就业人数和其他收入的数据。确保数据可靠真实。 (2)数据分类 根据本文对各项指标的定义,通过广州市历年的统计年鉴整理各指标数据见表1: 步骤三:多元回归分析 (1)回归分析基本原理 回归分析是一种处理变量的统计相关关系的一种数理统计方法。其基本思想是:虽然自变量和因变量之间没有严格的、确定的函数关系,但可以设法找出最能代表他们之间关系的数学表达形式。按因变量和自变量的数量对应关系可划分为一个因变量对多个自变量的回归分析及多个因变量对多个自变量的回归分析;按回归模型可划分为线性回归分析和非线性回归分析。 (2)回归分析基本步骤 1、数据分析 为了确定因变量财政收入Y与自变量税收1X、生产总值2X、全社会固定投资3X、就业人数4X和其他收入5X的线性关系,首先利用原始数据作出Y对1X、2X、3X、4X、5X的散点图,如图2所示: 从图2可以看出,因变量财政收入Y与各自变量iX是线性相关的,故应建立一个应变量对多个自变量的线性回归分析模型。 2、建立回归方程 根据传统的回归模型,本文以财政收入Y为因变量,税收1X、生产总值2X、全社会固定投资3X、就业人数4X和其他收入5X5个经济指标为自变量,建立多元函数: 其中C为常数,)5,4,3,2,1(iCi为各指标系数; 利用MATLAB软件对上述基本模型进行参数估计得到如下结果: 543218704.02930.00206.00021.03628.18445.738237XXXXXY式(2)其中:9997.02R,F_检验值=7.6988,阈值1410476.2f,显著性p值10105027.1 3、回归分析结果检验 第一:异方差检验 可利用MATLAB作出各组数据的残差图,见图3: 从残差图3可以看出,除第一个数据和第七个数据外,其余数据的残差离零点均较近,且从残差的置信区间均包含零点,这说明回归模型结果能较好的符合原始数据,将第二个及第七个数据视为异常点。 第二:指标显著性检验 从stat输出的与显著性概率相关的p值10105027.1>0.05,这说明回归方程中有些变量可以剔除。 第三:其他检验 在stat返回的4个值中,9997.02R,说明模型拟合的很好;,F_检验值=7.6988>阈值1410476.2f,符合检验要求。 综上可看出,应对模型进行修正即:去除异常点和剔除不必要指标。 4、模型的修正 首先将数据中的第一个和第七个异常点数据去除,去除后从残差图4可见模型分析数据很正常。 然后对多余经济指标进行剔除,可在MATLAB软件包中建一个M文件,运用stepwise函数进行指标逐个插入,指标选入结果见5:(蓝色表示选入,红色表示剔除) 从修正后的模型结果得出:指标显著性参数05.01036945.317p,符合检验要求。 最后根据修正后的回归模型,建立多元函数关系式: 用MATLAB对该回归模型进行参数估计得到: 2.3.结果分析 从修正后的回归分析模型得出的结果可以看出,自变量财政收入Y与因变量税收1X、全社会固定投资3X、其他收入5X三个经济指标间具有正相关关系,根据各变量系数可知,对财政收入影响最大的税收,其次是其他收入,全社会固定资产投资对财政收入影响相对较弱。 税收作为财政收入的基本因素,其内容非常丰富,它包含广州市10个税种的收入(由于农业税在2006年取消