全国大学生数据挖掘竞赛 优秀作品 作品名称:城市供水处理混凝投药过程的建模与控制 荣获奖项:一等奖 作品单位:华南师范大学 作品成员:杨程炜胡小粤许仕达 指导教师:杨坦 基于改进的BP神经网络的最佳混凝剂投药量模型 摘要:本文首先通过插值变换样本的时间窗口,再构造反映混凝剂净水效果的指标,并通过该指标与PAC投入量在不同的滞后阶数下的相关系数,得到原水添加混凝剂反应到沉淀结束出水的时间约为124分钟。再使用改进模型——基于有限次残差拟合的BP神经网络组合模型,学习净水规律,即在不同的原水水质和原水流量下,要想得到一定的出水浊度所需的混凝剂投入量。一方面,模型的绝对误差百分比为18.84%,说明总体的预测效果一般,另一方面,证实改进模型确实比经典BP神经网络更有效,预测精度提高了16.89%。然后,利用上述模型生成当前状况下的去浊率曲线,并取最高效率点为最优点。最后,引入温度作为自变量,重新建立BP神经网络组合模型,通过前后对比,发现预测误差减少10.31%,在残差拟合4次后预测误差降低7.92%,说明温度变量对预测有效,且通过分析,温度对PAC投入量的影响是非线性的。 关键词:混凝剂BP神经网络去浊率最优点 Model oftheBestAmount ofCoagulantDeliveryBased onImprovedBP Neural Network Abstract:In this paper, first, we fabricate a interpolation to transform the window ofsample,and construct a index that reflect theeffect of coagulant purifying water.Next,we gainthe correlation between the index and PAC investment when lag coefficient is in different, inorder toreceive the length of time betweenraw water added coagulant and outputting water is124 minutes.Afterthat,there is a improved model,Combined model of BP neural networkbased of limited error fitting,and wemake use of that model to learn the orderliness of waterpurification,which can gain the enough coagulant when thewater quality ofraw water andrateof flow of raw water is realized different.On the one hand,the absolute error percentageof thismodel is equal to 18.84%,which can emerge this model has normal effect offorecast.On the other hand,modified model that raised theeffect of forecastby 16.89%ismore effective thanclassicalBP neural network.Then,using that model togenerate curve ofturbidity rate undercurrentconditions,and choice the point that represent achieving maximumefficiency as the optimal point.Ultimately,the model isintroducedtemperature to be one ofindependent variable to fabricate a new expanded BP neural network model,after weobservethecontrast of the above models finding that the prediction error has reduced by 10.31% andwhen error fitting has been done by 4 times theprediction error has reduced by 7.92% ,whichcould show that temperaturevariable is effective to prediction and nonlinear to PACinvestment. Key words:coagulantBack Propagationturbidity rate optimal point 目录 1.研究目标...............................................................................................12.分析方法与过程....................................................................................12.1.总体流程.....................................................................................................................12.2.具体步骤..................................................................................................................... 22.3.结果分析................................................................................................................... 103.结论.....................................................................................................124.参考文献.............................................................................................135.附录.....................................................................................................13 1.研究目标 本次建模目标是利用2013.08.08~2014.09.05的9397条数据,利用数据挖掘,计算出添加混凝剂反应到沉淀结束出水所需的时间,并根据该反应时间(即控制时滞),利用原水水质数据、流量数据、沉淀池浊度及混凝剂投加量等数据建立最佳混凝剂投药量的模型,并通过引入温度变量,再追加温度作为影响因素,建立更完善的最佳混凝剂投药量模型,实现对污水处理自动化的实时控制,从而增强水厂净水的高效性和便利性。 2.分析方法与过程 2.1.总体流程 [注]:本文在求出控制时滞后,跳过题目要求的需求二,直接添加沉淀池的浊度作为自变量开始建模,原因如下: 如果没有添加沉淀池的浊度作为自变量,那么只通过原水PH、原水浊度、取水量预测PAC投放量,学习到的是:过去在不同原水状况下净水厂不同的混凝剂投放量,得到的只是过去投放经验的总结. 而如果增加沉淀池的浊度作为自变量,那么通过原水状况、出水时的浊度预测PAC投放量,则模型学习到的是:当前原水状况下,要使得未来出水时达到一定浊度所需要的PAC投放量,则学习到的是客观的净水规律。 因此,我们直接跳过题目的需求二,直接引入沉淀池浊度变量。 本用例主要包括如下步骤: 步骤一:样本数据预处理 步骤二:计算原水添加混凝剂反应到沉淀结束出水的时间 步骤三:建立原水水质、取水量、沉淀池浊度、混凝剂投加量之间的数学模型 步骤四:定义混凝剂最优投入量的含义 步骤五:求解当前最优的混凝剂投入量 步骤六:获取并生成温度数据 步骤七:建立含温度变量的拓展模型 2.2.具体步骤 步骤一:样本数据预处理 缺失值处理 在原始计量数据,发现前288条数据存在大量的样本PAC消耗量缺失的现象(其中仅有2条含相应记录,但依然无法进行有效的插值处理,因此忽略),为确保建模数据的有效性,删除上述288条数据,占原始数据的3.06%。 异常值处理 在取水量和供水量的折线图中,发现2014年3月28日16点数据异常大(且15点数据缺失),2014年5月27日15点数据异常大(且14点数据缺失),2014年6月20日18点数据异常大(且7点-17点数据缺失),2014年9月4日13点的取水量为负值,显然不符合实际,为了保持时间的连贯性,进行线性插值,使总数据增加到9156 条(即共有381.5天),增加的数据占总数据的0.51%。 步骤二:计算原水添加混凝剂反应到沉淀结束出水的时间 时间窗口变换(插值处理) 原始数据样本两两间隔为一个小时,相差较大,不利于较精确地进行分析和计算,对数据进行线性插值,得到以一分钟为间隔的数据。 净水效果指标的构造 (1)浊度的理解 1NTU溶液的浑浊程度与悬浮物及胶体状态颗粒为1mg/L的溶液的浑浊程度是等价的,因此,给定数据中的浊度可理解为悬浮物及胶体状态颗粒的浓度(mg/L)。 (2)指标构造 通过浊度在净水沉淀前后的变化量,作为体现PAC净水效果的指标,用tQ表示净化效果,tD、tW分别表示t时刻(分钟)的原水浊度、取水量,ntD、ntW代表净化后出水时刻nt(分钟)的沉淀池浊度、供水量,考虑到净水过程中水的损耗,净化后的浊度需要一定的折算,表达式如下: 净水效果与PAC投入的相关系数 PAC的 投 入 量 与 净 水 效 果 有 着 直 接 的关 系 , 因 此 计 算 两 者 之间 的 相 关 系 数P a cQ,,通过观察相关系数何时取得最大值,确定为控制时滞。并绘制如下曲线图: 由图3看出,总体的相关系数并不大,主要原因是因为以分钟为时间窗口的数据是由插值而来的,数据品质较为一般。 发现当滞后阶数为124时,水质浊度下降量与PAC投入量的相关系数达到最大值,即确定从原水添加混凝剂反应到沉淀结束出水的时间为124分钟。 步骤三:建立原水水质、原水流量、混凝剂投加量之间的数学模型 改良模型:基于有限次残差拟合的BP神经网络组合模型 (1)提出背景 经典BP神经网络初始权值阈值由于是随机选取的,因此容易陷入局部极小值,而诸如融合遗传算法的BP神经网络等模型虽有效提高预测精度,但运算慢是其无法忽视的缺点,尤其对于本题,插值后的数据以分钟为时间窗口,有几十万个样本,在一般的微型计算机中训练一次需时数分钟。而遗传算法中,每一个种群就是一次训练,而且还需几十、数百代的遗传,因此,效率十分低,不利于本题的情况,需要进行适当改进。 (2)原理简介 一方面,若训练陷入局部极小值,则相比于陷入全局最优解的情况,其拟合残差仍含有可预测的信息。另一方面,如果