摘要 基于高频水质在线监测数据, 利用水质数据的空间相关性构建神经网络模型实现对河流水质的实时预测。应用此模型对广州市白坭河流域的水质参数溶解氧和氨氮进行预测和分析, 验证水质模型的效果。根据预测时间的不同, 搭建 6 种水质预测模型, 结果显示溶解氧提前 6 小时预测的模型具有更好的预测效果, 氨氮提前 24 小时内预测的水质模型效果较好。训练较好的模型对溶解氧和氨氮实时水质预测的平均绝对误差分别为 0.43 和 0.29mg/L, 均方根误差分别为 0.71 和 0.36mg/L。在 95%置信度水平下, 预测区间覆盖率分别为 96.6%和 97%。该模型可以作为水质异常事件的预警, 同时可以借助模型对输入项的敏感性分析, 进行污染源解析, 帮助流域识别污染物主要来源。
关键词 神经网络; 实时水质预测; 空间相关性; 污染源解析
城市河流预测和预警对河流的水质管理有重要作用。通常使用水质机理模型对河流水质进行预测, 如EFDC[1–3]和MIKE[4–6]等, 此类模型根据已知的河流水动力学和水质参数变化机理公式, 模拟河流的水动力和水质变化, 但污染来源不确定、环境因素多变以及数据难以搜集等问题使得构建此类模型对水质进行准确预测非常困难[7]。以数据驱动的水质模型正在成为水质预测研究的热点。河流水质变化是典型的多变量、非线性过程, 人工神经网络具有很强的学习能力, 可以很好地解决水质预测中的非线性问题[8]。目前, 已有许多研究者将人工神经网络用于地表水和地下水质预测[9–10]。
近年来, 物联网和移动互联网等技术发展带来海量数据, 改变着社会生活, 创造出新型的城市和生活形态, “智慧交通”、“智慧医疗”和“智慧水务”逐渐成为日常生活的一部分[11]。在流域管理领域, 由于自动监测站的布设, 获得大量的水质数据, 其特点是采样频率高、数据量大、数据类型单一。自动监测站采集的高频水质数据比传统采样频率(每周或每月)更能反映复杂的水质变化动态[12]。利用自动监测站的高频水质数据可以解决传统神经网络模型构建中样本不足的问题。
构建水质预测神经网络的一个关键步骤是输入项特征值选取, 选取的输入项与输出项是否有很好的关联性决定着模型的预测效果。根据输入项的不同, 目前相关研究可以分为以下 3 类: 1)对预测值以往数据进行特征值的筛选和提取[13–15]; 2)基于预测值以往数据, 加上一些外部参数(如温度、pH 和电导率等[16–18]), 进行特征值的提取和筛选; 3)基于不同水质参数来预测特定水质参数[19–21], 如利用COD, TP 和 DO 等水质指标对水体中 Chl-a 浓度进行预测。以往的研究主要基于各项参数的时间关联性以及参数之间的联系建立模型, 重点关注模型精度的提升, 对基于空间相关的神经网络水质预测模型的研究较少。河流下游断面由上游若干支流汇集而成, 因此河流下游水质与上游水质具有空间相关性。将空间上具有水力关联的自动监测站的水质作为输入项, 可以实现对关心断面水质的实时预测和水质异常事件预警, 通过训练好的神经网络模型输入项的敏感性分析, 可以判断上游支流对下游断面的影响程度。
利用流域上下游在线水质自动监测大数据, 根据其空间相关性, 构建水质实时预测的神经网络模型。步骤如下: 对水质自动监测站采集的大数据进行清洗和预处理, 构建神经网络模型框架, 根据训练集和验证集的预测效果调试模型参数, 在测试集上借助水质评价指标评估模型效果, 根据输入敏感性判断支流对断面的影响程度, 流程如图 1 所示。
1.1.1白坭河概况
白坭河又称巴江河, 是珠江三角洲水系的重要组成部分, 流域集水面积为 788km2。上游支流九曲河经芦苞涌与北江相通, 另一条支流国泰水发源于清远坑尾, 中游接纳花都区内的天马河、新街河后, 与流溪河在鸦岗交汇, 最终经石门汇入珠江, 流域跨广州、佛山、清远三地, 主体部分总长45.76km。主要流经的花都区地势东高西低, 北高南低, 自东北向西南呈横向带状阶梯式倾斜。当地属于海洋性亚热带季风气候, 盛行环流季风, 冬季温和湿润, 夏季炎热多雨。花都区下辖新华、新雅、秀全和花城等 4 个街道以及花山、花东、赤坭、炭步、狮岭和铁门 6 个镇。截至 2018 末, 花都区户籍总人口为 78.24万。
流域设 5 个跨界水质监测断面, 分别为广佛交界处的九曲河和下巴排洪渠监测断面、与清远交界的国泰水监测断面、与白云区交界的大坳监测断面以及在白云区界内的鸦岗断面。广州市设 35 个水质自动监测站, 监测市区主要支流及黑臭水体的水质, 花都区界内的自动监测站包含新街河、天马河、雅瑶涌、大陵河和炭步断面等(图 2)。
图1 研究流程
Fig. 1 Research flow
图2 流域水系和自动监测站位置
Fig. 2 Watershed system and location of automatic monitoring stations
1.1.2数据来源
建立模型所需数据来自广州市城市排水监测站在白坭河流域布设的新街河、天马河、雅瑶涌、大陵河和炭步断面 5 个自动监测站及大坳和鸦岗两个跨境监测断面。监测的水质指标为每 2 小时采集一次的氨氮和溶解氧瞬时水质数据, 监测时段为 2020年 1 月 1 日 0 时至 2020 年 11月 30 日 20 时。
1.1.3数据预处理
受限于大数据自动采集的系统性误差和随机性误差, 自动监测站采集数据存在异常值和缺失值等问题, 需要对数据进行清洗。根据时间序列对齐和矫正数据; 筛选出数据中的错漏值和缺失值, 删除异常数据; 统计清洗后数据的分布, 进行归一化处理。经过清洗氨氮有效数据为 2866 组, 总计 20062条, 占原始数据的 70%; 溶解氧有效数据为 4008组, 共 28056 条, 占原始数据的 99%。将原始数据按照 6:4 的比例划分训练集和测试集。训练集中, 设置 20%的数据作为验证集。
1.1.4相关性分析
原始数据经过正态性检验, 符合正态分布。借助 Pearson 相关系数, 分析各站点水质间的线性相关性。相关系数介于[−1, 1]之间, 值越接近 1 或−1, 表明水质数据线性相关程度越强; 值接近 0, 表明水质参数间无线性相关性。相关系数的大小及相关程度判别见表 1。需要指出的是, Pearson相关系数只表明变量之间的线性相关强弱, 无法判断变量间的曲线关联, 即使变量间显示线性无关, 也无法判断变量间有无线性相关以外的关联。
表1 相关程度判别表
Table 1 Correlation degree discrimination table
相关系数绝对值相关程度相关系数绝对值相关程度 0~0.2不相关0.6~0.8强相关 0.2~0.4弱相关0.8~1极强相关 0.4~0.6中度相关
采用误差反向传播算法的神经网络(Back Pro-pagation, BP)由 McClelland 等[22]提出, 是应用最广泛的神经网络模型, BP 神经网络分为 3 层, 分别为输入层、隐含层和输出层。每一层由若干神经单元组成, 输入层与隐含层之间的神经单元由权值连接, 隐含层与隐含层之间、隐含层与输出层之间的神经单元靠激活函数连接, 通过输出值与目标值之间的误差优化各层权值, 达到优化模型的目的。借助python 以及 tensorflow 底层系统构建网络模型。
1.2.1输入层、隐含层和输出层设置
大坳断面来水由上游各级支流汇合而成, 河流运动受潮汐作用影响。选取上游 5 条主要支流和下游鸦岗断面的自动监测站实时水质数据作为输入层变量。上游 5 条主要支流自动监测点位分别为炭步断面、天马河、新街河、雅瑶涌和大陵河。炭步断面设置在白坭河干流, 对应九曲河、国泰水等跨界污染物输入以及干流沿程农村区域污染物输入; 天马河、新街河、雅瑶涌和大陵河等监测点位于花都区市区, 人口密度及经济活动均高于其他区域, 对应市区人为污染输入; 鸦岗断面位于白坭河下游, 属于白云区内监测点位, 对应因受潮汐运动控制, 下游污染物输入对上游断面水质的影响。
目前, 尚没有通用的理论可以帮助选择隐含层数量和神经元个数, 但一般情况下, 对于不复杂的数据结构, 简单的基础神经网络就足以很好地学习非线性分离的数据[23], 设置过多的隐藏层会带来过拟合的问题。通过参考以往神经网络训练的经验以及实际数据的调试, 本研究共搭建两层隐含层, 神经元节点数依次为 32 和 16。
本文预测对象为大坳断面水质, 所以模型只输出一项数据, 即预测未来不同时段的断面水质。
1.2.2神经网络学习参数
在构建神经网络时, 需要对神经网络学习参数进行选择, 包括各层神经网络的初始权值、训练目标、优化算法、迭代次数和批处理量等。神经网络的初始权值决定神经网络学习的起点, 如果选择不当, 可能造成网络陷入局部极小值, 影响神经网络的训练结果。在 keras 算法中, 默认初始权值随机分布, 为消除初始权值等误差带来的影响, 探求模型训练的最优效果, 将搭建好的模型分别训练20 次, 分析模型的预测效果。
模型的训练目标为预测值与实际值之间的均方误差(mean squared error, MSE)。优化算法为 Adam算法(adaptive moment estimation)[23], 是一种在深度学习中十分流行的算法, 可以占用更少的内存来实现更高效的计算。为防止模型训练陷入过拟合, 使用验证集进行调试, 当验证集精度下降超过 30 个迭代次数时, 提前停止训练。
模型预测效果评价分为准确性和可靠性两部分。准确性以断面水质预测值与实际值之间的平均绝对误差(mean absolute error, MAE)和均方根误差(root mean squared error, RMSE)作为模型预测效果评价的函数。可靠性以预测区间覆盖率(prediction interval coverage probability, PICP)为评价指标, 反映预测值出现在预测区间内的概率。
(2)
(3)
式中, yi 为模型预测的水质值, 为水质实际监测值, n 为预测水质数据的个数。s 为预测值的标准差, 为t分布在 n−p 个自由度下, (1−𝛼)%的置信度, 当置信度为 95%时, 该值取 1.96。如果预测值落在置信区间内, Ci 为 1, 否则取 0。若 PICP 值大于95%, 则认为模型是可靠的。
珠江三角洲地势平缓, 水动力情况复杂, 受上游来水、潮汐和降雨共同控制。张蔚等[24]的研究及我们的实地调研结果显示, 干流受潮汐控制, 流速在−0.4~0.4m/s之间, 设上游流速为 0.1~0.3m/s, 下游涨潮时回流速度的绝对值为 0.1~0.3m/s。各自动监测站水体传输至大坳断面的空间距离及流经时间见表 2。根据空间距离的远近, 各自动监测站水体至大坳断面流经时间分布在 4~37 小时之间。
将下游断面与各自动监测站分别做氨氮、溶解氧水质的 Pearson 相关性分析, 结果见图 3 (图中标出具有直接水力关联的上下游站点间的相关系数值)。图 3 显示, 大坳断面溶解氧水质与鸦岗断面溶解氧高度相关, 与天马河、新街河、雅瑶涌和炭步断面溶解氧中度相关, 与大陵河溶解氧弱相关。大坳断面氨氮水质与鸦岗断面氨氮高度相关, 与其他点位氨氮线性相关程度较小。在各监测点位氨氮与溶解氧水质之间的相关性中, 上游雅瑶涌、新街河的溶解氧与下游大坳断面、鸦岗断面氨氮中度负相关, 上游天马河、下游大坳断面、鸦岗断面自身的氨氮与溶解氧中度负相关。
表2 上游各监测站与下游断面间的空间特征
Table 2 Spatial characteristics between the upstream moni-toring stations and the downstream sections
监测站距离/km流经时间/h监测站距离/km流经时间/h 炭步断面10.09~28雅瑶涌11.511~32 天马河 7.47~21大陵河 8.6 8~24 新街河13.212~37鸦岗断面4.5 4~12
综上所述, 对于存在直接上下游断面关系的点位(如大坳断面和鸦岗断面), 相同水质高度线性相关; 对于有其他支流汇入的上下游断面, 水质线性相关性较弱。各站点自身以及上下游测站间的溶解氧与氨氮呈现负相关性, 说明当地耗氧污染物与氨氮污染物排放有关联。
根据空间相关性分析中对上游各断面流速及流经时间数据的讨论可知, 各支流流经时间在 4~37小时之间, 而当地的潮汐为半日潮, 一天之中有两次高潮和低潮, 高低潮变化时间为 6 小时。取 6 小时为时间间隔, 在所有流经时间中均匀地分布, 分别构建提前 6, 12, 18, 24, 30 和 36 小时预测水质的神经网络模型。为了消除随机误差和寻找最优模型权值, 将每个模型分别训练 20 次, 各模型测试集均方根误差及平均绝对误差的统计结果见图 4。
溶解氧预测模型统计结果显示, 提前 6 小时的预测模型效果最好, 20 次训练中, 效果最好的模型平均绝对误差为 0.54, 均方根误差为 0.71。随着预测时间增加, 模型精度随之降低。氨氮预测模型统计结果显示, 提前时间在 6~24小时的模型预测精度较好, 在 20 次训练中, 效果最好的模型平均绝对误差分别为 0.29, 均方根误差分别为 0.36。当提前时间为 30 小时以上时, 模型预测效果明显降低。
在所有模型中, 分别选择溶解氧和氨氮表现最好的模型, 对预测效果进行分析。溶解氧选择提前 6 小时预测的模型, 氨氮选择提前 12 小时预测模型。表 3 列出模型训练集、验证集和测试集的各项评价指标, 测试集的指标更能体现模型在实际预测时的精度。
图3 各站点氨氮及溶解氧水质Pearson相关系数
Fig. 3 Pearson correlation coefficient of ammonia nitrogen and dissolved oxygen water quality at each station
图4 各预测时间段模型统计结果
Fig. 4 Statistical results of models in various predicted time periods
图 5 显示测试集中模型预测值与实际观测值随预测时间变化的关系。根据预测值 95%置信区间计算预测的上下限, 溶解氧观测值落在预测区间的概率为 96.6%, 氨氮落在预测区间的概率为 97%, 均大于 95%的置信区间, 表明模型预测具有较强的可靠性。
表3 模型训练集和测试集评价指标(mg/L)
Table 3 Evaluation indexes of model training set and test set (mg/L)
水质指标训练集验证集测试集 MAERMSEMAERMSEMAERMSE 溶解氧0.640.830.620.770.550.72 氨氮0.170.240.260.340.290.36
图5 模型预测值与观测值的对比
Fig. 5 Comparison between model predicted values and observed values
模型实时预测水质, 一方面可提前 6~24 小时预测下游断面水质超标事件, 另一方面可以作为对水质异常事件的预警。由于模型输入项为与下游断面空间相关的各支流水质, 纳入主要污染来源, 且模型经过测试集验证, 具有较高的可靠性, 当实际水质值连续超过模型的预测上限(溶解氧为下限)时, 可能存在未知污染源输入, 导致水质超限, 可作为污染源排查的依据。
经统计, 溶解氧测试集中共有 45 个数据超出预测下限, 10 个数据超出预测上限。考虑自动监测站的采样误差, 剔除单个的或不连续的超限数据, 共有 10 次溶解氧水质低于预测下限的水质异常事件。氨氮测试集中共有 1 个数据超出预测下限, 29个数据超出预测上限, 同样剔除单个的或不连续的超限数据, 共有 6 次氨氮水质超出预测上限的水质异常事件。
模型的输入项与输出项之间存在空间相关性, 可以根据输出项对各输入项变化的敏感性, 比较不同输入项对输出项的贡献度, 据此确定断面的主要污染来源。
在数据集上进行进一步模拟, 每次改变一个输入变量(5%, 10%和 20%), 保持其他输入变量不变, 查看输出变量对每个输入变量的响应情况[25]。敏感性水平计算公式为
式中, N为测试集数据个数。
敏感性分析计算结果(表 4)显示, 大坳断面的溶解氧水质对鸦岗断面的水质变化最为敏感, 其次为炭步断面和新街河, 对天马河水质的变化也有较高的敏感性, 对雅瑶涌和大陵河水质变化的敏感性较低。下游大坳断面氨氮水质对鸦岗断面和天马河水质变化的敏感性较高, 对新街河水质变化比较敏感, 对炭步断面、雅瑶涌和大陵河水质变化的敏感度较低。根据敏感性水平, 分析断面水质的主要影响因素, 可知大坳断面溶解氧水质的主要影响因素为下游潮汐运动带来的污染物以及上游干流沿程输入、跨界断面输入污染物, 大坳断面氨氮水质的主要影响因素为潮汐往复运动带来的下游污染物以及中心市区内排放污染物。
表4 输出变量随输入变量变化的敏感性水平(%)
Table 4 Sensitivity of output variables to changes in input variables (%)
输入项输出项溶解氧敏感性水平输出项氨氮敏感性水平 增5%增10%增20%增5%增10%增20% 炭步断面17.417.517.42.22.22.0 天马河10.210.310.319.419.319.2 新街河14.113.913.37.67.88.1 雅瑶涌5.96.46.42.92.21.1 大陵河5.35.14.70.50.50.6 鸦岗41.64139.728.628.127.0
本研究利用自动监测站的水质大数据, 结合神经网络方法, 构建空间相关性的水质模型, 分析模型的准确度与可靠性。模型可以对水质超标事件进行预警, 根据输入项的敏感度水平, 分析输入项对输入项水质影响的重要程度, 找到下游断面的主要污染来源。主要结论如下。
1)在空间分布具有直接上下游断面关系的点位(如大坳断面和鸦岗断面), 水质呈现高度线性相关, 对于有其他支流汇入的上下游断面, 水质线性相关性较弱; 部分上下游点位之间以及点位自身的氨氮与溶解氧指标中度负相关, 说明当地耗氧污染物和氨氮污染物的排放具有一致性。
2)建立的神经网络模型中, 对溶解氧的最佳预测时间为提前 6 小时, 对氨氮的最佳预测时间为 24小时以内。
3)基于空间相关性的神经网络模型对河流水质的预测有较好的准确性与可靠性。溶解氧训练最好的模型平均绝对误差达 0.54mg/L, 均方根误差为 0.71 mg/L, 预测区间覆盖率达 96.6%。氨氮训练最好的模型平均绝对误差达 0.29mg/L, 均方根误差为0.36mg/L, 预测区间覆盖率达 97%。同时, 模型可以作为水质异常事件的预警。
4)下游断面溶解氧水质主要受鸦岗断面、炭步断面影响, 下游断面氨氮主要污染物来源为鸦岗断面、天马河。
参考文献
[1] 张文时. 基于 EFDC 模型的山地河流水动力水质模拟[D]. 重庆: 重庆大学, 2014
[2] 邹锐, 苏晗, 余艳红, 等. 基于水质目标的异龙湖流域精准治污决策研究. 北京大学学报(自然科学版), 2018, 54(2): 426–434
[3] 刘岩, 赵智杰. 前海湾填海区的水龄特征及改善措施模拟. 环境科学与技术, 2015, 38(2): 162–168
[4] 黄琳煜, 聂秋月, 周全, 等. 基于 MIKE11 的白莲泾区域水量水质模型研究. 水电能源科学, 2011, 29 (8): 21–24
[5] 朱茂森. 基于 MIKE11 的辽河流域一维水质模型. 水资源保护, 2013, 29(3): 6–9
[6] 常旭, 王黎, 李芬, 等. MIKE11模型在浑河流域水质预测中的应用. 水电能源科学, 2013, 31(6): 58–62
[7] Liang Z, Zou R, Chen X, et al. Simulate the forecast capacity of a complicated water quality model using the long short-term memory approach. Journal of Hydrology, 2020, 581: 124432
[8] Zhu C, Hao Z. Fuzzy neural network model and its application in water quality evaluation // 2009 Inter-national Conference on Environmental Science and Information Application Technology. Wuhan: IEEE, 2009, 1: 251–254
[9] Najah A, El-Shafie A, Karim O A, et al. Application of artificial neural networks for water quality predic-tion. Neural Computing and Applications, 2013, 22(1): 187–201
[10] Li X, Sha J, Wang Z. A comparative study of multiple linear regression, artificial neural network and sup-port vector machine for the prediction of dissolved oxygen. Hydrology Research, 2017, 48(5): 1214–1225
[11] 杨明祥, 蒋云钟, 田雨, 等. 智慧水务建设需求探析. 清华大学学报(自然科学版), 2014, 54(1): 133–136
[12] Shi B, Wang P, Jiang J, et al. Applying high-frequency surrogate measurements and a wavelet-ANN model to provide early warnings of rapid surface water quality anomalies. Science of the Total Environment, 2018, 610: 1390–1399
[13] Jin T, Cai S, Jiang D, et al. A data-driven model for real-time water quality prediction and early warning by an integration method. Environmental Science and Pollution Research, 2019, 26(29): 30374–30385
[14] Wang Y, Zheng T, Zhao Y, et al. Monthly water quality forecasting and uncertainty assessment via bootstrapped wavelet neural networks under missing data for Harbin, China. Environmental Science and Pollution Research, 2013, 20(12): 8909–8923
[15] Fijani E, Barzegar R, Deo R, et al. Design and implementation of a hybrid model based on two-layer decomposition method coupled with extreme learning machines to support real-time environmental monito-ring of water quality parameters. Science of the Total Environment, 2019, 648: 839–853
[16] Verma A K, Singh T N. Prediction of water quality from simple field parameters. Environmental Earth Sciences, 2013, 69(3): 821–829
[17] Anctil F, Filion M, Tournebize J. A neural network experiment on the simulation of daily nitrate-nitrogen and suspended sediment fluxes from a small agricul-tural catchment. Ecological Modelling, 2009, 220(6): 879–887
[18] Montaseri M, Ghavidel S Z Z, Sanikhani H. Water quality variations in different climates of Iran: toward modeling total dissolved solid using soft computing techniques. Stochastic Environmental Research and Risk Assessment, 2018, 32(8): 2253–2273
[19] Chen S, Fang G, Huang X, et al. Water quality pre-diction model of a water diversion project based on the improved artificial bee colony–backpropagation neural network. Water, 2018, 10(6): 806
[20] Zhou J, Wang Y, Xiao F, et al. Water quality pre-diction method based on IGRA and LSTM. Water, 2018, 10(9): 1148
[21] Cong Q, Yu W. Integrated soft sensor with wavelet neural network and adaptive weighted fusion for wa-ter quality estimation in wastewater treatment pro-cess. Measurement, 2018, 124: 436–446
[22] McClelland J L, Rumelhart D E, PDP Research Group. Parallel distributed processing. Cambridge, MA: MIT press, 1986
[23] Hornik K, Stinchcombe M, White H. Multilayer feed-forward networks are universal approximators. Neural Networks, 1989, 2(5): 359–366
[24] 张蔚, 杨金艳, 于东生. 一、二维嵌套数学模型在白坭水道整治工程中的应用. 水运工程, 2006(1): 68–71
[25] Kingma D P, Ba J. Adam: a method for stochastic optimization [EB/OL]. (2014–12–22) [2020–12–12]. https://arxiv.org/abs/1412.6980
Real-Time River Water Quality Prediction Model Based on Spatial Correlation and Neural Network Model
Abstract Based on the high frequency water quality online monitoring data, the spatial correlation of water quality data was used to construct a neural network model to realize the real-time prediction of river water quality. The model was applied to the Baini River Basin in Guangzhou, and the water quality parameters of dissolved oxygen and ammonia nitrogen were predicted and analyzed to verify the effect of the model. According to different prediction time, six water quality prediction models were built, and the results showed that the model predicting dissolved oxygen 6 hours in advance had better prediction effect, while the model predicting ammonia nitrogen 24 hours in advance had better effect. The average absolute errors of the better trained model for real-time water quality prediction of dissolved oxygen and ammonia nitrogen were 0.43 mg/L and 0.29 mg/L, respectively, and the root mean square errors were 0.71 mg/ L and 0.36 mg/L, respectively. At 95% confidence level, the prediction interval coverage rates were 96.6% and 97% respectively. The model can be used as the early warning of abnormal water quality events. At the same time, the sensitivity analysis of the input items by the model can be used to analyze the pollution sources to help the basin identify the main sources of pollutants.
Key words neural network; real-time water quality prediction; spatial correlation; pollution source analysis
doi: 10.13209/j.0479-8023.2021.126
广州市水务局典型流域考核断面水质达标关键技术与应用项目(GZCPJ/ZD-2020-38)资助
收稿日期: 2021-03-30;
修回日期: 2021-05-16