
- 收藏
- 加入书签
光电智能远传水表相关数据分析的算法浅析
摘要:针对智能水表抄表数据等数据类型,说明算法对光电智能远传水表相关数据分析的优化。简析算法在抄表数据方面应用的重要性。介绍算法的原理及应用。对比多种算法在处理与估计抄表数据的优势与不足。提出算法在其他供水行业数据处理应用的前景与展望。
关键词:智能水表;远程抄表;k-近邻算法;局部离群因子算法
一、智能水表数据处理相关算法的作用
随着智能水表技术的发展,远程抄表技术逐步成熟,增加了数据采集量和数据处理量。准确快速地发现问题数据并对问题数据进行预测估算,成为智能水表抄表数据处理的又一重要课题。
从历史数据分析,供水系统抄表数据处理及预测,具有规律性、实时性、差异性的特点。阶段用水变化特性与现阶段的用水实际需保持切合,且要控制一定时期内的抄表数据在一定的误差范围内。[1]
算法是一种用系统的方法描述解决问题的策略机制。我们选择有效贴合的算法对智能水表抄表数据进行分析,可以得到数据解决方案准确而完整的描述。
二、智能水表抄表数据处理相关算法的选择
(一)数据分析算法介绍
1. k-近邻算法
k-近邻算的解决思路在于搜索训练集的相似性,建立合理的内部关系,以“预测”未知变量,不进行关系泛化和规则归纳。该算法记录整套训练集,利用训练集的已知信息,对无标签的新数据进行比较,找出相似的已知数据并将新数据进行分类标签化。
(1)k-近似算法的原理
k-近似算法的基本工作原理是,在多维空间里为新的无标签数据找到与之非常相近的已知有标签数据,从而预测未知数据的标签就是这些已知数据的标签。
合理设置k值是k-近似算法最重要的参数。而搜索未知数据与已知数据集之间距离相似的已知数据点数即为k值。
(2)k-近似算法的优缺点
k-近似算法自身训练集即为模型,构建模型耗时少。该算法对输入无限制,但更适合标准型较高、相似性距离接近的数值型数据。具有处理未知数据可能含有的缺失值的能力,具有学习非线性关系的能力。但该算法中,k值是随意的,且模型缺少描述,不适用于响应时间苛刻的领域。且在使用该算法时,上线运行时间和存储的代价都较为昂贵,成本较高。
2. 局部离群因子算法
局部离群因子(LOF)算法,是一类基于密度的离群点检测方法的扩展。离群点分布在低密度的数据空间,而不是正常数据点出现的高密度数据空间。其中,数据点密度则为标准单位空间内数据点的个数,与数据点之间的距离成反比。而基于密度的离群点检测方法则是找出低密度区域中的离群点。为了应对离群点密度差异太大的情况,解决基于密度的离群点检测方法的局限,LOF算法对其进行了补充。
(1)局部离群因子算法的原理
LOF算法在基于数据点各自密度的基础上,增加了对数据点所占据的局部区域密度的考虑。该算法基于相对数据点的密度为每个数据点的离群指数进行赋值计算,找出离群点。相对数据点密度的计算方法为:
点X的相对密度=点X的密度/所有近邻数据点的平均密度
其中,“点X的密度”为该点X与最近k近邻点之间平均距离的倒数,参数k为局部区域的范围。
(2)局部离群因子算法的优缺点
局部离群因子算法生成根据数据相邻情况而计算所处位置相对密度值的模型。该模型的输入类型为数值型或类别型,能够处理不同区域内不同的数据密度情况,优化了基于密度的离群点检测方法无法完成密度迥异区域计算的缺点。但正因其对相对密度的计算,则需要人工设定距离计算参数,标准化也是其必备步骤。
(二)数据分析算法应用
工业表、网点表等大表的自动抄表周期为1小时,数据量庞大,每周期抄表差值迥异。使用一大表用户年度自动抄表数据作为数据集,其包含1万多条数据,利用RapidMiner工具,将该用户数据结合上述两种算法进行数据处理。
(1)基于k-近似算法的建模
将该用户数据导入基于k-近似算法的RapidMiner建模后分析可见,k-近似算法可以有效地筛选出数据离散点,但没有试图解释输入与输出变量之间的关系,没有涉及对关系的泛化过程。在建模及计算过程中,耗时较长,响应速度慢。
(2)基于局部离群因子算法的建模
在RapidMiner中插入Detect Outlier(LOF)算子,输出数据添加为离群指数的数值型数据,随后反馈离群指数。对离群指数可视化,设置合适阈值后才能筛选出离群点。
对数据进行标准化及PCA降维处理,将四维数据降为二维。设置离群点算子,对上限值和下限值参数进行设置。运行LOF算子,输出离群点数值。添加Numeric to Binominal算子,基于选定阈值输出布尔型离群指数。分析可见,该模型能够清晰直观地找到数据有误的离散点。该模型的运算时间相较k-近似算法模型显著缩短,提高了计算效率,降低了运行成本。
建立用户每月用水数据分析模型,能够更快速、直观、全面地展现出数据中的离散值,即读数错误的用水数据。这对用水数据提取、监测和反馈提供了便捷、有效的数据分析方式,优化了智能远传水表数据处理。
三、算法在其他供水行业数据处理应用的前景与展望
智能水表用水量数据只是众多供水数据分析其中的一个环节。而算法作为数据分析最有力的方法,可以展望其在其他供水数据处理的应用。
(一)城市供水测压点管网数据处理
各水司可建立智慧水务系统,实时监测管网数据能够及时发现问题数据,保障正常供水,调节压力平衡,为预防管网漏损提供数据依据。
测压点管网数据可以结合决策树算法,将数据集分割为子集,直观方便地对数据进行拟合,细分数据,建立数据依据,完善测压管网分布。
(二)二次供水设施数据分析
基于日常水量等对于二次供水设施进行数据分析,能及时发现管网漏损情况,以便发现和捕捉管网暗漏。[2]
该数据可以结合人工神经网络算法,进行漏损数据分类归纳。该算法能够在学习过程中调整权重,减少预测值与真实值差异。将预测水量与实际水量比较,可迅速发现差异值。
参考文献
[1]段焕丰,方永忠,俞国平.城市用水量调查与数据处理技术研究[J].计量技术,2007:61-65.
[2]贺宏.二次供水设施数据动态分析在漏耗控制方面的运用[J].水工业市场,2011:75-76.
作者简介
王尚励(1995.10—)女,汉族,山东省烟台市人,助理工程师。研究方向:自动化、计量及远传水表。