公司新(xīn)闻您的位置:首页 > 新(xīn)闻资讯 > 公司新(xīn)闻 >
技术分(fēn)享 | 针对車(chē)载终端数据项异常值的检测方法
时间:2020-11-04 09:17来源:北京理(lǐ)工新(xīn)源 作者:BITNEI

背景介绍

随着遠(yuǎn)程排放监控車(chē)载终端的发展和普及,重型货車(chē)的关键信息流数据不断数字化、持久化,為(wèi)后续的监管和分(fēn)析工作奠定了较好的基础。但為(wèi)当前终端监管的发展水平处于初级阶段所限,信息流数据的质量层次不齐,限制了后续的监管分(fēn)析工作。所以加强信息流数据质量监控势在必行。
 
现行的数据质量要求总體(tǐ)上分(fēn)為(wèi)两种:1.缺失率;2.无效率。由于本文(wén)探讨的是针对数据异常值检测的方法,所以上述两种方法本文(wén)不再赘述。实际在車(chē)辆上传的报文(wén)数据中,缺失和无效的问题能(néng)够较好的进行识别,真正亟待解决的问题是如何判定数据是否异常。异常值通常会造成测量误差或异常系统条件的结果,因此不具有(yǒu)描述底层系统的特征。实际上,最佳做法是在分(fēn)析之前,就应该进行异常值去除处理(lǐ)。
 
这里的异常主要有(yǒu)两层意思:一、数据在现实中是否符合逻辑,这方面的异常可(kě)以依赖业務(wù)逻辑进行判断,符合规则的属于正常,反之则是异常;二、数据分(fēn)布中的噪声点,这种异常独立于业務(wù)逻辑,无法通过简单的规则进行判断,本文(wén)将着重介绍针对此种异常进行检测的方法——四分(fēn)位数法。

四分(fēn)位数法介绍

四分(fēn)位数法又(yòu)叫Tukey’s test,是统计學(xué)中成熟、使用(yòng)较為(wèi)广泛的异常值检测方法。其计算的过程大概為(wèi):
 
1)把数据从小(xiǎo)到大排列。
2)计算中位数。
3)计算下四分(fēn)位数,这里设置為(wèi)Q1,表示总数据最小(xiǎo)的25%的数据在这个点以下;计算上四分(fēn)位数,设置為(wèi)Q3,表示最大的25%数据都在这个点以上。
4)找出数据的“内围”。第一步是把四分(fēn)位差乘以参数k,k一般取值1.5。加上Q3 ,用(yòng)Q1 减去这个和,得到内围。
5)找出数据外围。和内围方法类似,不过这里要将四分(fēn)位差乘的参数要大于内围的取值一般為(wèi)3。
6)最终超过内围或者外围的值為(wèi)异常值。
 
传统的异常值检测方法例如:
式中:
T——一个車(chē)辆登入与車(chē)辆登出时间段内的总秒(miǎo)数,s;
win——窗口时间,s;
i——一个車(chē)辆登入与車(chē)辆登出时间段T被窗口时间win划分(fēn)的段数;
AVG_i——第i段数据的算术平均值;
STD_i——第i段数据的标准差;
P——标准差参数;
X_(i,k)——第i段数据的第k个值;
R——距离参数。
 
这种假设数据符合正态分(fēn)布的正确性难以得到保证,而四分(fēn)位数法较于其他(tā)异常值检测的方法计算简单,但能(néng)够有(yǒu)效筛选数据中的离群点,适合大规模数据的计算;同时灵活的参数设置可(kě)以针对不同情况、不同字段进行调节使得四分(fēn)位数法能(néng)够有(yǒu)效的适应多(duō)变的車(chē)辆报文(wén)数据。

四分(fēn)位数法不会是异常值检测的终极解决方案,但是随着遠(yuǎn)程排放监控車(chē)载终端的迭代更新(xīn),与之匹配对应的算法也将持续发展,不断适应新(xīn)的业務(wù)需求,為(wèi)重型货車(chē)的监管夯实基础。

 

 

撰稿:周   鹏

审核:龙超华