技术分(fēn)享 | 针对車(chē)载终端数据项异常值的检测方法_北京理(lǐ)工新(xīn)源信息科(kē)技有(yǒu)限公司，為(wèi)車(chē)辆数字化、网联化提供完整的软硬件解决方案

公司新(xīn)闻您的位置：首页 > 新(xīn)闻资讯 > 公司新(xīn)闻 >

技术分(fēn)享 | 针对車(chē)载终端数据项异常值的检测方法

时间:2020-11-04 09:17来源:北京理(lǐ)工新(xīn)源作者:BITNEI

背景介绍

随着遠(yuǎn)程排放监控車(chē)载终端的发展和普及，重型货車(chē)的关键信息流数据不断数字化、持久化，為(wèi)后续的监管和分(fēn)析工作奠定了较好的基础。但為(wèi)当前终端监管的发展水平处于初级阶段所限，信息流数据的质量层次不齐，限制了后续的监管分(fēn)析工作。所以加强信息流数据质量监控势在必行。

现行的数据质量要求总體(tǐ)上分(fēn)為(wèi)两种：1.缺失率；2.无效率。由于本文(wén)探讨的是针对数据异常值检测的方法，所以上述两种方法本文(wén)不再赘述。实际在車(chē)辆上传的报文(wén)数据中，缺失和无效的问题能(néng)够较好的进行识别，真正亟待解决的问题是如何判定数据是否异常。异常值通常会造成测量误差或异常系统条件的结果，因此不具有(yǒu)描述底层系统的特征。实际上，最佳做法是在分(fēn)析之前，就应该进行异常值去除处理(lǐ)。

这里的异常主要有(yǒu)两层意思：一、数据在现实中是否符合逻辑，这方面的异常可(kě)以依赖业務(wù)逻辑进行判断，符合规则的属于正常，反之则是异常；二、数据分(fēn)布中的噪声点，这种异常独立于业務(wù)逻辑，无法通过简单的规则进行判断，本文(wén)将着重介绍针对此种异常进行检测的方法——四分(fēn)位数法。

四分(fēn)位数法介绍

四分(fēn)位数法又(yòu)叫Tukey’s test，是统计學(xué)中成熟、使用(yòng)较為(wèi)广泛的异常值检测方法。其计算的过程大概為(wèi)：

1）把数据从小(xiǎo)到大排列。

2）计算中位数。

3）计算下四分(fēn)位数，这里设置為(wèi)Q1，表示总数据最小(xiǎo)的25%的数据在这个点以下；计算上四分(fēn)位数，设置為(wèi)Q3，表示最大的25%数据都在这个点以上。

4）找出数据的“内围”。第一步是把四分(fēn)位差乘以参数k，k一般取值1.5。加上Q3 ，用(yòng)Q1 减去这个和，得到内围。

5）找出数据外围。和内围方法类似，不过这里要将四分(fēn)位差乘的参数要大于内围的取值一般為(wèi)3。

6）最终超过内围或者外围的值為(wèi)异常值。

传统的异常值检测方法例如：

式中：

T——一个車(chē)辆登入与車(chē)辆登出时间段内的总秒(miǎo)数,s；

win——窗口时间，s；

i——一个車(chē)辆登入与車(chē)辆登出时间段T被窗口时间win划分(fēn)的段数；

AVG_i——第i段数据的算术平均值；

STD_i——第i段数据的标准差；

P——标准差参数；

X_(i,k)——第i段数据的第k个值；

R——距离参数。

这种假设数据符合正态分(fēn)布的正确性难以得到保证，而四分(fēn)位数法较于其他(tā)异常值检测的方法计算简单，但能(néng)够有(yǒu)效筛选数据中的离群点，适合大规模数据的计算；同时灵活的参数设置可(kě)以针对不同情况、不同字段进行调节使得四分(fēn)位数法能(néng)够有(yǒu)效的适应多(duō)变的車(chē)辆报文(wén)数据。

四分(fēn)位数法不会是异常值检测的终极解决方案，但是随着遠(yuǎn)程排放监控車(chē)载终端的迭代更新(xīn)，与之匹配对应的算法也将持续发展，不断适应新(xīn)的业務(wù)需求，為(wèi)重型货車(chē)的监管夯实基础。

撰稿：周鹏

审核：龙超华