【原创】R语言数据异常值检测算法实现分析案例报告论文(附代码数据)

发布时间:2018-03-09

R值检测算法实现分析
引言
异常值(outlier)是指一组测定值中与平均值的偏差超过两倍标准差的测定值,与平均值的偏差超过三倍标准差的测定值,称为高度异常的异常值。

定义
异常值outlier:一组测定值中与平均值的偏差超过两倍标准差的测定值。 与平均值的偏差超过三倍标准差的测定值,称为高度异常的异常值。
在处理数据时,应剔除高度异常的异常值。异常值是否剔除,视具体情况而定。在统计检验时,指定为检出异常值的显著性水平α=0.05,称为检出水平;指定为检出高度异常的异常值的显著性水平α=0.01,称为舍弃水平,又称剔除水平(reject level

判断处理
检验批中异常数据的判断处理
1、依据标准
计数抽样检验程序》(GB2828)、《正态样本异常值的判断和处理》(GB4883)。
2、异常值定义

异常值是指样本中的个别值,其数值明显偏离它(或他们)所属样本的其余观测值。
3、异常值的种类
(1可能是总体固有的随机变异性的极端现,属同一总体;
(2可能是试验条件和方法的偶然偏离,不属同一总体。
4、判断异常值的统计学原则
(1上侧情形:异常值为高端值;
(2下侧情形:异常值为低端值;
(3双侧情形:异常值在两端可能出现极端值。
5、判断异常值的规则:
(1标准差已知——奈尔(Nair检验法;
(2标准差未知——格拉布斯(Grubbs检验法和狄克逊(Dixon检验法。
6、格拉布斯(Grubbs检验法
(1计算统计量 μ=(X1+X2+…+Xn/n
s=(∑(Xi-μ/(n-1½(i=1,2…n Gn=(X(n-μ/s
式中μ——样本平均值

s——样本标准差
Gn——格拉布斯检验统计量。
(2确定检出水平α,查表(见GB4883)得出对应n,α的格拉布斯检验临界值G1-α(n。
(3Gn>G1-α(n,则判断Xn为异常值,否则无异常值。
(4给出剔除水平α’的G1-α’(n,当当Gn>G1-α’(n时,Xn为高度异常值,应剔除。
三、格拉布斯检验法在回弹法检测砼强度中的应用
将测区混凝土强度换算值按从小到大的顺序排列f1f2、…fn,计算格拉布斯检验统计量: Gn=(fn-m/s Gn’=(m-f1/s 式中m——测区混凝土强度换算值的平均值
s——测区混凝土强度标准差
取检出水平α5%,剔除水平α’为1%,按双侧情形检验,从附表中查得检出水平α对应格拉布斯检验临界值G0.975,剔除水平α’对应格拉布斯检验临界值G0.995
Gn>Gn’,且Gn>G0.975,则判断fn为异常值,否则,判断无异常值;
Gn>Gn’,且Gn>G0.995,则判断fn为高度异常值,可考虑剔除;
Gn’>Gn,且Gn’>G0.975,则判断f1为异常值,否则,判断无异常值;
Gn’>Gn,且Gn’>G0.995,则判断f1为高度异常值,可考虑剔除;

分析异常值出现原因,判断异常值是否舍弃。不得随意舍去异常值,应检查异常值出现是否系材料或施工质量变化等原因所致。
若检出了一个异常值,对除去已检出异常值后余下得数值继续用格拉布斯检验法检验,直到不能检出异常值为止。
分析流程

探索工程,科学和医学数据中强调的主题之一是异常值可能对传统数据表征造成的损害。 因此,包含ExploringData包中的其中一个过程是FindOutliers,在本文中描述。 给定一个数值向量,该过程支持四种不同的方法来识别可能的离群值。
在描述这些方法之前,重点强调两点。 首先,可以将数字序列中的异常值检测作为数学问题来处理,但这些数据观测的解释不能。 也就是说,数学孤立点检测程序实现了各种规则,用于识别与数据的名义行为相反的点,但它们无法解释为什么这些点看起来是异常的。 第二点与第一点密切相关:数据序列中异常值的一个可能来源是总体测量误差或其他数据质量问题,但其他异常值来源也是可能的,所以保持开放态度非常重要。 术语“异常值”和“不良数据” 不是同义词。探索数据的 7章简要介绍了两个异常值的例子,这些异常值的检测和解释导致了诺贝尔奖和一个重要的新工业产品(Teflon,杜邦公司的注册商标)。
在单个数字序列的情况下,异常值检测的典型方法是首先确定数据变化的标称范围的上限和下限,然后将任何落在该范围之外的点声明为异常值。 所述FindOutliers过程实现计算所述标称数据范围的上限和下限的以下方法:
1. ESD标识符,通常称为“三西格马编辑规则”,众所周知但不可靠; 2. Hampel标识符,基于中位数和MADM量表估计的更可靠的程序; 3. 标准boxplot规则,基于数据分布的上下四分位数;

【原创】R语言数据异常值检测算法实现分析案例报告论文(附代码数据)

相关推荐