首页 / 科技百科

大样本离群数据取舍的标准

2025-05-03 08:03科技百科
1、概述

涉及到几个手段,分别是:

1.14d检验法

1.2Q检验法

1.3Grubbs检验法

1.4偏态-峰态数据分布正态性检验法

1.5相对极差

1.6STD、RSD

说明:本文公式均为Excel公式,那种大计算公式懒得敲。

对于以上6种手段,其中1-3为离群值的剔除,4也可以做离群值的剔除,详见GB/T 4883-2008偏度-峰度检验法,5-6为整体离散度的一个判断。

2、离散度

图片来自百度,侵删。

离散程度,英文名Measures of Dispersion,是指通过随机地观测变量各个取值之间的差异程度,用来衡量风险大小的指标。

定义来自百度百科。

2.1相对极差:

示意图2.1

极差:

对比上图可以看得出来,极差做的就是离散的判断,最基本的计算,所以也叫做全距。

相对极差:

对比上图可以看得出来,引入平均值后,对于相同极差的数据也能够体现出不同的离散度。

但是相对极差不如极差显著。

2.2STD、RSD:

示意图2.2

STD:

对比示意图2.2可以看出来,两组数据的离散是一致的,但是两组数据实际并不在一个范畴中,一个属于1以下,一个属于10以上。标准偏差是每个值与平均值比较,因为乘方的关系会扩大这种差异,对于1、2、3、4、5和1、2、2、5、5这种数据,极差是无法处理的,标准偏差就可以明确的给出离散程度的区别。

可以看下面这个示例:

示例图2.2

RSD:

对比示意图2.2可以看得出来,相对标准偏差体现出了两组范畴不同的数据的差别,同样也因为这个平均值,对于10.112和0.112这两组数据就明显体现出精密度的差别了,一个是五位有效数字一个是三位有效数字,同样波动下,显然五位有效数字这组精密度更好。

3、离群值

上面的方法做了离散度的判断,那么具体有哪些值离群了呢?是否可以非主观的去判断离群值从而方便查找原因和数据处理呢?

有。

3.14d检验法:很简单的小方法,问题也不少,先说计算。

示意图3.1

4d检验法

适用于10个数据以上的处理,如果数据量在5~10,可以酌情使用2.5d,问题是数据量不够的时候(10),容易无法正确判断是否离群值。

3.2Q检验法:适用于10个数据以内的处理。

示意图3.2

Q检验法:

3.2.1选取可疑值:

3.2.2计算测定次数

3.2.3与可疑值最接近的值的绝对差值

3.2.4Q值

3.2.5查表

这里解释一下,数据是5个没错,但是因为查询表返回的数值是以0.01那行开始计算的,index的作用是返回对应行、列的数值,那么查出来0.01那一列的数据,如果用5,就会查到7和0.01交叉的数值,但是数据实际是n=3开始的,所以要-2。

3.2.6判断

3.3Grubbs检验法:

示意图3.3

Grubbs检验法:

3.3.1上侧

3.3.2下侧

3.3.3判断

IF(上侧临界值,上侧检出:上侧未检出),临界值,下侧检出:下侧未检出)

稍做一下改变:

示例图3.3.3-1

再做一下改变:

示例图3.3.3-2

还做一下改变:

示例图3.3.3-3

对于检测来说,如果整组数据RSD符合就没必要再去剔除离群值。

3.4偏态-峰态数据分布正态性检验法:

数据是正态分布以上手段才是有效的。那么就验证正态分布吧。

示意图3.4

偏态-峰态数据分布正态性检验法:

3.4.1母体方差

解释一下power函数中的2改3、改4就可以。

3.4.2A偏态

解释一下,0.5即开方。

3.4.3B峰态

3.4.4判断

偏态判定:IF(偏态INDEX(XLOOKUP(置信概率偏态A1查询范围,返回范围),MATCH(COUNT(范围),范围,0)),通过,不通过)

解释一下,match中的0为精确查找,就是=。

峰态判定:IF(AND(INDEX(XLOOKUP(置信概率峰态B1,查询范围,返回范围),MATCH(COUNT(数据量,范围,0))峰态,峰态INDEX(XLOOKUP(置信概率峰态B2,查询范围,返回范围),MATCH(COUNT(范围),范围,0))),通过,不通过)

最终判定:

这东西没有一定数据量没啥意义,一般会结合Grubbs剔除异常值后去做,先上100个数据。

猜你喜欢

  • 世界最大

    这一劳动力市场,印度世界最大!80%“数据工人”来自村镇

    人工智能(AI)产业的高速发展催生出一个重要职业——AI数据标注。它通过为机器学习的原始数据(如图片、视频等)打上标签,让计算机不断识别这些数据的特征,从而实现自主识别。这是2023年2月15日在美国旧金山拍摄的waymo公司无人驾驶出租车 新华社/美联AI数据标注职业产生之初,标注员们往往能获得相对丰厚的薪酬,且部分..

    2025-08-05
  • 世界最长

    世界上最大的船能有多大?数据对比航母后才发现,航母就是小儿科

    #头号创作者激励计划#在很多人的印象里,航母是一艘庞然大物了。不过在大型船舶制造领域,航母的体型其实只能算小儿科。世界上最大的航母也就11万吨左右,但在民船领域排水量超过20万吨的船比比皆是。目前世界上最大的航母——福特级人类历史上最大的船人类历史上造过的最大的船,是诺克・耐维斯号(Knock Nevis)。诺克・..

    2025-07-29
  • 情感百科

    优秀老公的10个标准

    有女生问我,到底怎样的老公才是一位合格的老公呢?其实这个问题我也没办法具体回答,因为任何事、任何的标准,一旦涉及到婚姻,就都不能单一论之,我反复的观察了身边很多的已婚朋友,包括我自己,大概整理出了二十五条所谓“优秀老公”的标准,这并不是什么行业准则,更不是什么行为规范,只是在以我个人为中心的圈子,所..

    2025-07-25
  • 百科大全

    坦克世界金币车t27入手咋样(坦克世界7号坦克银币车和7201K金币车数据对照

    哈喽大家好,我是游戏小编绿尘君,今天为大家带来车和7201K金币车数据对比,向你完美诠释什么叫同车不同命!坦克世界原四件套的加强在新版本公测服实装,风头几乎被意大利炮完全掩盖,稍微看了一下tanks.gg,对基础参数和一点不容易留意的参数进行比较,尤其是装甲,非常灵异。以下7号坦克指银币车和7201K指金币车对比,数..

    2025-07-24
  • 职场百科

    一致性评价标准怎么制定

    中国网财经9月6日讯(实习记者许倍)当仿制药与原研药在质量与疗效上一致时,86.75%的医务工作人员会在处方时将仿制药替代原研药。60%的患者会考虑将正在使用的原研药替换成仿制药。日前在“第十届中国医药企业家科学家投资家大会暨改革开放40年医药行业发展成就展”上,E药经理人研究院发布了医药行业研究的三份报告。三份报..

    2025-07-10
  • 排行榜

    电饭煲哪个牌子的好?质量排名前十名真实测评数据公开!

    现在市面上的电饭锅(又名电饭煲)品牌琳琅满目,从传统品牌到新兴网红大牌应有尽有,让消费者眼花缭乱,难以抉择。若购买劣质电饭锅,可能会遇到安全隐患、异味问题甚至有毒有害物质的泄露等问题,这些都严重影响消费者的健康。而且性能也不行,煮出来的米饭口感很不好拿电饭煲哪个牌子的好?这个问题可能是每个家庭在选购..

    2025-07-09
  • 机械之最

    解码文化自信的城市样本丨文润铁打赋长歌——解码古城襄阳的文化自信样本

    新华社武汉6月25日电 题:文润铁打赋长歌——解码古城襄阳的文化自信样本新华社记者惠小勇、侯文坤湖北西北部,汉水中游,襄阳坐落于此。这里自古是兵家必争的军事要冲,素有“铁打的襄阳”之说。这里也是文人墨客的荟萃之地。“七省通衢”之城,荆襄古道与随枣走廊在此交汇,构筑起贯通南北、连接水陆的交通枢纽,楚文化、..

    2025-06-30
  • 世界最高

    全球最大具身智能数据工厂落地天津

    中新社天津6月23日电 (记者 周亚强 王君妍)全球规模最大的具身智能数据工厂——帕西尼具身智能超级数据工厂(Super EID Factory)23日在天津空天数字产业园正式启用。该工厂旨在破解行业数据瓶颈,为全球具身智能产业提供核心驱动力。6月23日,全球规模最大的具身智能数据工厂——帕西尼具身智能超级数据工厂(Super EID Facto..

    2025-06-28

微信分享

微信分享二维码

扫描二维码分享到微信或朋友圈

链接已复制