首页 / 科技百科

大样本离群数据取舍的标准

2025-05-03 08:03科技百科
1、概述

涉及到几个手段,分别是:

1.14d检验法

1.2Q检验法

1.3Grubbs检验法

1.4偏态-峰态数据分布正态性检验法

1.5相对极差

1.6STD、RSD

说明:本文公式均为Excel公式,那种大计算公式懒得敲。

对于以上6种手段,其中1-3为离群值的剔除,4也可以做离群值的剔除,详见GB/T 4883-2008偏度-峰度检验法,5-6为整体离散度的一个判断。

2、离散度

图片来自百度,侵删。

离散程度,英文名Measures of Dispersion,是指通过随机地观测变量各个取值之间的差异程度,用来衡量风险大小的指标。

定义来自百度百科。

2.1相对极差:

示意图2.1

极差:

对比上图可以看得出来,极差做的就是离散的判断,最基本的计算,所以也叫做全距。

相对极差:

对比上图可以看得出来,引入平均值后,对于相同极差的数据也能够体现出不同的离散度。

但是相对极差不如极差显著。

2.2STD、RSD:

示意图2.2

STD:

对比示意图2.2可以看出来,两组数据的离散是一致的,但是两组数据实际并不在一个范畴中,一个属于1以下,一个属于10以上。标准偏差是每个值与平均值比较,因为乘方的关系会扩大这种差异,对于1、2、3、4、5和1、2、2、5、5这种数据,极差是无法处理的,标准偏差就可以明确的给出离散程度的区别。

可以看下面这个示例:

示例图2.2

RSD:

对比示意图2.2可以看得出来,相对标准偏差体现出了两组范畴不同的数据的差别,同样也因为这个平均值,对于10.112和0.112这两组数据就明显体现出精密度的差别了,一个是五位有效数字一个是三位有效数字,同样波动下,显然五位有效数字这组精密度更好。

3、离群值

上面的方法做了离散度的判断,那么具体有哪些值离群了呢?是否可以非主观的去判断离群值从而方便查找原因和数据处理呢?

有。

3.14d检验法:很简单的小方法,问题也不少,先说计算。

示意图3.1

4d检验法

适用于10个数据以上的处理,如果数据量在5~10,可以酌情使用2.5d,问题是数据量不够的时候(10),容易无法正确判断是否离群值。

3.2Q检验法:适用于10个数据以内的处理。

示意图3.2

Q检验法:

3.2.1选取可疑值:

3.2.2计算测定次数

3.2.3与可疑值最接近的值的绝对差值

3.2.4Q值

3.2.5查表

这里解释一下,数据是5个没错,但是因为查询表返回的数值是以0.01那行开始计算的,index的作用是返回对应行、列的数值,那么查出来0.01那一列的数据,如果用5,就会查到7和0.01交叉的数值,但是数据实际是n=3开始的,所以要-2。

3.2.6判断

3.3Grubbs检验法:

示意图3.3

Grubbs检验法:

3.3.1上侧

3.3.2下侧

3.3.3判断

IF(上侧临界值,上侧检出:上侧未检出),临界值,下侧检出:下侧未检出)

稍做一下改变:

示例图3.3.3-1

再做一下改变:

示例图3.3.3-2

还做一下改变:

示例图3.3.3-3

对于检测来说,如果整组数据RSD符合就没必要再去剔除离群值。

3.4偏态-峰态数据分布正态性检验法:

数据是正态分布以上手段才是有效的。那么就验证正态分布吧。

示意图3.4

偏态-峰态数据分布正态性检验法:

3.4.1母体方差

解释一下power函数中的2改3、改4就可以。

3.4.2A偏态

解释一下,0.5即开方。

3.4.3B峰态

3.4.4判断

偏态判定:IF(偏态INDEX(XLOOKUP(置信概率偏态A1查询范围,返回范围),MATCH(COUNT(范围),范围,0)),通过,不通过)

解释一下,match中的0为精确查找,就是=。

峰态判定:IF(AND(INDEX(XLOOKUP(置信概率峰态B1,查询范围,返回范围),MATCH(COUNT(数据量,范围,0))峰态,峰态INDEX(XLOOKUP(置信概率峰态B2,查询范围,返回范围),MATCH(COUNT(范围),范围,0))),通过,不通过)

最终判定:

这东西没有一定数据量没啥意义,一般会结合Grubbs剔除异常值后去做,先上100个数据。

猜你喜欢

  • 排行榜

    2025板材十大品牌权威终极排名:一线品牌硬核数据全解

    在装修建材选择中,板材作为基础材料,其品质直接影响家居环境的健康与安全。随着消费者对环保、质量要求的不断提升,板材行业的竞争也日趋激烈。基于2025年最新行业数据、消费者调研报告以及专业机构评估,我们综合市场占有率、产品质量、环保认证、技术创新、服务体系等多个维度,为您带来最具参考价值的板材十大品牌终极..

    2025-09-30
  • 世界奇闻

    探索星辰大海:史上最详尽宇宙模拟发布,含 34 亿个星系数据

    IT之家 9 月 27 日消息,科技媒体 Notebook Check 昨日(9 月 26 日)发布博文,报道称欧洲空间局(ESA)的欧几里得联盟(Euclid Consortium)近日发布了迄今最详尽的宇宙模拟 ——“旗舰二号”(Flagship 2)。该模拟包含 34 亿个星系,通过追踪超 4 万亿个粒子的引力演化构建而成,为每个星系赋予了超过 400 种属性。银河..

    2025-09-29
  • 排行榜

    装修建材2025年中报净利润达1个亿的企业名单数据

    从这份净利润排名数据来看,装修建材行业的企业盈利呈现以下特点:一、头部企业优势显著 北新建材以19.30亿的净利润遥遥领先,在行业内具有明显的规模和盈利优势,其市场地位和盈利能力处于第一梯队。顾家家居和欧派家居净利润均超10亿,紧随其后,这两家企业在家居领域的品牌影响力和市场份额助力其实现较好盈利,属于行..

    2025-09-25
  • 科技之最

    天玑9500芯片太太太强了!这是旗舰竞赛的标准答案?

    过去几年,联发科凭借天玑系列已经在旗舰手机市场逐渐站稳脚跟,根据市场调研数据,联发科已经连续19个季度稳居全球手机SoC市场份额第一,成为高端旗舰不可忽视的力量。尤其是在国内市场,OPPO、vivo等厂商在最新旗舰机型中纷纷选择天玑平台,足见其在行业与用户中的认可度。如今,天玑9500正式发布,再次让手机市场将目光..

    2025-09-24
  • 百科大全

    个人所得税扣除标准2023是多少 个税扣除标准2023计算公式表[多图]

    个人所得税2023扣除标准是什么?今年是退税补税又要开始了,大家都想要了解2023最新的扣除标准,今天小编就来给大家简单的介绍一下2023扣除标准的计算公式,详细的请看一看小编分享在下面的最新内容。个人所得税扣除标准2023是多少一、2023个税税率表全年应纳税所得额税率表一(综合所得适用)1.年度不超过36000元的税率为:3..

    2025-09-24
  • 世界排行

    今日数据精选:中国男足最新世界排名第94;低价电商件上海地区快递要涨价了

    【宏观经济及政策】利率超2% 部分银行在售大额存单额度紧俏在银行存款利率普遍进入“1%时代”的背景下,年利率(下同)超过2%的大额存单正成为市场上的“稀缺资源”。记者调研发现,尽管多数银行大额存单利率已降至2%以下,部分民营银行仍可提供利率高于2%的大额存单产品,但对额度、客户所在地等有限制。总体上看,当前大..

    2025-09-23
  • 世界最高

    全球规模最大+3!一组数据看“美丽中国”新成就!

    9月19日上午,国务院新闻办公室举行“高质量完成‘十四五’规划”系列主题新闻发布会,生态环境部相关负责人介绍“十四五”时期以生态环境高水平保护、推动高质量发展情况,并答记者问。会上介绍,我国已建成全球规模最大的碳排放权交易市场、全球规模最大的清洁钢铁生产体系、全球规模最大的生态环境监测网络……戳图!一..

    2025-09-21
  • 育儿百科

    13省份2022年人口数据出炉 人口数据负增长说明什么问题

    2022年人口数据已经有13个省份发布了,多省出现了人口增长率第一次转负,从很多数据表明,人口负增长已经定局,那么,人口数据负增长说明什么问题?下面小编就带来介绍。13省份2022年人口数据出炉近期,各省份正陆续公布2022年的人口数据。目前已有13省份发布了2022年的人口数据。在13个省份中,有10个省份实现常住人口正增..

    2025-09-12

微信分享

微信分享二维码

扫描二维码分享到微信或朋友圈

链接已复制
蜂鸟影院2048影视资源论坛熊猫影视河马影视星辰影视萝卜影院八哥电影网人人看电影无忧影视网橙子影视网叮当影视网天天影视网青青影视网电影天堂开心追剧网西瓜影院麻花影视网70影视网年钻网茶小舍电影藏影堂新神州影域煮酒观影体积影视爱看影院星光电影至尊影院极影公社超清视界