首页 / 科技百科

大样本离群数据取舍的标准

2025-05-03 08:03科技百科
1、概述

涉及到几个手段,分别是:

1.14d检验法

1.2Q检验法

1.3Grubbs检验法

1.4偏态-峰态数据分布正态性检验法

1.5相对极差

1.6STD、RSD

说明:本文公式均为Excel公式,那种大计算公式懒得敲。

对于以上6种手段,其中1-3为离群值的剔除,4也可以做离群值的剔除,详见GB/T 4883-2008偏度-峰度检验法,5-6为整体离散度的一个判断。

2、离散度

图片来自百度,侵删。

离散程度,英文名Measures of Dispersion,是指通过随机地观测变量各个取值之间的差异程度,用来衡量风险大小的指标。

定义来自百度百科。

2.1相对极差:

示意图2.1

极差:

对比上图可以看得出来,极差做的就是离散的判断,最基本的计算,所以也叫做全距。

相对极差:

对比上图可以看得出来,引入平均值后,对于相同极差的数据也能够体现出不同的离散度。

但是相对极差不如极差显著。

2.2STD、RSD:

示意图2.2

STD:

对比示意图2.2可以看出来,两组数据的离散是一致的,但是两组数据实际并不在一个范畴中,一个属于1以下,一个属于10以上。标准偏差是每个值与平均值比较,因为乘方的关系会扩大这种差异,对于1、2、3、4、5和1、2、2、5、5这种数据,极差是无法处理的,标准偏差就可以明确的给出离散程度的区别。

可以看下面这个示例:

示例图2.2

RSD:

对比示意图2.2可以看得出来,相对标准偏差体现出了两组范畴不同的数据的差别,同样也因为这个平均值,对于10.112和0.112这两组数据就明显体现出精密度的差别了,一个是五位有效数字一个是三位有效数字,同样波动下,显然五位有效数字这组精密度更好。

3、离群值

上面的方法做了离散度的判断,那么具体有哪些值离群了呢?是否可以非主观的去判断离群值从而方便查找原因和数据处理呢?

有。

3.14d检验法:很简单的小方法,问题也不少,先说计算。

示意图3.1

4d检验法

适用于10个数据以上的处理,如果数据量在5~10,可以酌情使用2.5d,问题是数据量不够的时候(10),容易无法正确判断是否离群值。

3.2Q检验法:适用于10个数据以内的处理。

示意图3.2

Q检验法:

3.2.1选取可疑值:

3.2.2计算测定次数

3.2.3与可疑值最接近的值的绝对差值

3.2.4Q值

3.2.5查表

这里解释一下,数据是5个没错,但是因为查询表返回的数值是以0.01那行开始计算的,index的作用是返回对应行、列的数值,那么查出来0.01那一列的数据,如果用5,就会查到7和0.01交叉的数值,但是数据实际是n=3开始的,所以要-2。

3.2.6判断

3.3Grubbs检验法:

示意图3.3

Grubbs检验法:

3.3.1上侧

3.3.2下侧

3.3.3判断

IF(上侧临界值,上侧检出:上侧未检出),临界值,下侧检出:下侧未检出)

稍做一下改变:

示例图3.3.3-1

再做一下改变:

示例图3.3.3-2

还做一下改变:

示例图3.3.3-3

对于检测来说,如果整组数据RSD符合就没必要再去剔除离群值。

3.4偏态-峰态数据分布正态性检验法:

数据是正态分布以上手段才是有效的。那么就验证正态分布吧。

示意图3.4

偏态-峰态数据分布正态性检验法:

3.4.1母体方差

解释一下power函数中的2改3、改4就可以。

3.4.2A偏态

解释一下,0.5即开方。

3.4.3B峰态

3.4.4判断

偏态判定:IF(偏态INDEX(XLOOKUP(置信概率偏态A1查询范围,返回范围),MATCH(COUNT(范围),范围,0)),通过,不通过)

解释一下,match中的0为精确查找,就是=。

峰态判定:IF(AND(INDEX(XLOOKUP(置信概率峰态B1,查询范围,返回范围),MATCH(COUNT(数据量,范围,0))峰态,峰态INDEX(XLOOKUP(置信概率峰态B2,查询范围,返回范围),MATCH(COUNT(范围),范围,0))),通过,不通过)

最终判定:

这东西没有一定数据量没啥意义,一般会结合Grubbs剔除异常值后去做,先上100个数据。

猜你喜欢

  • 科技百科

    数据盘点和数据目录构建方法研究

    今天我们聊的是基于数据基因水平分库的存储架构方法,先看两个实际场景问题。分库订单场景一:订单实体查询,通过订单ID查询订单实体。读过如何生成分布式ID这篇文章的同学都知道在分布式服务中可以通过snowflake算法来生成全局唯一ID来作为订单ID,进行分库。那么直接通过订单ID就可以快速定位到库,高效的查出数据。分库..

    2025-05-03
  • 科技百科

    从0到1搭建数据仓库

    前言在互联网时代,数据就是财富,谁掌握了数据,谁就掌握了财富。数据对于企业来说:数据是企业的无形资产数据是企业创新的基石数据可有效辅助企业决策数据可有效提升企业生产力既然数据如此重要,一个合理的数据仓库架构又该如何设计呢?这篇文章,我们从数据仓库的四大层级以及各层级的用途来聊聊数据仓库的经典架构数据..

    2025-05-03
  • 科技百科

    数据结构图的定义和存储结构

    图(Graph)是由顶点(图中的结点称为图的顶点)的非空有限集合V(由N0个顶点组成)与边的集合E(顶点之间的关系)所构成的。根据“存数据存联系”的存储原则,由图的定义可知,图是由顶点和边组成的,因此在存储中,除了要存储结点的信息,还要存储边的信息。图结构中的结点间没有确定的关系,任意两点之间都可能存在联系..

    2025-05-03
  • 科技百科

    数据结构是什么有什么用

    要想知道什么是数据结构?首先得知道数据是什么?数据是对客观事务的符号表示,在计算机科学中是指所有能输入到计算机中并被计算机程序处理的符号总称。那为何加上XX“结构”XX两字?数据元素是数据的基本单位,而任何问题中,数据元素都不是独立存在的,它们之间总是存在着某种关系,这种数据元素之间的关系我们称之为结构..

    2025-05-03
  • 排行榜

    电饭煲排名前十名:品牌排行榜前十名实测数据供你参考

    【前言】在快节奏的现代生活中,电饭煲早已成为家家户户厨房的“刚需担当”。它不仅仅是一个简单的烹饪工具,更是现代饮食生活的重要缩影,体现了人们对于便捷、高效生活方式的追求。【行业乱象】然而,繁荣的市场背后却暗藏隐忧。随着行业竞争加剧,很多品牌为抢占份额,盲目追求低价与多功能噱头,导致市场上充斥着大量劣..

    2025-04-30
  • 热点百科

    专访高科数聚首席执行官董琳:如何从场景出发拨开车企数据变现迷雾

    接受采访时,高科数聚首席执行官董琳正在去往上海虹桥火车站的路上。春节过后,董琳一下子忙了起来,紧凑的行业会议和客户走访行程使得她很少能在北京公司总部露面。如今的汽车市场和十多年前相比发生了翻天覆地的变化,在这风云激荡的年代,个人也会面临各种选择。对于走出相对稳定的汽车厂家体系,来到创业公司面临更多不..

    2025-04-28
  • 世界最长

    全球最大汽车运输船“深圳号”启航!总长219.9米,拥有9200个标准装载车位

    4月22日,比亚迪第四艘专业新能源汽车运输船“BYD SHENZHEN”号在江苏仪征正式交付,标志着比亚迪新能源汽车在全球销售及供应链体系的布局再上新台阶。该船以“深圳”命名,寓意着比亚迪扎根创新之城、引领全球绿色交通的决心,也彰显了中国新能源汽车产业从制造到技术、从产品到服务的全面国际化进程。据悉,“BYD SHENZHE..

    2025-04-25
  • 世界奇闻

    嫦娥六号成功采集月球背面样本,人类探索宇宙再迈重要一步

    在浩瀚无垠的宇宙中,月球始终以其神秘的面纱吸引着人类的目光。而今,这一面纱的一角终于被揭开——嫦娥六号探测器成功降落月球背面,并首次采集到了这片未知之地的样本。这一壮举不仅标志着人类探索月球的新里程碑,更为我们研究月球和宇宙提供了宝贵的样本。长久以来,月球背面因其始终背对地球而显得尤为神秘。由于其特..

    2025-04-23

微信分享

微信分享二维码

扫描二维码分享到微信或朋友圈

链接已复制