r语言数据分析是什么
分布分析能揭示数据的分布特征和分布类型。对于定量数据,我们想要了解其分布形式是对称的还是非对称的、发现某些特大或特小的可疑值,可做出频率分布表、绘制频率分布直方图、绘制茎叶图进行直观地分析;对于定性数据,可用饼形图和条形图直观地显示分布情况。
定量数据的分布分析对于定量变量,选择“组数”和“组宽”是做频率分布分析时最重要的问题,一般按照一下步骤:
求极差;
决定组距和组数;
决定分点;
列出频率分布表;
绘制频率分布直方图;
遵循的重要原则有:
各组之间必须是相互排斥的;
各组必须将所有的数据包含在内;
各组的组宽最好相等;
下面结合具体数据运用分布分析对定量数据进行特征分析:
(1)求极差
极差=最大值-最小值=3960-45=3915(元)
(2)决定组距和组数
这里根据业务数据的含义,可取组距为500,组数=极差/组距=3915/500=7.83
(3)决定分点
根据组数和组距,可确定以下的分布区间:
(4)列出频率分布表
根据分组区间可制作出频率分布表。其中,第1列将数据所在的范围分成若干组段,其中第一个组段要包括最小值,最终一个组段要包括最大值。习惯上将各组段设为左闭右开的半开区间,如第1个分组为[0,500)。第2列组中值是各组段的代表值,彩奇网,由本组段的上、下限相加除以2得到。第3列和第4列区别为频数和频率。第5列示累计频率,是否需要计算该列视情况而定。
若以2014年第二季度捞起生鱼片每天的销售额为横轴,以各组段的频率密度(频率与组距之比)为纵轴,可绘制成以下频率分布直方图:
对于定性变量,常常根据变量的分类类型来分组,可以用饼形图和条形图来描述定性变量的分布。
饼形图的每一个扇形部分代表每一类型的百分比或频数,根据定性变量的类型数目将饼形图分成几个部分,每一部分大大小与每一类型的频数成正比;条形图的高度代表每一类型的百分比或频数,条形图的宽度没有意义。