疾病专题:前列腺炎颈椎病高血压心内科糖尿病痛风冠心病宫颈疾病关节炎肝病癌症呼吸内科感冒神经内科分泌内科泌尿内科消化内科整形

平均数与变异指标

www.cnkang.com  2007-6-14 9:28:36  中华康网

 

  (二)定组距 先考虑组数。资料在100例以上的一般分10-15组。若例数较少,组数可相应少些;例数很多,组数可酌情多些,以能显示分布的规律为宜。此例拟分10组。将拟分的组数除极差(10.1/10≈1)得组距的约数。再调整到较方便的数如0.1、0.2、0.5,1、2、5、10、20、50……等。此例取组距为1。

  (三)写组段 取等于或略小于最小值的整数为第一组的下限。按组距依次写出各组段的下限及短横,见表4.3组段行,注意短横“-”不能略去。

  (四) 划线记数 像选举开票那样,将变量值逐个归入相应的组段,如将64.4归入“64-”组,63.8归入“63-”组。每归入一个变量值,在相应的组段内划一竖线,每逢第五线则作一横线跨在已划出的四条竖线上,这样五线连在一起最后计数时就很方便了。划完后将每个组段内的线条数写出,再将各组频数合计,频数表就编好了。

  若事先不能确定合适的组数,可先分细些,需要时再将相邻两组合并。而分粗了,再要分细,则只得重划。

  表4.4的资料编成频数表(见表4.3)后,可看出变量值的分布情况,若绘成直方图就更直观。从图4.1可看到横坐标约为66.5cm处直方最高,表示变量值围绕在66.5左右的最多;两侧对称下降,大于66.5和小于66.5的变量值个数基本相等。这种类型的分布为对称分布。第五章介绍的正态分布是其中最常见的一种。

图4.1 西安市7岁男童坐高分布

  此外,如图4.2,变量值愈小频数愈多图形呈“L”形,图4.3的频数集中在变量值较小的一边,右侧尾部拖得很长。后两种属偏态分布。这三种频数分布都只有一个高峰称单峰分布。为更准确地说明分布的特征,对形状相同的分布作出集中位置和离散程度的比较,就需计算频数分布的一些特别值。如平均数、百分位数、极差、标准差、变异系数等。

图4.2 某市1095天中居民意外死亡人数(1980-1982)

图 4.3 204名轧钢工人白细胞中大单核所占百分比

  二、众数、中位数、百分位数的意义及计算法

  (一)众数 出现次数最多的变量值,或频数表上频数最多组的组中值即为众数。如表4.3中坐高的众数是66.5cm。这样仅由观察所得的众数称为观察众数。同一资料常因所用组距不同和下限取值不同,观察众数稍有出入,故又称概约众数,与观察众数相对应的尚有理论众数。理论众数的算法根据频数曲线类型的不同而异,数学上为与极大值相应的横坐标。

  (二)中位数及百分位数

  1.中位数 将n个变量值从小到大排列后,居中的一数就是中位数,符号为M,有的书上用Md。它将变量值分为两半,一半比它小,一半比它大。

  X12<…n-1a

  当n为奇数时

             (4.1)

  当n为偶数时

(4.2)

  当资料呈明显偏态,或有个别的特小、特大值存在时,中位数的代表性往往比均数好。例如有5个变量值8、9、9、10、19。其中4个在9左右,但由于受数值19的影响,均数为11,不能很好代表中等水平。求中位数

  比较符合实际。

  根据频数表计算连续型变量的中位数可用式(4.3)或式(4.4)

  (4.3)

  或         (4.4)

  式中L、U分别为中位数所在组的下限及上限,A1为小于L的各组的累计频数,A2为大于U的各组的累计频数,fM、i分别为中位数所在组的频数和组距。现用表4.5说明计算步骤如下:

  (1)求出中位数的位置。在频数表上,数据已由小到大排好了。中位数将频数等分为2,因此先计算n/2,得中位数的位置。

  n/2=157/2=78.5

  (2)列出频数表、计算累计频数。列频数表时,组段的短横“-”写在两个组段下限之间,其意义仍与写在右边的相同,见表4.5第(1)栏。

  第(3)栏为累计频数。此例自上而下累计到略小于n/2为止得A1=41,表示住院天数为10天及以下的有41个人。若要知道第78.5人的变量值,就需要从10-15组内再累计(78.5-41=)37.5人。假定该组的49人在10-15天内均匀分布着(见图4.4),那么只要在10天上再加(78.5-41)/49个组距便是中位数了。所以

  用符号表示见式(4.3)。

上一页  [1] [2] [3] [4] 下一页

  • 两性
  • 男人
  • 女性
  • 母婴