次序统计量是充分统计量_次序统计量与百分位点的区间估计
.cn
赵琳琳
河海大学数理系 江苏南京 (210098) E-mail :Zhao555818@sina.com.cn
摘要:本文给出了未知连续型总体百分位点的一种次序统计量的区间估计方法。首先介绍次序统计量的定义及其概率密度函数和分布函数,然后介绍连续型随机变量的分布函数作为随机变量的性质,来求得其分布函数变量取次序统计量时的期望值。发现次序统计量把总体
每份面积的期望值均相等。正是由于次序统的概率密度曲线与横轴所围的面积分为n +1份,
计量的这种性质,我们得出结论:可以用次序统计量来推求总体百分位点的区间估计。本文在样本容量10-30的范围内,由次序统计量分别求出了0.25、0.50、0.75百分位点置信度为0.90-0.95的置信区间,可供实际查用。另外,我们发现:当n 充分大时,对于给定的置信区间,利用次序统计量通过二项分布求出的置信度与通过正态分布求得的近似置信度偏差
很小。于是又得结论:当n >20时我们可以用正态分布来求得总体百分位点的近似置信区间。
关键词:次序统计量,百分位点,区间估计 中图分类号:查阅《中国图书馆分类法》
1. 引 言
次序统计量(可记为O.S.)在近代统计推断中起着重要的作用。这是由于次序统计量有一
些性质不依赖于母体的分布,并且计算量很小,使用起来很方便。由于次序统计量可用经验分布函数去推断总体的概率分布,用中位数去推断总体的均值,用极差去推断总体的均方差,还由于用次序统计量作统计推断无需要求预先假设总体的分布,更具有稳定性。因此,在实际应用中受到人们的欢迎。
[1]
2. 次序统计量
设ξ1, ξ2, L , ξn 是取自母体ξ的一个子样。x 1, x 2, L , x n 表示该子样的一组观测值。这些观测值由小到大的排列用x (1), x (2), L , x (n )表示,即x (1)≤x (2)≤L ≤x (n ).若其中有两个分量x i , x j 相等,则它们先后次序的安排是可以任意的。
定义1 第 i个次序统计量ξ(i )是上述子样ξ1, ξ2, L , ξn 这样的一个函数,不论子样
ξ1, ξ2, L , ξn 取怎样一组观测值x 1, x 2, L , x n ,它总是取其中的x (i )为其观测值。
显然,对于容量为n 的子样可以得到n 个次序统计量ξ(1)≤ξ(2)≤L ≤ξ(n ).其中ξ(1)称做最小次序统计量,ξ(n )称做最大次序统计量。
引理 设ξ是连续型随机变量,其分布函数为F (x ) ,则随机变量U =F (ξ) 在[0, 1]上
定理2 设母体ξ有分布函数F (x ) ,并且ξ1, ξ2, L , ξn 是取自这一母体的一个子样,若令Y r =ξ(r ), Z r =F (Y r ) 且Y 1≤Y 2≤L ≤Y n , 则
r
, r =1, 2, L n . n +11
推论 E [F (Y r −Y r −1) ]=r =2, L , n .
n +111
特别 E [F (Y 1) ]=,E [1−F (Y n ) ]=.
n +1n +1
E (Z r ) =
可见,次序统计量Y 1≤Y 2≤L ≤Y n 把总体的概率密度曲线与横轴所围的面积分为
n +1份,且每一份面积的期望值均相等。这个性质可在非参数统计中得到应用[2]。
3. 百分位点的估计
3.1 百分位点的概念及其点估计
定义2 设ξ是连续型随机变量,其概率密度是f (x ) ,若有实数πp 使得
πp
P (ξ
−∞
∫f (x ) dx =p ,则称π
iid
p
为ξ的(100p %)百分位点。
设ξ1, ξ2, L , ξn ~ξ,若有r :1≤r ≤n 使得p =
r
,则由于E (Z r ) =E [F (Y r ) ] n +1
=
r
=p ,r =1, 2, L , n . 故Y r 可作为πp 的点估计,这里若r =(n +1) p 为正整数, 则n +1
r 可由此关系式确定。若(n +1) p 为非正整数,则可取r =[(n +1) p ],这是(n +1) p 的取整值,
ˆp =Y r +{(n +1) p −r }(Y r +1−Y r ) [3] . πp 的估计可由Y r 与Y r +1的加权平均值确定,即π
ˆp =⎨特别当p =0. 5时, π
Y (n +1) /2,n 为奇数⎧
⎩(Y n /2+Y (n /2) +1) /2,n 为偶数
3.2 百分位点的区间估计
设ξ1, ξ2, L , ξn ~ξ, Y 1≤Y 2≤L ≤Y n 为次序统计量,对给定的α:0
iid
即得πp 的置信度为1−α的置信区间(Y i , Y j ) 。由观测值x 1, x 2, L , x n 即可求得置信区间的值(y i , y j ) ,其中y i =x (i ) 。为了计算方便起见,可先确定r =(n +1) p ,若r =(n +1) p 为正整数,取下标对称的区间(Y r −i , Y r +i ) ,试算i =1, L , min(n −r , r −1) 最后确定满足要求的区间。若r =(n +1) p 为非正整数,r 分别取[(n +1) p ], [(n +1) p ]+1即可。下面只对n 从10到30求出π0. 5、π0. 25和π0. 75置信度在0.90~0.95间的置信区间。并列成以下表3.1,表3.2,表3.3以便查用。
表3.1 π0. 5的次序统计量区间估计表___置信度∈
(0. 90, 0. 95)
p (Y i
0.90685
0.947521 0.924649 0.90686 0.936085 0.936085 0.90686 0.912877 0.936085 0.912877 0.924481 0924481 0.947761 0.901202 0.924481 0.9447761 0.901202 0.947761 0.912841 0.912841 0.938572 0.912841 0.938572 0.938572 0.901263 0.901263
n 10 11 12 13 14 15 16 17 18 19 20
(i , j )
(2,8) (3,9) (3,9) (2,9) (3,9) (4,10) (4,11) (3,10) (4,11) (4,10) (3,10) (4,11) (5,12) (4,11) (5,12) (5,12) (5,12) (6,13) (4,13) (5,13) (6,13) (6,14) (6,15) (6,14) (5,14) (6,14)
p (Y i
0.93457 0.93457 0.93457 0.923828 0.907715 0.907715 0.923828 0.942627 0.942627 0.907715 0.903748 0.942627 0.903748 0.942627 0.923187 0.923187 0.903748 0.903748 0.948105 0.936432 0.903748 0.936432 0.948105 0.936432 0.936432 0.921646
n 23 24 25 26 27 28 29
(i , j )
(7,15) (7,16) (8,17) (8,16) (7,16) (8,17) (8,16) (7,16) (8,17) (9,18) (8,17) (9,18) (8,18) (8,17) (9,18) (9,19) (10,19) (9,19) (9,18) (10,19) (9,19) (10,19) (10,20) (10,20) (10,19) (11,20)
21 22
(7,16) (7,15) (6,15) (7,16) (7,15) (6,15) 0.936432 0.921646 0.947521 0.947521 0.921646 0.924649
30 (9,20) (10,20) (11,20) (11,22) (11,21) 0.942569 0.929244 0.901263 0.942569 0.929244
表3.2 π0. 25的次序统计量区间估计表___置信度∈
(0. 90, 0. 95)
p (Y i
0.935939 0.944332 0.936305 0.905534 0.938861 0.927919 0.921648 0.938222 0.90858 0.903688 0.934078 0.904344 0.946799 0.94299 0.926481 0.911778 0.931786 0.928823 0.915489 0.915453 0.911924 0.947686 0.901183 0.915462 0.938714 0.948849 0.949163 0.947377 0.938746 0.911892 0.940957
n 10 11 12 13 14 15 16 17 18 19 20 21 22 23
(i , j )
(1,6) (1,6) (1,6) (1,7) (1,7) (2,8) (2,9) (1,7) (2,8) (2,9) (2,8) (2,9) (1,8) (2,8) (2,9) (1,8) (2,9) (2,9) (3,11) (1,9) (2,9) (3,10) (3,11) (1,9) (2,9) (3,10) (9,11) (1,9) (2,10) (3,10)
p (Y i
0.923959 0.923437 0.913921
0.943911 0.930016 0.902519 0.915626 0.91042 0.909394 0.929054 0.90965 0.937502 0.937414 0.903588 0.941188 0.918315 0.940245 0.934762 0.904297 0.941475 0.924826 0.904847 0.919054 0.923628 0.910546 0.909842 0.929376 0.902339 0.947626 0.910018
n 24 25 26 27 28 29 30
(i , j )
(3,11) (1,10) (2,10) (3,10) (3,11) (1,10) (2,10) (3,11) (1,10) (2,10) (3,11) (4,12) (1,11) (2,11) (3,11) (4,12) (1,11) (2,11) (3,11) (4,12) (2,11) (3,12) (3,11) (4,12) (4,13) (4,14) (1,12) (2,12) (3,12) (4,12) (4,13)
表3.3 π0. 75的次序统计量区间估计表___置信度∈
(0. 90, 0. 95)
(i , j )
p (Y i
n
(i , j )
p (Y i
10 (5,10) 0.923959 (15,23) 0.936305 (4,10) 0.940181 (14,22) 0.938861 11 (6,11) 0.923423 (15,22) 0.905534 12 (7,12) 0.913921 25 (16,25) 0.927919 13 (16,24) 0.921646 14 (8,14) 0.943911 (15,23) 0.93822 15 (9,15) 0.930016 26 (17,26) 0.90858 (8,14) 0.902519 (17,25) 0.903688 16 (10,16) 0.91042 (16,24) 0.934078 (9,15) 0.909394 (15,23) 0.904344 (8,15) 0.929054 27 (17,27) 0.946799 17 (10,16) 0.90965 (17,26) 0.94299 (9,16) 0.937502 (17,25) 0.926481 18 (11,18) 0.937414 (16,24) 0.911778 (10,17) 0.941188 28 (18,28) 0.931786 (11,17) 0.903588 (18,27) 0.928823 19 (12,19) 0.918315 (18,26) 0.915489 (11,18) 0.940245 (17,25) 0.915453 20 (12,19) 0.934762 (16,25) 0.933627 (10,18) 0.904797 29 (19,29) 0.914226 21 (13,21) 0.941475 (19,28) 0.911924 (13,20) 0.924826 (18,27) 0.947686 (11,19) 0.919054 (19,27) 0.901183 (12,19) 0.904847 (18,26) 0.915462 22 (14,22) 0.923628 (17,26) 0.938714 (14,21) 0.910546 30 (19,30) 0.94916 (13,20) 0.909842 (19,29) 0.947377 23 (15,23) 0.90239 (19,28) 0.938746 (14,22) 0.947626 (18,27) 0.940957 (13,21) 0.935939 (19,27) 0.911892 24 (15,24) 0.944332
若样本容量n 充分大时,二项分布趋向于正态分布,则可由中心极限定理用正态分布近
[4]
似计算其置信区间。
⎛n ⎞k n −k
⎟p (Y i
j −1
⎛j −np ⎞i −nq ⎞⎟−Φ⎛⎜=p (i ≤w
⎛j −0. 5−np ⎞i −0. 5−nq ⎞⎟−Φ⎛⎜≈Φ⎜⎜np (1−p ) ⎟⎟≈P (i −0. 5
F (x )
n →∞
F 1(x ), F 2(x ), L , F (x )
F (x )
x 都有lim F n (x ) =F (x ) 成立,则称分布函数列{F n (x )}弱收敛于分布函数F (x ) 。
引理 分布函数列{F n (x )}弱收敛于分布函数F (x ) 的充要条件是相应的特征函数列
{ϕn (t )}收敛于F (x ) 的特征函数ϕ(t ) 。
事件A 在每次试验中出现的概率为p :0
⎛μ−np ⎞
⎟n →∞⎜
⎝npq ⎠
12π
∫
x
−∞
e
−
t 2
2
dt
这个定理只是下述林德贝尔格-勒维定理的特例。证明了后一个定理,也就证明了定理3。
定理4 若 ξ1, ξ2, L , ξn 是一列独立同分布的随机变量,E ξk =a ,D ξk =σ2σ2>0
()
k =1, 2, L , n 则有
⎞⎛n
⎟⎜∑ξk −na
⎟n →∞⎜σn
⎟⎜
⎠⎝
又因为
12∫
x
−∞
e dt
t 2
2
⎛a −np μn −np b −np ⎞
⎟≤
⎜npq ⎟ npq npq ⎝⎠
当n 很大时,有
⎛μn −np ⎞
⎜
⎜npq ⎟⎝⎠
于是
12π
t 2
2
∫
x
−∞
e
−t 2
2
dt =Φ(x )
P (a ≤μn
12b −np
np npq
−
⎛b −np ⎞⎛a −nq ⎞⎜⎟⎟dt =Φ−Φ⎜⎜npq ⎟⎜npq ⎟ ⎝⎠⎝⎠
我们再由中心极限定理,用正态分布求出π0.5的置信区间,如表3.4所示:
表3.4 π0. 5的次序统计量近似区间估计表___置信度∈
(0. 90, 0. 95)
p (Y i
0.9047 0.9045
0.9227
n 10 11
(i , j )
(2,8) (3,9) (3,9)
p (Y i
0.9296 0.9296 0.9296
n
(i , j )
(7,15) (7,16) (8,17)
13
(3,9) (4,10) (4,11) (3,10) (4,11) (4,10)
0.9039 0.9039 0.9209 0.9387 0.9387 0.9039
23 24
(7,16) (8,17) (8,16) (7,16) (8,17) (9,18)
0.9338 0.9338 0.9047 0.9111 0.9338 0.9111 0.9225 0.9225 0.9457 0.8996 0.9224 0.9457 0.8996 0.9457 0.9110 0.9110 0.9367 0.9110 0.9367 0.9367 0.8996 0.8996 0.9410 0.9275 0.8997 0.9410 0.9275
14 (3,10) 0.9012 25 (8,17) (4,11) 0.9386 (9,18) (5,12) 0.9012 26 (8,18) 15 (4,11) 0.9199 (8,17) (5,12) 0.9199 (9,18) 16 (5,12) 0.9199 (9,19) 17 (5,12) 0.9010 (10,19) (6,13) 0.9010 27 (9,19) 18 (4,13) 0.9458 (9,18) (5,13) 0.9336 (10,19) (6,13) 0.9010 28 (9,19) (6,14) 0.9336 (10,19) (6,15) 0.9458 (10,20) 19 (6,14) 0.9335 29 (10,20) 20 (5,14) 0.9343 (10,19) (6,14) 0.9192 (11,20) (7,16) 0.9343 30 (9,20) (7,15) 0.9192 (10,20) 21 (6,15) 0.9450 (11,20) (7,16) 0.9450 (11,22) (7,15) 0.9191 (11,21) 22 (6,15) 0.9227 和前面用二项分布求得的置信区间相比较,如表3.5所示:
表3.5 π0. 5的的次序统计量区间估计对照表
13 (3,10) (4,11) (4,10) 14 (3,10) (4,11) (5,12) 15 (4,11) (5,12) 16 (5,12) 17 (5,12) (6,13) 18 (4,13) (5,13) (6,13) (6,14) (6,15) 19 (6,14) 20 (5,14) (6,14) (7,16) (7,15) 21 (6,15) (7,16) (7,15) 22 (6,15) (7,15) (7,16) (8,17) (8,16) 23 (7,16) (8,17) (8,16) 24 (7,16) (8,17) (9,18) 25 (8,17) (9,18) 26 (8,18) (8,17) (9,18) (9,19) (10,19) 27
(9,19) 0.942627 0.942627 0.907715 0.903748 0.942627 0.903748 0.942627 0.923187 0.923187 0.903748 0.903748 0.948105 0.936432 0.903748 0.936432 0.948105 0.936432 0.936432 0.921646 0.936432 0.921646 0.947521 0.947521 0.921646 0.924649 0.90685 0.947521 0.924649 0.90686 0.936085 0.936085 0.90686 0.912877 0.936085 0.912877 0.924481 0924481 0.947761 0.901202 0.924481 0.9447761 0.901202 0.947761 0.9387 0.9387 0.9039 0.9012 0.9386 0.9012 0.9199 0.9199 0.9199 0.9010 0.9010 0.9458 0.9336 0.9010 0.9336 0.9458 0.9335 0.9343 0.9192 0.9343 0.9192 0.9450 0.9450 0.9191 0.9227 0.9047 0.9450 0.9227 0.9047 0.9338 0.9338 0.9047 0.9111 0.9338 0.9111 0.9225 0.9225 0.9457 0.8996 0.9224 0.9457 0.8996 0.9457 4.17‰ 4.17‰ 4.20‰ 2.82‰ 4.27‰ 2.82‰ 2.46‰ 3.56‰ 3.56‰ 3.04‰ 3.04‰ 2.43‰ 3.02‰ 3.04‰ 3.02‰ 2.43‰ 3.13‰ 2.28‰ 2.65‰ 2.28‰ 2.65‰ 2.66‰ 2.66‰ 2.65‰ 2.11‰ 2.37‰ 2.66‰ 2.65‰ 2.38‰ 2.44‰ 2.44‰ 2.38‰ 1.94‰ 2.44‰ 1.94‰ 2.14‰ 2.14‰ 2.17‰ 1.77‰ 2.25‰ 2.17‰ 1.77‰ 2.17‰
(9,18) 0.912841 0.9110 2.01‰
(10,19) 0.912841 0.9110 2.01‰ 28 (9,19) 0.938572 0.9367 1.98‰ (10,19) 0.912841 0.9110 2.01‰ (10,20) 0.938572 0.9367 1.98‰ 29 (10,20) 0.938572 0.9367 1.98‰ (10,19) 0.901263 0.8996 1.84‰ (11,20) 0.901263 0.8996 1.84‰ 30 (9,20) 0.942569 0.9410 1.66‰ (10,20) 0.929244 0.9275 1.87‰ (11,20) 0.901263 0.8997 1.73‰ (11,22) 0.942569 0.9410 1.66‰ (11,21) 0.929244 0.9275 1.87‰ 从表中的用正态分布求得的置信度与用二项分布求得的置信度的比较来看,很容易发现,当n >20时,用正态分布求得的置信度近似趋向用二项分布求得的置信度,其相对误差稳定在3‰以下 ,特别当n >29时,其相对误差稳定在2‰以下,这样我们可以得出结论:当n >20时我们可以由中心极限定理,用正态分布来求得近似的置信区间。
4. 总结与讨论
本文给出了未知连续型总体百分位点的一种次序统计量的点估计和区间估计的方法,但着重介绍后者。πp 的点估计值只是πp 的一种近似值,而不能知道它的精度。在数理统计学中,为了同时给出估计量的精度和可信度,常常用区间估计的方法来求出估计量的置信区间,并指出该区间以多大的概率包含πp ,即置信度。本文主要介绍百分位点的一种次序统计量的区间估计方法。由于次序统计量把总体的概率密度曲线与横轴所围的面积分为n +1份,且具有每份面积的期望值均相等的性质,因此我们可以用次序统计量来推求总体的百分位点的区间
[5]
估计。对不同的p 和容量n 还可以分别计算出它们的置信度在0.90~0.95间的置信区间,本文只求出π0. 5、π0. 25和π0. 75置信度在0.90~0.95间的置信区间。并用中心极限定理证明,当n 趋向无穷大时,二项分布趋向于正态分布。文中还以π0. 5为例加以验证,通过用正态分布求得的置信度与用二项分布求得的置信度的比较,发现:随着n 增大,其相对误差逐渐减少,对n 从10增加到30,其相对误差从5‰左右减少到1‰左右。特别,当n >20时,其相对误差稳定在3‰以下,当n >29时,其相对误差稳定在2‰以下,即用正态分布求得的置信度近似趋向用二项分布求得的置信度。这样我们可以得出,当n >20时,我们可以用正态分布来求得总体百分位点的近似置信区间。但是当总体的参数模型明确时,则可用积分的方法直接求出百分位点的置信区间,此时用次序统计量求出的百分位点的置信区间一般精度较低。实际上,可以用随机模拟的方法来讨论这个问题。
参考文献
[1] 陈光曙.关于次序统计量的联合分布与应用[J ].河北师范大学学报(自然科学版),2006,30(4):396-415.
[2] 柴根象等.非参数统计教程[M ].上海:华东师范大学出版社.1993.
[4] 魏宗舒等.概率论与数理统计教程[M ].高等教育出版社. 1983.
[5] 夏乐天.顺序统计量与百分位点的估计[J ].河北工业大学学报,1998,27:129-132.
Order Statistics and Interval Estimation for Percentiles
Zhao Linlin
Department of Applied Mathematics, Hohai University, Nanjing, China, 210098
Abstract
In this paper a kind of point estimation and interval estimation using order statistics on percentiles of unknown continuous type totality is studied in this paper. First an introduction is given about definition of order statistic and probability density function and distribution. Then we consider the characters when distribution of continuous type variable is taken as variable, expect value can be gotten when distribution variables are taken as order statistics. We can find the area surrounded by probability density curve and x-axis is divided into n+1 parts by order statistics, the expect value of each part is equal .For this reason, the conclusion that interval estimation for percentiles can be educed by order statistics can be gotten. When the sample sizes between 10 to 30, The confidence intervals of percentiles 0.25,0.50,0.75 with their confidence degrees between 0.90 to 0.95 are computed. In addition, we can also find that provided n is large enough, to given confidence interval, the confidence degrees which are educed by using order statistics from a binomial distribution and from a normal distribution have little error .The conclusion that when sample sizes larger than 20, The approximate confidence intervals can be gotten by using normal distribution is gotten.
Keywords: Order statistic, Percentiles, Interval Estimation
