两小样本比较的正态先验Bayes推断
提要 目的:两大样本比较问题,传统上对同方差正态情形可采用双样本t检验法,对非正态情形可采用非参数秩检验法;但对两小样本比较问题,若采用以上方法其可靠性较差。本研究旨在建立一种两小样本比较的统计处理方法。
方法:假定(1)样本来自同方差正态总体(2)参数具有正态先验(3)在平方损失下,采用了经验Bayes方法。
结果:建立了参数的Bayes估计及Bayes置信区间,并给出了两小样本比较的Bayes检验法则。
结论:利用实例进一步说明了对两小样本问题经验Bayes方法较双样本t检验法具有更高可靠性。
关键词 Bayes估计;Bayes置性区间;Bayes检验法则
中图法分类号 R311
A normal prior Bayesian inference for the comparison of two small samples
Luo Mingkui, Fan Aijun, Wang Kaifa
(Departmentof Mathematics, Third Military Medical University, Chongqing,400038)
Abstract Objective: The-two-sample comparison, the two-sample-t-test and the nonparameter rank test are reliable when the sizes of samples are large, but they are not reliable when the sizes are small. The purpose of this paper is to establish a suitable statistical procedure for the small sample. Methods: The empirical Bayesian method is applied and the follows are supposed: ①two samples have normal distribution with the same variance ②the parameters have normal prior distribution ③there is square loss. Results: A Bayes estimation and a Bayes posterior confidence interal are established and a Bayes test's rule is constructed for the comparison of two small samples. Conculusion: The emperical Bayesian method is more reliable than the two-sample-t-test method in comparison of two small samples.
Key words Bayes estimation; Bayes posterior confidence interal; Bayes inference
在许多医学实验中由于种种限制(如实验经费过于昂贵,病例罕见等)只能搜集到少量的样本,称作小样本,此时我们常常希望能通过两小样本去比较两个总体间是否有显著差异,称作两小样本比较问题。对于两小样本比较问题,我们不能简单地套用两大样本比较方法(如双样本t检验法,非参数秩检验法等)。小样本问题在实际中经常遇到,但在统计上却较难处理。近年来小样本问题成为统计学讨论的热门话题之一。随着经验Bayes方法的产生,小样本问题的讨论更趋活跃。本研究就两小样本比较问题介绍一种正态先验Bayes统计推断方法。
1 Bayes思想追溯
Bayes统计起源于1763年,在本世纪二、三十年代对Bayes观点的讨论空前激烈,自1950年A.Wald统计判决理论产生后,Bayes方法成为统计判决理论的重要工具。到本世纪六、七十年代产生了经验Bayes方法。经验Bayes方法认为对一个实验问题采取什么样的行动不仅依赖于现有的样本信息(不在乎样本容量的大小),而且还应当考虑样本中参数的某些先验信息以及采取行动所带来的损失大小。经验Bayes方法用于估计问题产生了经验Bayes估计,经验Bayes方法用于检验问题则产生了经验Bayes检验。
由于经验Bayes方法着眼于现有的样本而不象传统的统计方法那样将样本看着总体中无穷多样本的一部分去考虑,因此,经验Bayes方法更适用于小样本问题。同时经验Bayes方法需要利用参数的先验信息和考虑行动所带来的损失,这点也较能贴合小样本问题的实际。例如,要估计好转率,试验前根据经验对好转率取值的可能性有一个初步的认识,即为参数的先验信息;另外,一个估计值如果离真值较远则损失较大,一个估计值如果离真值较远则损失较大,根据Bayes思想可以看出,经验Bayes方法有如下要求:
1)样本的分布形式f(x,θ)已知,其中θ为未知参数;
2)确定出未知参数θ合理的先验分布H(θ);
3)确定出行动d合理的损失函数L(d,θ),其中d为样本的函数;
4)选择使后验平均损失最小的行动作为最终采取的行动。
2 问题及方法
2.1 两小样本比较问题
假定X1,X2,…Xm来自X服从正态分布N(θ1,σ2),Y1,Y2,…Yn来自Y服从正态分布N(θ2,σ2),共中m,n均较小,问题是:
1)估计未知参数θ1,θ2;
2)检验假设:
(1)
2.2 先验信息的确定
利用共轭先验方法,假定θ1,θ2具有如下先验分布:
相应的密度函数分别记为:
μ1,τ21,μ2,τ22可以用如下估计值近似替代:
假定以往有关X的k组小样本均值为:;以往有关Y的r组小样本值为:。
则
(2)
2.3 损失函数的确定
对θ1,θ2的估计(行动)d1(X)和d2(Y),采用平方损失
(3)
按照如上损失函数,将d1(X)作为θ1的估计,若d1(X)与θ1相差越大则损失越大,将d2(Y)作为θ2的估计,若d2(Y)与θ2相差越大则损失越大。
2.4 θ1,θ2的Bayes估计
根据样本X,Y的分布及未知参数θ1,θ2的先验分布,可计算出在X1,X2,…Xm给定下θ1的后验分布及在Y1,Y2,…Yn给定下θ2的后验分布。
因为
Xi|θ1~N(θ1,σ2),相应的密度函数记为f(xi;θ1,σ2),i=1,2,…,m
Yj|θ2~N(θ2,σ2),相应的密度函数记为f(yj;θ2,σ2),j=1,2,…,n
从而
在给定(X1,X2,…Xm)=(x1,x2,…,xm)的条件下θ1的密度函数为
(4)
同理
在给定(Y1,Y2,…Yn)=(y1,y2,…,yn)的条件下θ2的密度函数为
(5)
整理(4)式、(5)式知
(6)
其中
则d1(X1,X2,…,Xm)作为θ1的估计带来的后验风险R(d1),d2(Y1,Y2,…,Yn)作为θ2的估计带来的后验风险R(d2)有如下形式:
(7)
Eθi(.)表示在θi的后验分布下求数学期望,i=1,2。
可以证明当时R(d1)达到最小,当时R(d2)达到最小
即θ1,θ2的Bayes估计为:
(8)
这里μ1,τ21,μ2,τ22可用(2)式给出的估计值替代,σ2常常未知,可用如下X,Y的合样本方差σ2替代
(9)
2.5 θ1-θ2的后验置信区间及Bayes检验法则
根据(6)式由正态分布的再生性知θ1-θ2的后验分布为:
其中
(10)
则θ1-θ2的(1-α)100%后验置信区间为:
(11)
这里uα/2为标准正态分布的α/2上侧分位数。
根据(11)式,在给定显著水平α下可构造如下Bayes检验法则:
(1)若置信区间I包含0,则应接受(1)式中的零假设H0,认为样本X与样本Y间无显著差别:
(2)若置信区间I不包含0,则应拒绝(1)式中的零假设H0,认为样本X与样本Y间有显著差别。
3 实例分析
为了进一步说明如上小样本Bayes统计方法的应用,以下利用实际例子进行分析。
[例]第三军医大学组胚教研室为研究癌症患者与非癌症患者间SDH酶活性有无差异,共收集了100例癌症患者和50例非癌症患者的SDH酶活性数据,见表1。
表1 SDH酶活性数据表
Tab 1 Activity of SDH
Number | Cancerous patients(X) | Number | Non-cancerous patients(Y) |
1 | 96 | 1 | 145 |
2 | 93 | 2 | 174 |
3 | 78 | 3 | 159 |
4 | 80 | 4 | 146 |
… | … | … | … |
97 | 124 | 47 | 134 |
98 | 133 | 48 | 138 |
99 | 100 | 49 | 135 |
100 | 114 | 50 | 158 |
以上问题属于两大样本比较问题,可用双样本t-检验法处理,结果显示:两样本方差具有齐性,两样本均值间有显著差异。说明非癌症患者比癌症患者SDH酶活性显著偏高。 为了说明如上统计方法,特构造如下小样本问题。我们将上述数据中样本X分为20组、样本Y分为16组,将其中各选一组作小样本比较的现有资料,其余作为小样本经验资料,具体数据如下: 现有资料: X:159,148,96,148 Y:145,174,159 (*) 经验资料均值: 则θ1-θ2的(1-0.05)100%后验置信区间为: I=[4.914,57.49] 可以看出后验置信区间I不包含0,说明X与Y间有显著差异,再根据1,2的大小可得出结论:非癌症患者SDH酶活性显著偏高。这与大样本时双样本t检验结论吻合。 作者简介:罗明奎,男,32岁,讲师,硕士 参考文献 1 陈希孺,倪国熙.数理统计教程.上海:上海科学技术出版社,1988.192~239 |
- 两性
- 男人
- 女性
- 母婴
|
· 处女座的特点 · 处女座最佳配对星座 · 2010年处女座运势 · 处女座女人的爱情 · 如何追处女座女人 · 处女座女人的特点 · 处女座女人 · 处女座男人喜欢的女人 · 如何对付处女座男人 |
|
· 怎样看待遗精 · 什么是滑精 · 什么是梦遗 · 什么是干燥性闭塞性龟头炎? · 前列腺炎检查 · 包皮手术过后多久可以性生活 · 早泄是不是跟包皮过长有关? · 早泄等于射精过快吗? · 体外射精有什么害处 |
|
· 女性经期切记将绿茶挡在门外 · 生命中的一次婚外恋 · 一个流氓和妓女的故事 · 最唯美的10首中国情诗 · 娇妻玩合租 结果引火烧身 · 男人必须了解女人的一些事 · 当女朋友被领导叫去陪酒 · 易让男人退避三舍的10类女人 · 老男人为什么招小女人的喜欢? |
|
· 春季合理喂养婴儿健康指南 · 如何正确使用空调保证健康 · 让宝宝接受保姆的三大招 · 哪些产妇需做会阴侧切 · 导致分娩时难产4因素 · 看美国准妈人性化孕产经历 · 准妈妈如何预防春季感冒? · 胎盘和脐带的功能与重要性 · 烟、酒和咖啡对胎儿的影响 |