两小样本比较的正态先验Bayes推断

www.cnkang.com 2007-4-16 14:53:00 中华康网

　　提要　目的：两大样本比较问题，传统上对同方差正态情形可采用双样本t检验法，对非正态情形可采用非参数秩检验法；但对两小样本比较问题，若采用以上方法其可靠性较差。本研究旨在建立一种两小样本比较的统计处理方法。
方法：假定(1)样本来自同方差正态总体(2)参数具有正态先验(3)在平方损失下，采用了经验Bayes方法。
结果：建立了参数的Bayes估计及Bayes置信区间，并给出了两小样本比较的Bayes检验法则。

结论：利用实例进一步说明了对两小样本问题经验Bayes方法较双样本t检验法具有更高可靠性。
　　关键词　Bayes估计；Bayes置性区间；Bayes检验法则
　　中图法分类号　R311

A normal prior Bayesian inference for the comparison of two small samples

Luo Mingkui, Fan Aijun, Wang Kaifa
(Departmentof Mathematics, Third Military Medical University, Chongqing,400038)

　　Abstract　Objective: The-two-sample comparison, the two-sample-t-test and the nonparameter rank test are reliable when the sizes of samples are large, but they are not reliable when the sizes are small. The purpose of this paper is to establish a suitable statistical procedure for the small sample. Methods: The empirical Bayesian method is applied and the follows are supposed: ①two samples have normal distribution with the same variance ②the parameters have normal prior distribution ③there is square loss. Results: A Bayes estimation and a Bayes posterior confidence interal are established and a Bayes test's rule is constructed for the comparison of two small samples. Conculusion: The emperical Bayesian method is more reliable than the two-sample-t-test method in comparison of two small samples.
　　Key words　Bayes estimation; Bayes posterior confidence interal; Bayes inference

　　在许多医学实验中由于种种限制(如实验经费过于昂贵，病例罕见等)只能搜集到少量的样本，称作小样本，此时我们常常希望能通过两小样本去比较两个总体间是否有显著差异，称作两小样本比较问题。对于两小样本比较问题，我们不能简单地套用两大样本比较方法(如双样本t检验法，非参数秩检验法等)。小样本问题在实际中经常遇到，但在统计上却较难处理。近年来小样本问题成为统计学讨论的热门话题之一。随着经验Bayes方法的产生，小样本问题的讨论更趋活跃。本研究就两小样本比较问题介绍一种正态先验Bayes统计推断方法。

1　Bayes思想追溯

　　Bayes统计起源于1763年，在本世纪二、三十年代对Bayes观点的讨论空前激烈，自1950年A.Wald统计判决理论产生后，Bayes方法成为统计判决理论的重要工具。到本世纪六、七十年代产生了经验Bayes方法。经验Bayes方法认为对一个实验问题采取什么样的行动不仅依赖于现有的样本信息(不在乎样本容量的大小)，而且还应当考虑样本中参数的某些先验信息以及采取行动所带来的损失大小。经验Bayes方法用于估计问题产生了经验Bayes估计，经验Bayes方法用于检验问题则产生了经验Bayes检验。
　　由于经验Bayes方法着眼于现有的样本而不象传统的统计方法那样将样本看着总体中无穷多样本的一部分去考虑，因此，经验Bayes方法更适用于小样本问题。同时经验Bayes方法需要利用参数的先验信息和考虑行动所带来的损失，这点也较能贴合小样本问题的实际。例如，要估计好转率，试验前根据经验对好转率取值的可能性有一个初步的认识，即为参数的先验信息；另外，一个估计值如果离真值较远则损失较大，一个估计值如果离真值较远则损失较大，根据Bayes思想可以看出，经验Bayes方法有如下要求：
　　1)样本的分布形式f(x,θ)已知，其中θ为未知参数；
　　2)确定出未知参数θ合理的先验分布H(θ)；
　　3)确定出行动d合理的损失函数L(d,θ)，其中d为样本的函数；
　　4)选择使后验平均损失最小的行动作为最终采取的行动。

2　问题及方法

2.1　两小样本比较问题
　　假定X₁，X₂，…X_m来自X服从正态分布N(θ₁，σ²)，Y₁，Y₂，…Y_n来自Y服从正态分布N(θ₂，σ²)，共中m,n均较小，问题是：
　　1)估计未知参数θ₁，θ₂；
　　2)检验假设：

(1)

2.2　先验信息的确定
　　利用共轭先验方法，假定θ₁，θ₂具有如下先验分布：

　　相应的密度函数分别记为：

　　μ₁，τ²₁，μ₂，τ²₂可以用如下估计值近似替代：
　　假定以往有关X的k组小样本均值为：；以往有关Y的r组小样本值为：。
　　则

g198-1.gif (1987 bytes)

(2)

2.3　损失函数的确定
　　对θ₁，θ₂的估计(行动)d₁(X)和d₂(Y)，采用平方损失

(3)

　　按照如上损失函数，将d₁(X)作为θ₁的估计，若d₁(X)与θ₁相差越大则损失越大，将d₂(Y)作为θ₂的估计，若d₂(Y)与θ₂相差越大则损失越大。
2.4　θ₁，θ₂的Bayes估计
　　根据样本X，Y的分布及未知参数θ₁，θ₂的先验分布，可计算出在X₁，X₂，…X_m给定下θ₁的后验分布及在Y₁，Y₂，…Y_n给定下θ₂的后验分布。
　　因为
　　X_i|θ₁～N(θ₁，σ²)，相应的密度函数记为f(x_i;θ₁，σ²)，i=1,2,…,m
　　Y_j|θ₂～N(θ₂，σ²)，相应的密度函数记为f(y_j;θ₂，σ²)，j=1,2,…,n
　　从而
　　在给定(X₁，X₂，…X_m)=(x₁，x₂，…,x_m)的条件下θ₁的密度函数为

g198-3.gif (1862 bytes)

(4)

　　同理
　　在给定(Y₁，Y₂，…Y_n)=(y₁，y₂，…,y_n)的条件下θ₂的密度函数为

g198-4.gif (1969 bytes)

(5)

　　整理(4)式、(5)式知

g198-5.gif (2661 bytes)

(6)

　　其中
　　则d₁(X₁，X₂，…，X_m)作为θ₁的估计带来的后验风险R(d₁)，d₂(Y₁，Y₂，…，Y_n)作为θ₂的估计带来的后验风险R(d₂)有如下形式：

(7)

　　E_{θ_i}(^.)表示在θ_i的后验分布下求数学期望，i=1,2。
　　可以证明当时R(d₁)达到最小，当时R(d₂)达到最小
　　即θ₁，θ₂的Bayes估计为：

(8)

　　这里μ₁，τ²₁，μ₂，τ²₂可用(2)式给出的估计值替代，σ²常常未知，可用如下X，Y的合样本方差σ²替代

g198-11.gif (1988 bytes)

(9)

2.5　θ₁-θ₂的后验置信区间及Bayes检验法则
　　根据(6)式由正态分布的再生性知θ₁-θ₂的后验分布为：

其中

(10)

　　则θ₁-θ₂的(1-α)100%后验置信区间为：

(11)

　　这里u_α/2为标准正态分布的α/2上侧分位数。
　　根据(11)式，在给定显著水平α下可构造如下Bayes检验法则：
　　(1)若置信区间I包含0，则应接受(1)式中的零假设H₀，认为样本X与样本Y间无显著差别：
　　(2)若置信区间I不包含0，则应拒绝(1)式中的零假设H₀，认为样本X与样本Y间有显著差别。

3　实例分析

　　为了进一步说明如上小样本Bayes统计方法的应用，以下利用实际例子进行分析。
　　［例］第三军医大学组胚教研室为研究癌症患者与非癌症患者间SDH酶活性有无差异，共收集了100例癌症患者和50例非癌症患者的SDH酶活性数据，见表1。

表1　SDH酶活性数据表
Tab 1　Activity of SDH

Number	Cancerous patients(X)	Number	Non-cancerous patients(Y)
1	96	1	145
2	93	2	174
3	78	3	159
4	80	4	146
…	…	…	…
97	124	47	134
98	133	48	138
99	100	49	135
100	114	50	158

　　以上问题属于两大样本比较问题，可用双样本t-检验法处理，结果显示：两样本方差具有齐性，两样本均值间有显著差异。说明非癌症患者比癌症患者SDH酶活性显著偏高。
　　为了说明如上统计方法，特构造如下小样本问题。我们将上述数据中样本X分为20组、样本Y分为16组，将其中各选一组作小样本比较的现有资料，其余作为小样本经验资料，具体数据如下：
　　现有资料：
　　X：159，148，96，148　　Y：145，174，159

(*)

　　经验资料均值：
　　：88.6, 90,5, 94.16, 96.4, 97.5, 134.3, 113.4, 113.8, 114.6, 91.4, 86.4， 105.8, 93.2, 86.72, 79.6, 68, 77.8, 67, 54
　　：156， 172， 143.6, 167.6, 145.6, 155.5, 144.3, 148.6, 166.7, 161.6, 144.6, 156.5, 170, 134.6, 143.6
　　按照上述经验Bayes方法可以算出：

g199-3.gif (2451 bytes)

　　则θ₁-θ₂的(1-0.05)100%后验置信区间为：

I=［4.914,57.49］

　　可以看出后验置信区间I不包含0，说明X与Y间有显著差异，再根据₁，₂的大小可得出结论：非癌症患者SDH酶活性显著偏高。这与大样本时双样本t检验结论吻合。
　　但如果对小样本资料(^.)直接采用双样本t检验法，其结论是：X与Y间无显著差异。这与大样本时双样本t检验结论不吻合。
　　对两小样本比较问题，采用本研究介绍的经验Bayes方法比传统的双样本t检验法更吻合实际。因此，对两小样本比较问题，当先验信息选择得当时，宜采用上述经验Bayes方法。

作者简介：罗明奎，男，32岁，讲师，硕士
作者单位：第三军医大学基础医学部数学教研室　重庆，400038

参考文献

1　陈希孺，倪国熙.数理统计教程.上海：上海科学技术出版社，1988.192～239
2　苑锡光.医用统计分析.成都：四川科学技术出版社，1985.89～91
3　郭祖超.医用数理统计方法.北京：人民出版社，1988.631～647
4　Rorbert E, McCullcch, Ruey S T. Bayesian inference and prediction for mean and variance shifts in autoregressive time series. JASA,1993,88(3):968
5　Thomas A S. Approximately Bayesian inference.JASA,1994,89(1):425