临床随访资料的Markov模型构建与应用研究
摘要 目的:对一般的临床随访资料构建Markov模型,预测各观察点的生存人数和死亡人数。方法:将患者在各观察点的状态表示为生存、死亡、失访三类,作为一类特殊的纵向观测分类数据,采用加权最小二乘法估计未知参数。结果:提出了随访资料的Markov模型,并结合实例,给出状态间的转移概率,以及各观察点生存人数、死亡人数的预测值。结论:采用Markov模型对临床随访资料进行预测分析可作为寿命表等分析方法的有效补充。
关键词 随访资料;生存分析;Markov模型
中国图书资料分类法分类号 R311
Construction and application of Markov model for follow-up data
Xiong Linping,Cao Xiutang,Meng Yueliang,Guo Zuchao (Department of Health Statistics,Faculty of Medical Service, Second Military Medical University,Shanghai,200433)
ABSTRACT Objective: To construct Markov model for clinical follow-up data and predict the number of survival and death. Methods: The state of patients was clas sified into survival, death and censor. Being a kind of special categorical data, weighted least square method was used for estimating parameters. Results: Markov model for survival analysis of follow-up data was presented. With an example , the transition probability matrices were obtained. The number of survival and death at each observation point could be predicted respectively. Conclusion: Markov model is constructed to analyze clinical follow-up data. It can be used as an effective supplement for life table analysis.
K EY WORDS follow-up data; survival analysis; Markov model
[Acad J Sec Mil Med Univ, 1999, 20(7): 359~361]
疾病的治疗情况,一方面看结局好坏,另一方面还要看出现这种结局所经历的时间长短,这类资料一般通过随访收集。常见的随访起点是确诊日期、手术日期等;最明确的阳性结局是死亡,此外还有复发、致残等。随访资料常因失访等原因造成某些数据观察不完全,要用专门的方法进行统计处理,这类方法称为生存分析,常用的有寿命表法、乘积极限法、Cox比例风险模型分析法等[1,2]。由于随访资料具有时间序列的属性,因此可以用纵向研究[3,4]的方法分析这类资料。本研究将临床随访资料作为一类特殊的纵向观测分类数据,建立随访资料生存分析的Markov模型,以加权最小二乘法估计未知参数,获得各状态间的转移概率,以及各观察点生存人数、死亡人数的预测值等。
1 方法和结果
1.1 有穷状态空间Markov过程 下面给出有穷状态空间连续时间Markov过程的有关结果[5]:状态空间为{1,2,…,k}的Markov过程{X(t):0<t<∞}可由k阶转移概率矩阵列P(s,t)={pij(s,t)}(0≤s≤t)确定。pij(s,t)为转移概率:
pij(s,t)=Pr{X(t)=j|X(s)=i} i,j=1,…,k
转移强度矩阵Q(t)={qij(t)}。若qij(t)=qij,即与时间t无关,称为齐次马尔柯夫过程,pij(s,t)仅是t-s的函数。记P(t)=P(0,t),Chapman-Kolmogorov向前方程dp(t)/dt=P(t)Q有唯一解:
(1)
边界条件为P(0)=I(单位阵)。若Q的k个特征根为d1,…,dk,记D=diag(d1,…,dk)。以A表示相应的特征向量构成的矩阵,则有分解Q=ADA-1。代入(1)式可得:
P(t)=Adiag{exp(d1t),…,exp(dkt)}A-1 (2)
由(2)式可知,一旦确定了A和d1,…,dk,对任意t可确定P(t)。
在以下的讨论中假定齐次强度是参数向量θ=(θ1,…,θr)′的可微函数,即qij=qij(θ),强度矩阵为Q={qij(θ)}。
1.2 随访资料观测数据 假设对一群相互独立的个体分别在时刻t0<t1<…<tm进行观测,每个个体的状态构成一个时间齐次的Markov过程,其状态空间定义为{1,2,…,k}。设在时刻tυ处于状态j的个体数为Nj(tυ)(j=1,…,k;υ=0,1,…,m),考虑封闭系统,即,假定初始值Nj(t0)(j=1,…,k)已知。令观测时间间隔为uυ=tυ-tυ-1(υ=1,…,m)。记为:
Nυ={N1(tυ),…,Nk(tυ)}′ (3)
Mυ={N1(tυ),…,Nk-1(tυ)}′ (4)
其中υ=0,1,…,m。给定Nυ-1,Mυ的分布为渐近非齐次(k-1)维正态,有:
E(Mυ|Nυ-1)=P′1(uυ)Nυ-1 (5)
Cov(Mυ|Nυ-1)=V1v=diag{P′1(uυ)Nυ-1}-P′1(uυ)diag(Nυ-1)P1(uυ) (6)
其中P1(uυ)是去掉P(uυ)的最后一列构成的k×(k-1)阶矩阵,V1υ是Vυ的(k-1)阶主子阵。
1.3 加权最小二乘估计 利用式(5)和(6)可给出{qij(θ)}中参数θ的估计方法。记:
(7)
则使S达到极小的θ即为加权最小二乘估计,记作。记Zυ=Mυ-P′1(uυ)Nυ-1,估计的迭代公式为[6]:
(8)
其中Cυ(θ)是(k-1)×r矩阵,其第j列为(/θj)P′1(uυ-1)Nυ-1(j=1,…,r)。V1υ、Zυ均在θ=θ0处取值。的渐近协方差阵估计为:
(9)
1.4 随访资料的Markov模型 这里考虑的状态空间为{1,2,3},即每个观察对象在任一观察点可处于三种状态之一:生存、死亡、失访。状态2(死亡)和状态3(失访)为吸收状态,进入到吸收状态的观察对象不可能转移到其他状态。转移强度矩阵为:
(10)
Q的特征根为,d1=-θ1-θ2,d2=d3=0,以A表示相应的特征向量构成的矩阵,则Q的分解表达式为:
Q=Adiag(d1,d2,d3)A-1
记x=exp{-(θ1+θ2)t},则由(2)式可得如下转移概率矩阵:
(11)
而(6)式中的P1(t)可表示为:
(12)
(12)式分别关于θ1,θ2,求导,然后右乘向量Nυ-1获得相应于迭代公式(8)中的矩阵Cυ(θ)为:
其中λ=θ2(1-x)+θ1xuυ-1(θ1+θ)
μ=θ1xuυ-1(θ1+θ2)-θ1(1-x)
至此完成了随访资料的Markov模型构造。在此基础上我们编制了较为实用的计算机程序,下面以实例说明随访资料的Markov模型分析过程。
2 实例分析与讨论
表1为585例乳腺癌术后随访资料(括号内为理论值)。
表 1 585例乳腺癌术后随访结果
Tab 1 Follow-up results of 585 patients with breast cancer after operation
Yearsafter operation |
No.of beginning |
No.of death |
No.of censor |
[0,1) |
585(585) |
59(69) |
59(99) |
[1,2) | 463(417) | 69(50) | 71(70) |
[2,3) | 323(297) | 43(36) | 55(50) |
[3,4) | 225(211) | 30(25) | 38(36) |
[4,5) | 157(151) | 13(18) | 31(25) |
[5,6) | 113(107) | 7(13) | 26(18) |
[6,7) | 80(76) | 14(10) | 21(13) |
[7,8) | 45(54) | 4(7) | 11(9) |
[8,9) | 30(38) | 3(5) | 15(7) |
[9,10) | 12(27) | 0(4) | 12(5) |
表 2 各观测点的转移概率 |
t(year) | p11(t) | p12(t) | p13(t) |
1 | 0.712 2 | 0.119 1 | 0.168 7 |
2 | 0.507 2 | 0.203 9 | 0.288 9 |
3 | 0.361 2 | 0.264 3 | 0.374 5 |
4 | 0.257 3 | 0.307 3 | 0.435 3 |
5 | 0.183 2 | 0.337 9 | 0.478 9 |
6 | 0.130 5 | 0.359 7 | 0.509 8 |
7 | 0.092 9 | 0.375 3 | 0.531 8 |
8 | 0.066 2 | 0.386 3 | 0.547 5 |
9 | 0.047 1 | 0.394 2 | 0.558 7 |
10 | 0.033 6 | 0.399 8 | 0.566 6 |
表中转移概率均有其实际意义,如p11(4)=0.2573,表示到术后第4年有25.73%的患者处于生存状态;p13(2)=0.2889,表示到术后第2年有28.89%的患者失访,其中包括生存和死亡。根据表2数据计算理论频数,将计算结果填入表1(括号内数据),由表1可见,除去两端个别值外,理论值与实际值符合良好。 临床随访资料的分析是应用统计中的一个重要领域。我们应用Markov模型分析随访资料,将观察对象在各观察点的状态分为生存、死亡、失访三个状态,利用加权最小二乘法获得待估参数θ1和θ2,进而计算各观测点的转移概率、频数,收到了满意的效果。对于一个Markov过程,在给定过去状态和现在状态的条件下,将来时点状态的分布只依赖于当前状态,而与过去状态无关。因此在应用Markov模型进行实际分析时,可以不考虑初始时刻前的状态。在实际的医学研究中,常常由于某些原因使得研究者提前终止随访观测,在这种情况下,就可以采用本研究获得的结果,根据现有数据对观察对象的未来结局进行预测。然后利用统计软件,如SAS(statistics analysis system)[7]作分析处理。因此,本研究的结果可作为生存分析的有益补充。 作者简介:熊林平,男,1962年12月生,博士,讲师 作者单位 熊林平 孟岳良 第二军医大学卫生勤务学系卫生统计学教研室,上海,200433; 参考文献 |
- 两性
- 男人
- 女性
- 母婴
|
· 处女座的特点 · 处女座最佳配对星座 · 2010年处女座运势 · 处女座女人的爱情 · 如何追处女座女人 · 处女座女人的特点 · 处女座女人 · 处女座男人喜欢的女人 · 如何对付处女座男人 |
|
· 怎样看待遗精 · 什么是滑精 · 什么是梦遗 · 什么是干燥性闭塞性龟头炎? · 前列腺炎检查 · 包皮手术过后多久可以性生活 · 早泄是不是跟包皮过长有关? · 早泄等于射精过快吗? · 体外射精有什么害处 |
|
· 女性经期切记将绿茶挡在门外 · 生命中的一次婚外恋 · 一个流氓和妓女的故事 · 最唯美的10首中国情诗 · 娇妻玩合租 结果引火烧身 · 男人必须了解女人的一些事 · 当女朋友被领导叫去陪酒 · 易让男人退避三舍的10类女人 · 老男人为什么招小女人的喜欢? |
|
· 春季合理喂养婴儿健康指南 · 如何正确使用空调保证健康 · 让宝宝接受保姆的三大招 · 哪些产妇需做会阴侧切 · 导致分娩时难产4因素 · 看美国准妈人性化孕产经历 · 准妈妈如何预防春季感冒? · 胎盘和脐带的功能与重要性 · 烟、酒和咖啡对胎儿的影响 |