如何使用SPSS进行PSM操作

在维基百科里这么描述PSM:

In the statistical analysis of observational data, propensity score matching (PSM) is a statistical matching technique that attempts to estimate the effect of a treatment, policy, or other intervention by accounting for the covariates that predict receiving the treatment.

简单来说,很多观察性研究对比两组患者的某个终点,但因为两组患者的基础水平的因素存在差异,而这些因素跟研究者观察的终点存在相关性。为了减少该参数掺杂引起的共线性,通常的做法是分层分析。但分层分析往往很大程度上损失病例量,于是出现了这个叫做PSM(又叫做PSA [PS analysis])的操作。PSM操作的主要目的是在两组患者之间挑出基础水平相当的患者,以进行进一步的分析。

SPSS也可以进行这项操作,huangwei98已经详细描述了如何配置SPSS插件,但有些掺杂信息干扰。我重新做了整理,并将主要的工具上传到了网盘里以方便下载。我使用的是SPSS 18.0。

  1. 安装SPSS 18.0统计软件——我提供的几个小工具都是针对SPSS 18.0的,所以建议安装这个版本;
  2. 这个链接下载工具包,解压缩,获得3个文件(R-2.8.1-win32.exe,PASWStatistics_RPlugIn_1802_win32.exe,psmatching_2.spd),以下都用得着。注:这3个文件对应的是18.0版本的SPSS,如果你使用的是更高版本的SPPS,请在如下步骤的“原始下载链接”中下载对应的文件);
  3. 运行R-2.8.1-win32.exe(原始下载链接),安装R for Windows;
  4. 运行PASWStatistics_RPlugIn_1802_win32.exe(原始下载链接),安装SPSS的R语言插件;
  5. 打开SPSS软件,在菜单里操作:Utilities – Custom Dialogs – Install Custom Dialog (实用程序 – 定制对话框 – 安装自定义对话框),选中psmatching_2.spd文件(原始下载链接)以安装。
  6. 重启SPSS,在Analysis(分析)菜单里就可以看到PS Matching了。

2013-07-27_psm

其实说到底很简单,就是Thoemmes君开发了SPSS的PS Mathcing的插件,因为这个插件是R语言写的,所以要额外安装SPSS的R语言扩展。简单用了一下,这个插件存在一些不足,Thoemmes的论文里也提及了:只能做两组间的匹配,不能有更多组;需要平衡的因素不能有缺失值(一个缺失值也不能容忍)。更详细的信息请参考Thoemmes的论文吧,里面写的非常清楚。

 

主要参考资料:

  1. huangwei98: 为了propensity score analysis(倾向性分析),真是曲折也!
  2. Thoemmes, F: Propensity score matching in SPSS

美国肝癌发病率和死亡率数据

CA Cancer J Clin 2012:10; DOI: 10.3322/caac.20138

美国癌症学会(ACS)每年都会发布美帝常见癌症发病率和死亡率的统计报告,这是2012年发布的。这个报告一直发布在ACS的学会刊物 CA: A Cancer Journal for Clinicians 上,可以免费获得全文。而这样的统计数据被引用率往往高的惊人,这也是这个杂志影响因子高的吓人的主要原因。如下是关于肝癌(包括肝细胞癌和肝内胆管细胞癌)数据的摘抄。需要强调的是,这是美国人口的统计情况。

1、不管男女,肝癌在发病率上均不到前十位;但却是男性第5位、女性第9位的癌症死亡原因,分别占男女癌症总死亡原因的5%和2%。对于40-59岁的男性,肝癌上升为第三位的癌症死亡原因。男性癌症前5位死因分别为:肺癌、前列腺癌、结直肠癌、胰腺癌和肝癌;女性分别为肺癌、乳腺癌、结直肠癌、胰腺癌和卵巢癌。

2、尽管近十年来癌症的发病率在缓慢上升,但死亡率却在平缓下降,对于男性和女性均如此。在1990年以前,癌症的死亡率在平稳上升,上升率较快;但1991年之后,男性和女性的癌症总死亡率虽然也在提高,但却平缓很多,偏移了1990年前的增长曲线。

以男性为例,下图的蓝色曲线是每年癌症实际的人数,红色曲线是以1990年的上升趋势来预测的死亡率。

2012-01-27_death_year

3、不管男女,肝癌的发病率都在缓慢上升,对于男性而言,肝癌的死亡率也在缓慢上升。

4、非白种人的胃癌和肝癌的发病率和死亡率均是白种人的两倍。这两种肿瘤都是感染性的(分别为幽门螺杆菌感染和肝炎病毒感染),部分反映了非白色人种的卫生条件稍差。

5、新世纪以来,肝癌5年生存率有了一些提高,现在是15%;而在1978-1977年为3%,1987-1989年为5%。

 

Full citation: Siegel R et al: Cancer statistics, 2012. CA Cancer J Clin 2012, 62:10-29.

美国癌症流行现状(2010):4个数据

CA Cancer J Clin. 2010 Jul 7; DOI: 10.3322/caac.20073

很期待咱们天朝的“有关部门”能拿得出且相应的数据出来,不过,,,这个真没有。本文的4个数据来自于美国癌症协会(ACS)公布的资料,发表在ACS主办的《CA: A Cancer Journal for Clinicians》杂志上,显示的是美国人口的年度癌症的发病率和死亡率资料。

这里罗列4个我感兴趣的数据,已经在twitter上投稿给了 @med_cn。了解更多数据,点击跳转后阅读免费全文。

总体看癌症
从1999年起,直到现在,癌症都超过了心脏病,成为了85岁以下的美国人最主要的死亡原因。而美国儿童和青壮年(1~39岁)的主要死因则是意外事故,自杀和谋杀加起来占第二。

前5位的死因
美国男性的前5位癌症死亡原因为:肺癌、前列腺癌、大肠癌、胰腺癌和肝癌;女性:肺癌、乳腺癌、大肠癌、胰腺癌和卵巢癌。

最高发的5种癌症
美国男性最高发的5种癌症是:前列腺癌、肺癌、大肠癌和黑色素瘤;女性为:乳腺癌、肺癌、大肠癌、子宫内膜癌和甲状腺癌。

趋势
相比较1990s,在美国,只有肝癌的死亡率在男性和女性都发生了上升,此外男性的食管癌和黑色素瘤,女性的肺癌和胰腺癌死亡率也发生了上升。

OR值的计算方法

比值比(OR值)的意义及使用SPSS的计算方法。

OR值的意义可以参考新浪网友“统计遗传”的这篇日志。这里做一些摘抄和修改:

OR值的全称是odds ratio、比值比,对于发病率很低的疾病来说,它是OR值即是相对危险度的精确估计值。OR值的意义:
OR值等于1,表示该因素对疾病的发生不起作用;
OR值大于1,表示该因素是危险因素;
OR值小于1,表示该因素是保护因素。

计算公式如下:假定我们要鉴别因素(例如吸烟)是不是某个疾病的危险因素(例如肺癌)。形成如下四个表:

crosstab

OR值= AD/BC。95%的置信区间就不用公式了,下面用SPSS实现。

SPSS不支持4格表,需要原始的阴性和阳性的数据,即,形式如下(一般情况下,1-是,0-否)。

format_crosstab

使用卡方检验,计算P值,同时可以计算OR值。SPSS里计算OR值的具体方法:

菜单Analyze – Descriptive Statistics – Crosstabs,在弹出的Crosstabs里,Row和Column的框里分别添加吸烟和肺癌两个变量(行列可以相互交换,不影响OR的计算结果)。点击Statistics按钮,弹出对话框,勾选Chi-square和Risk,然后Continue。其他不用管,按下OK按钮进行运算。结果里产生了3个表格:

第1个是数据是否确实等情况和4格表。
第2个可以看到第1行卡方值和检验的P值。根据注释b,看有几个cell(四格表的格子)的预测值小于5,如果有1个(25%)及以上的cell的预测值小于5,则需要看Fisher’s Exact Test一栏的P值,否则就是第1行的卡方检验P值就可以了。
第3个表格的第1行就是OR值了,可以看到OR值和95%CI。