- 收藏
- 加入书签
基于ICT的多分类敏感性问题参数估计的实证研究
摘要:本文旨在根据ICT模型(Item Count Technique)的方法,来解决多分类敏感性问题的实际问题的参数估计问题。在问卷收集方面,本文提出运用RRT模型,收集两份问卷,一份混合问题(即敏感性问题和非敏感性问题)和一份非敏感问题问卷。由于实际数据服从泊松分布,所以本文提出了一种未知λ的泊松分布的多分类敏感性问题的参数估计方法。之后,我们对实际数据进行回归,试图探求敏感性问题和自变量之间的关系。通过对比了费希尔得分算法和线性回归的方法的结果,发现费希尔得分算法在实际数据的应用上有缺陷。最后得到了结果:在大学生群体中,婚前性行为跟年级、性别相关,同学们随着年级的递增,发生婚前性行为的次数也会变多。
关键词:EM算法,费希尔得分算法,泊松分布,参数估计
1. 研究方法原理和分析
本节将介绍本研究将会用到的五种研究方法的原理和推导公式:分别为计数技术,泊松计数模型,EM算法,未知λ的实验设计和费希尔得分算法。
1.1 计数技术
RRT的研究取得了很大的进展。其中一个主要分支是Miller(1984)最初提出的项目计数技术(ICT)或不匹配计数技术(UCT)。在信息和通信技术的设计中,参与者被随机分配到A组或B组。在A组中,受访者将被提出K个非敏感性问题。在B组中,受访者将被呈现相同的K个非敏感性问题Q1,...,Q K以及一个敏感性问题Q Z。所有非敏感问题和敏感问题都有二元结果(例如“是”或“否”)。两组受访者都必须向访问者报告“是”的答案数量(Droitcour et al。1991; Tsuchiya et al.2007)。例如,A组的受访者将被呈现以下三个无害问题:
Q1:你喜欢打羽毛球吗?
Q2:你有养宠物吗?
Q3:手机的最后一个数字是甚么?
同时,B组的受访者将与Q1和Q3一起提交相同的敏感问题:
Q Z:你是吸毒者吗?
设Z = 1表示受访者对敏感问题Q Z给出'是'的答案,否则Z = 0。同时,设Xk = 1表示受访者对第k个非敏感问题Qk给出'是'的答案,否则k = 1,否则为Xk = 0,k=1.....K。根据ICT的设计,每位受访者的最终答复是1的总数,表示为:
信息和通信技术的优势如易于理解和操作简单,在实践中得到广泛的应用(Dalton等人1994; Kuklinski等人1997; Gilens等人1998; LaBrie和Earleywine 2000; Tsuchiya 2005; Janus 2010; Imai 2011;Petróczi等2011)。但是,ICT仍然有几个限制。首先,一些关于ICT早期阶段的研究只提供了所规定的点估计,如Chaudhuri和Christofides(2007)所指出的那样,可能小于零或大于1。其次,虽然在回归模型中提供了两步非线性最小二乘估计(Imai 2011)和最大似然估计(MLE)(Imai 2011; Blair and Imai 2012),对于二元敏感特征,比Chaudhuri和Christofides(2013年,第127页)和Trappmann等人的两个结果要好。 (2014)仅讨论了格罗尼茨(2014)提出的MLEs时刻估计量。第三,Wald CI可能超出单位区间(0,1)。第四,即使置信区间在(0,1)之内,对于小样本设计可能也不可靠。最后,K +1的答案肯定揭示了被访者的敏感特征。在这种情况下,被访者可能会提供不真实的答案。虽然今井(2011)和布莱尔和今井(2012)已经讨论过这个问题,但尚未完全解决。
1.2 泊松计数模型
为了解决与ICT相关的这些问题,Tian et.al.(2017年)提出了两项新设计来取代之前的独立非敏感性伯努利变量分别遵循泊松分布或负二项分布的单个非敏感随机变量(例如,X)。换句话说,K个非敏感性问题被一个单一的非敏感性问题Qx所取代,其结果是无限的。因此,答案0意味着被访者不具备敏感特征。答案m(m>1)表示对所有非敏感性问题的答案是m和被访者不具有敏感特征,或者对所有非敏感问题的答案是m-1并且被访者确实具有敏感特征。然而,敏感群体的答案不会透露“是”的数量。
让Z成为敏感问题Qz的答案,答案是'是'和'否'。如果被调查者具有敏感特性,则定义Z=1,否则定义Z=0。因此,Z~ernoull(π)的目标是估计π=Pr(Z=1)。设X是与Z无关的非敏感问题Qx的答案。令Y=X+Z为这两个问题答案的总和。
在泊松和负二项式ICT的设计中,受访者被随机分配到A组或B组.B组中的受访者需要将答案的总和(即Y=X+Z)报告给以下两个问题:
Qx:你去年出国多少次?
Qz:你是吸毒者吗?
A组的受访者只需要将他们的时间(用X表示)报告给问题Qx。在X~oisson(λ)或X~NBinomia(r,p)的假设下,这两种模型不仅可以保护受访者的隐私,还可以提供可靠的比例估计,CIs和有用的样本量公式。
1.3 EM算法
EM算法是求解极大似然估计的一种迭代式算法,模型一般是借助隐变量求解。EM迭代算法交替E步(使用当前参数创造一个对数似然函数,并求期望)和M步(求使得E步骤对数似然函数期望最大的参数)。然后M步参数估计的结果用作下一个E步骤中潜在变量的分布,再进行反复迭代。
假设有一组观测数据X,一组无法观测的隐数据或者是缺失值Z,其参数为θ。同时,我们有一个似然函数L(θ;X,Z)=P(X,Z |θ),未知参数的极大似然估计是由观测数据的边缘似然决定的:
通常这个式子都是很难求解的(比如,Z是一系列事件的时候,那么这些值的数量就随着序列的长度增长呈指数级增长,那么求和就非常困难了)。而EM算法则通过E步骤和M步骤迭代求解。
1、E步骤:计算对数似然函数(它是在当前估计的θ(t)条件下,给定X关于Z的条件分布)的期望值:
Q(θ|θ(t))=EZ∣Xθ(t)[logL(θ;X,Z)]
2、M步骤:寻找一个参数使E步骤中的对数似然函数最大:
θ(t+1)=argmaxθQ(θ|θ(t))
2. 大学生性行为情况数据分析
本节将会应用第二节的分析方法,对已收集到的大学生性行为次数的数据进行实证研究。本次研究共涉及到两份问卷,一份问卷是非敏感性问题问卷(大学生借书次数),另一份问卷是混合问题问卷(大学生借书次数与去年发生性行为次数的和)。
2.1 问卷的效度检验
在进行参数估计之前,先对问卷的效度进行分析,从而确定问卷的收集数据是否具有可靠性。用SPSS模型,导入两份问卷,并确定分析的六个指标都为数值类型。选择进行KMO检验和Bartlett球度检验,结果所示。
问卷1的KMO值为0.588,Bartlett检验的显著性为0.002,远远小于0.05,效果显著。说明问卷1收集的数据是可以接受的。
可见,问卷2的KMO值为0.554,Bartlett检验的显著性为0.055,略大于0.05,虽然Bartlett检验不通过,但是KMO值仍处于可接受的范围。所以认为问卷2的数据可以进行下一步的参数估计。
2.2 基于EM算法的和的参数估计
组1为回答非敏感性问题,组2为回答非敏感性问题和敏感性问题的混合问题。其中,组1有100人,组2有100人。所以n1=100,n2=100。用QU来表示非敏感性问题,即为:
QU:去年在图书馆共借了多少次书?
用QZ来表示敏感性问题,那么组2回答的是两个问题的次数总和(即,Y=U+Z)
QZ:去年发生了多少次婚前性行为?
此次调查中共有200个受访者,其中100个受访者被分配到组1中,并且剩下的100个受访者在组2中。
首先,我们需要将数据进行卡方检验来验证观察到QU是否符合泊松分布。
QU:{11 6 8 8 11 7 9 11 5 9 7 11 10 8 11 6 9 7 3 13 7 8 8 8 7 7 8 11 12 6 8 12 5 10 3 6 9 4 10 12 10 10 9 12 7 10 10 10 8 11 13 9 7 8 9 10 13 16 7 4 13 8 10 4 12 12 10 7 12 7 12 4 5 13 12 5 7 8 8 9 9 9 7 9 8 9 12 12 8 9 9 5 11 5 5 12 8 4 6 15}
对以上数据进行皮尔森卡方检验,并得到结果p值约为0.2,远远大于0.05,所以我们没有理由拒绝原假设,即该数据{u1,...,u100}符合泊松分布。
我们得到的数据被表示为Yobs={u1......un1,y1......yn2}。在这个假设下,U~Poisson(λ),U~Poisson(θ),观测数据关于λ和θ的似然函数:
3. 结论分析与建议
本文对于未知λ的多分类敏感性问题的情况进行了建模,由于数据都属于泊松分布,所以我们引入了混合回答即Y=U+Z的RRT技术。其后,我们求解了λ和θ矩估计以及给出了极大似然估计值。经过EM算法的迭代,实证研究中,可以得到学校中发生性行为的平均次数为4.06。紧接着,我们对实际数据进行了回归处理,先运用了传统方法的费希尔得分算法来计算回归方程的回归系数的值,但是由于矩阵不可逆,导致该方法失败;随后用了线性回归的方法同时对问题U 和混合问题进行回归,两组自变量相同。在对比了两组的回归方程之后,我们得到了结论:大学生当中婚前性行为跟年级相关,同学们随着年级的递增,发生婚前性行为的次数也会变多。并且,男性发生婚前性行为的可能性要高于女性。
本论文是关于ICT解决泊松分布的多分类敏感性问题的文章,但是本文还是存在局限。首先,在收集问卷的过程中,我们向受访者询问了一个非敏感性问题QU,然而问题U的回答可能不是泊松分布的,U不需要独立于Z。所以当非敏感随机变量U不遵循泊松分布时,我们可以尝试其他分布,如负二项式,零膨胀泊松,零膨胀负二项式分布等等。此外,考虑受访者的违规行为或找出受访者对敏感项目的答案与其真实状态或自我保护反应之间的关联行为在敏感问题的调查中是一个重要问题。再者,最后进行回归分析时,是进行了两个回归方程的对比的,并没有真正的求出关于敏感性问题的回归方程。所以该求回归的方法还值在未来继续探研。
参考文献
[1] Poisson–Poisson item count techniques for surveys with sensitive discrete quantitative data, Yin Liu1 · Guo-Liang Tian2 · Qin Wu3 · Man-Lai Tang4, Stat.Papers.2017 March 27th
[2] 王磊. 多分类敏感问题RRT模型下整群抽样调查的统计方法及其效度信度模拟评价[D]. 苏州大学, 2012.
[3] 杨少春, 高歌, 范玉波,等. 多分类敏感问题RRT模型下分层三阶段抽样的统计方法及应用[J]. 中国卫生统计, 2015, 32(4):598-604.
[4] 高歌, 范玉波. 分层整群抽样的Warner模型RRT技术及其对大学生婚前性行为调查中的应用[J]. 数理统计与管理, 2010, 29(1):185-190.
[5] 施佳琛, 陈向宇, 高歌,等. 蒙特卡罗模拟对多分类敏感问题随机应答技术模型下整群抽样信度与效度的评价[J]. 南京医科大学学报(自然科学版), 2013(7):1007-1011.
[6] Osborne M R. Fisher’s Method of Scoring[J]. International Statistical Review, 1992, 60(1):99-117.
作者简介:林贝,1996年11月,女,汉族,广东汕头人,信息系统高级管理工程师,硕士,中国联通软件研究院广州分院,大数据技术研究方向。



京公网安备 11011302003690号