当前位置:文档之家› 调查中无回答处理方法研究综述

调查中无回答处理方法研究综述

调查中无回答问题理论研究的前沿面

蒋妍

ABSTRACT

This paper summarizes the classical research and advanced research of nonresponse both in China and overseas. It divides the former research

into three phases: dissemination (1915~1940s), special topic research

(1940s~1970s) and rapid development (1980s~ ), and gives separate

comment on the theoretical research in the mainland of China, Taiwan and

overseas.

关键词:无回答;加权法;插补法;多重插补法;辅助信息

一、问题的提出

目前,中国大陆调查中存在着日益严重的无回答问题,几乎所有的调查公司都面临着这一尖锐问题,然而却并没有引起从业者及理论研究者的足够重视。一个突出的表现是,不论是在官方机构还是民间机构的调查报告中,都常常缺少关于“无回答率”等技术指标的解释说明。

尽管官方调查机构或一些大型规范并注重数据质量的商业调查公司,可以凭借其权威性,或者通过一些行政措施(如开介绍信)提高回答率,或者在调查方法的选取、问卷的设计、访问员的挑选和培训(如选取女性访问员已获得受访者的认同)等方面采取事前预防的方法降低无回答率,但是目前就无回答数据的调整处理(即事后补救)方面,大陆的调查机构基本上没有做任何工作。绝大多数调查机构要么是采取了“弃之不理”的策略,例如,简单地删除缺失值或有缺失值的单位,要么干脆持有“视而不见”的态度。

因此,有必要对这一问题结合中国的实际进行系统的研究,而展开研究的第一步,需要对国内外无回答问题的研究现状进行综述。

二、无回答问题理论研究的三个阶段

尽管我国目前仍然少有关于无回答问题的学术文献,但是国外理论界对这一问题较早就开始了研究。对抽样方法做出很大贡献的Bowley于1915年最先提出无回答问题,至今关于统计调查中无回答问题的理论研究大致可划分为三个阶段。

(一)宣传期(1915年~20世纪40年代)

这一时期,有关学者开始了对无回答问题的初步研究,并强调处理无回答问题的重要性。Bowley(1915)指出一项社会状况调查结果的不确定性或误差的四方面来源,其中两项可归入非抽样误差范畴;1926年又进一步强调控制各种误差源的必要性。随后,Deming(1944)

很好地概括了评价和控制调查误差时所应考虑的因素,包括产生于无回答的偏差因素(金勇进,1995)。

(二)专题研究期(20世纪40年代中后期~20世纪70年代末)

这一时期许多学者对无回答问题进行了大量的专题研究,提出了无回答处理补救的经典方法。要减少调查中的无回答,主要应从事前预防和事后补救两方面入手。从理论上讲,事前预防也许是处理无回答最简便且有效的方法。对无回答问题的研究,早期学者也较多地关注无回答的事前预防方法和措施。Kish(1965)、Warwick-Lininger(1975)、Mosteller(1978)等都对提高无回答率的措施进行过广泛的讨论。Deming(1953),Dubin(1954),以及后来的Thomsen和Siring(1983)采用不同的方法来决定访问调查中理想的尝试次数。Dohrenwend (1970),Ferber和Sudman(1974),Chromy和Horvitz(1978),Gunn和Rhodes(1981)都曾研究过激励方法对改善无回答率的效果。

但是人们逐步认识到,现实中由于种种原因和条件的限制,这种事先预防的方法并不能使问题得到完全解决。因此,无回答的事后补救方法越来越受到重视,很多学者进行了大量深入的理论和实证研究。

早期关于无回答加权调整法的具有里程碑意义的文献主要有:Deming和 Stephan (1940)提出事后分层重复多变量逐一加权(Raking)的方式;Hansen和Hurwitz(1943)提出按照样本抽取率的倒数加权;Politz和Simmons(1949)提出了经典的Politz-Simmons 调整法,是按照回答者在相同时间内在家并可接受调查的天数进行加权;Horvitz和Thompson(1952)提出按照单位被抽中概率的倒数加权。后期各种推陈出新的加权方法基本上是承袭早期的这些观念而来的。

加权法主要用于单位无回答的补救处理,而对于项目无回答的补救处理则多采用插补法①。这一阶段陆续提出了均值插补、热卡插补、冷卡插补、回归插补和模型插补等方法,许多学者对这些方法进行了广泛讨论和改进。Nordbotten(1963)和Chapman(1976)探讨了冷卡法在周期性调查的作用。Sonquist(1971)、Chapman(1976)、Oh和Scheuren(1980)、Ford(1983)、Rizvi(1983)、Sande(1979,1982,1983)等都对热卡插补法进行过讨论和改进。Kalton和Kish(1984)、Sande(1979,1982)在热卡法的基础上提出了数值分类的距离函数匹配法,以避免回归插补和热卡插补法的困境。

此外,Hansen和Hurwitz(1946)提出了以传统的统计推论为基础的双重抽样法,后来的Zarkovich(1966)、Cochran(1977)、Rao(1968、1973)、Rao和Hughes(1983)等都对此进行了广泛讨论。以Rao(1972)、Singh(1978)等人为代表,在70年代开始出现大量文献探讨贝叶斯方法在无回答处理中的应用。

(三)迅速发展期(20世纪80年代初~今)

这一时期,出现了一批对无回答方法理论进行系统总结的专著,并且,以Rubin提出多重插补法为标志,涌现出众多关于无回答多重插补的文献。此外,大量先进统计方法在无回答研究领域的应用,带动了这一领域蓬勃发展,使其成为抽样理论界的热点问题之一。

近20年来对无回答调查数据进行调整的统计方法取得了重大突破。20世纪70年代末,Dempster、Laird和Rubin(1977)提出一种有效估计不完全数据算法——EM算法。EM算

①也有人称为“替代法”、“估算法”等。

法不仅是一种有效的计算工具,它还根本性地改变了统计学家对无回答的看法。正是基于这一算法,Rubin在80年代初期的一系列论文中提出了多重插补法,其基本的理论架构整理在Rubin(1987)的一本著作中。此后在此基础上又不断出现关于该法的改进和应用的文献。

一些关于无回答问题研究的经典论著主要也出现在这一时期。这一时期对无回答问题研究的经典性论著有:Graham Kalton(1983)在《Compensating for Missing Survey Data》中介绍了无回答问题,特别是处理无回答的加权法和替代法。Donald B. Rubin(1987)在《调查中的多重插补法》中系统归纳了其经典的多重插补法的思想和理论框架。Robert M. Groves (1989)在《Survey Errors and Survey Cost》中对无回答率进行了介绍和测算,并提出了相应的统计模型。

这里需要特别指出的是,由Madow等(1983)、Madow和Olkin(1983)、Kalton(1983)、Cox和Cohen(1985)等人组成的美国“不完全数据研究小组”对无回答问题理论研究的卓越贡献(Lessler和Kalsbeek,1992),其一套三册的论著不仅涵盖了无回答的基本理论、方法创新和比较研究、案例研究和实证分析的方方面面,而且论述精辟深入。

进入20世纪90年代,较少有学者提出关于无回答处理的全新思想和方法,大多数学者或者进行了理论的总结归纳,或者提出了方法的改进、比较研究和应用实证研究等。前者的典型代表是Judith T. Lessler和William D. Kalsbeek(1992),在《调查中的非抽样误差》中对无回答的产生背景、统计影响和处理方法等进行了总结归纳。该书的一个重要贡献就是对50年来有关非抽样误差的已有研究作了一个系统的总结和综合。

三、无回答问题理论研究的前沿面

以上分阶段对无回答理论80多年来的研究进行了归纳总结,下面则分别对国外、中国台湾、中国大陆等无回答理论研究的学术前沿进行评述。

(一)国外无回答问题的前沿研究

透视近期国外关于无回答问题的前沿性研究,可以从已有无回答处理方法的改进和扩展、方法的比较研究以及应用研究等三方面进行。

1.已有方法的改进和扩展

以往对无回答的假设比较简单,现在则考虑范围推广,例如,以往多是针对可忽略无回答问题,目前有许多学者研究不可忽略的无回答问题。Forster和 Smith(1998)提出了对不可忽略的定类无回答数据的模型推断法(Model-Based Inference for Categorical Survey Data Subject to Non-Ignorable Nonresponse)。Ghosh-Dastidar和Madhumita(1999)对多重替代法进行扩展,提出了MEMI法(Multiple edit/multiple imputation),在该方法中既能反映无回答,也能计量其误差。Maren K. Olsen(1998)在《Multiple Imputation for Multivariate Missing-data Problems》中提出了多变量缺失值的多重替代法,并进行了实际应用。Montaquila,Jill Marie(1998)提出方差估计的新方法,并利用模拟数据对其方法进行了验证。Heeringa和Steven George(2000)探讨了EM算法(Expectation-Maximization)和Gibbs sampler算法的应用,并对其特性研究和方法进行比较。Scharfstein、Rotnitzky和Robins(1999)利用半参数回归模型对不可忽略的无回答进行了调整。

目前,关于辅助信息的应用也是一个讨论焦点和研究前沿。Thomsen和Ann Marit Kleive Holmoy(1998)根据挪威统计局的经验,提出利用管理档案系统的信息可以提高调查数据的质量。R. Wang、J. Sedransk和J. H. Jinn(1992)提出在存在缺失值的情况下对二手数据进行分析。此外,Rubin(1991)还使用贝叶斯LOGISITIC回归对普查样本的行业代码进行多重替代。

2.方法的比较研究

典型的如Roderick和Little等(1986)利用美国普查局CPS①的收入数据进行了热卡插补和回归插补的效果比较研究。Michael、Lucy Wesley(1999)利用QOL②调查数据,在不同的无回答条件下对各种插补法进行了比较。Hegmin-Younger等(1998)在分析大学生入学成绩与入学后成绩的关系时对总均值插补法(MO)、分层均值插补法(MC)、热卡法(RC)和回归插补法(RG)等进行了比较研究。

3.应用研究

伴随着理论的发展,无回答调整方法的应用领域在不断推广,尤其是近十多年来呈现蓬勃发展的趋势。Zanutto、Elaine Louise(1998)提出基于跟踪访问(follow-up)、管理记录(administrative records)和配对替代(matched substitutes)的模型,将替代法推广应用到单位无回答。Wang-N Robins-JM(1998)将多重替代法应用到大样本调查。Gelman-A King-G Liu-CH(1998)将多重替代法从单一调查推广到多个调查中。此外,随着调查技术应用领域的推广,讨论无回答问题的领域也越来越广泛,诸如医药、教育、生物等领域经常能见到有关于无回答的探讨。例如,S.C.CHOI和I.L.LU(1995)讨论了临床实验中非随机缺失值的影响。

(二)中国台湾无回答问题的前沿研究

相对于中国大陆而言,台湾学者对于统计调查中无回答③处理方法的研究比较重视,相关的著作和论文也较多。刘义周(1984)探讨了产生无回答的原因,并提出在理论及实务上应采取的对策。黄毅志(1997)在《抽样调查中访问失败的问题之探讨——以台湾地区社会变迁调查为例作说明》中对访问失败问题进行的实证研究。翁彰佑和程尔观(1991)针对不同插补法对统计量的影响等加以研究,并利用实例证明其研究结论。刘长萱和蔡政丰(1997)则利用插补法原理进行不完整取样设计,并做实例研究,进一步拓宽了插补法的应用领域。陈信木、林佳莹(1997)在《调查资料之缺失值的处置——以热卡插补法为例》中,提到若干缺失值的处置方法,并进行了实例研究。李泰明、郑宇庭和谢邦昌(1999)采用Gibbs Sampler的随机模拟过程解决了多重插补中的抽样问题,结合蒙特卡罗EM算法提出一个一般化的解决方法,并应用实例证明其适用性。

目前,台湾学者已将统计调查处理缺失值的方法列入基本的“抽样调查”教科书中,并不断有专文探讨理论上及实务上应注意的事项。如郑光甫及韦瑞(1998)在《抽样方法——理论与实务》中,探讨处理无回答的调整及插补法等。赵民德及谢邦昌(1999)在《探索真相——抽样理论与实务》一书中,详细介绍了无回答的调整和插补方法,尤其对多重插补法

①即现时人口调查(Current Population Survey)。

②即生活质量(Quality of Life)

③台湾有关无回答的一些术语表述与大陆略有不同,更多地采用“缺失值”、“遗漏值”等。

进行了重点介绍。

(三)中国大陆无回答问题的前沿研究

中国大陆目前有关调查中的无回答问题的研究,不论是从理论的探讨上还是从实务的处理上看,都远不及国外甚至中国台湾的发展如此有规模。在极为有限的关于无回答研究的学术文献中,较有代表性的有:金勇进(1995)在研究非抽样误差时,介绍了无回答误差的基本理论,对无回答误差及其预防和补救措施进行了考察和分析,并结合大陆统计调查的实践对中国大陆的无回答问题进行了探索性研究。JIAN-HUA ZHU(1996)利用80年代中国大陆的14个实际案例数据,用Logistic回归模型分析无回答的影响因素,结果被调查者的性别、年龄、教育程度、职业等10个因素通过显著性检验。此外,金勇进(1998)探讨了处理缺失数据中对辅助信息的利用问题;金勇进和朱琳(1999)结合具体案例,对几种插补方法进行了比较研究和实证分析。

四、主要结论

1.近20年来,调查中无回答问题的应用面越来越广泛,越来越多的领域,如医学、生物、教育等领域开始关注无回答处理问题;同时,在无回答问题处理方法的研究中,所运用的统计方法越来越多,也越来越新。

2.国外关于调查中无回答问题研究的基本理论框架已经形成,提出一种全新的补救方法很难,目前的前沿性研究大都或者是进行方法的改进或比较研究,或者是利用已有方法进行应用研究和实证分析。

3.台湾无回答问题的研究除了进行引进工作外,基本上遵循了目前国外研究的这条思路;相比较而言,大陆目前的有关研究则仍然处于十分匮乏的境地,关于无回答理论研究的系统论著尚属空白。

参考文献

[1]金勇进《非抽样误差分析》,中国统计出版社,1996

[2]Rubin, D. B. (1987),Multiple Imputation for Nonresponse in Surveys, New York:John Wiley & Sons. [3]Madow, Rubin, Nisselson and Olkin (1983). Incomplete Data in Sample Surveys, V ol. 1-3. New York: Academic Press.

[4]J. T. Lessler and W. D. Kalsbeek (1992). "Nonsampling error in surveys" John Wiley and Sons, INC.

[5]蒋妍《调查数据中无回答问题处理方法研究》,中国人民大学博士论文,2001

作者简介:蒋妍,女,29岁,2001年毕业于中国人民大学统计学系,获经济学博士学位,现为中国人民大学统计学系讲师。主要研究方向:抽样调查;非抽样误差;调查中的无回答问题。

通讯地址:中国人民大学青年公寓1141 (邮编:100872)

联系电话:62511026 139********

相关主题
文本预览
相关文档 最新文档