CFPS小课堂 | 请不要问我,我“不知道”,我“拒绝回答”......
来源:时间:2018-11-16 01:32阅读:
1、CFPS中缺失值的主要类型
(1)问卷系统跳转造成的缺失
这种类型的缺失值在数据库中一般用“-8”(不适用)来表示。CFPS从全国基线调查开始就采用计算机化访问系统,这种访问模式的一个主要优点是可以根据调查对象的具体情况实现较为灵活的问题定制。譬如说只对从事农
业生产的家户具体询问关于农产品收入和资金投入的问题,对于那些不从事农业生产的家户来说这些问题相关的变量在数值上就体现为-8。
(2)不同问卷类型合并造成的缺失
从CFPS2012开始,在面访自答问卷的基础上,CFPS又引入了电访问卷、代答问卷等多种问卷。譬如说家庭经济问卷有面访问卷和电访问卷,而成人问卷有面访自答问卷、电访自答问卷和代答问卷。这些问卷在总体结构上尽
量保持一致,但具体问卷的详细度和复杂度都有差别。为了方便用户使用数据,CFPS在发布数据时将同一种问卷(如成人问卷)的不同问卷类型(如面访自答、电访自答、代答)进行了整合,形成了一个单一数据库。在这个数
据库中,对于那些只在其中特定问卷类型下出现的变量则会产生部分的缺失值,这种缺失值一般在数据库中是用“.”来表示的。譬如说在成人库中,只有参与了面访自答问卷的样本才会有认知测试,其它样本在认知测试相关变
量上的数值则为“.”。
(3)受访者原因造成的缺失
这种类型的缺失值在数据库中一般用“-2”(拒绝回答)和“-1”(不知道)来表示。这是指受访者已经被问到该题,但由于各种原因没有提供有效应答的情况。对于大部分情况,CFPS对于该题的采集到此为止,但在一些
涉及到资产或收入的变量时会采用“逼近法”的方式进行区间的估计。
2、如何确认不同的缺失值类型
(1)确认问卷系统跳转造成的缺失
单纯看数据库以及codebook是不够的,你需要仔细阅读我们的问卷。问卷中红色字体的部分很多是与问卷跳转相关的。譬如类似下面这种以【CAPI】打头的红色部分就明确列出了跳转条件。
【CAPI】若CFPS2012_age>3岁,提问A2M,否则跳至A101。
除此之外,还有紧跟在某一道问卷答案后面的跳转。
例:Q204 您是否曾经吸烟?
1. 是(继续回答Q205) 5. 否(跳至Q301)
需要注意的是,有时候影响某道题的跳转是直接在这道题的当前位置,有时可能在问卷更前面的地方,影响到多道题或一整个模块的整体跳转。
(2)确认不同问卷类型合并造成的缺失
用户一方面可以通过阅读问卷,确认某一道题是否在不同的问卷类型中都存在。其次,CFPS2012和CFPS2014的清理技术报告中均包括一部分关于问卷合并的描述,并列出了部分只在某种特定问卷中出现的变量,以供用户
参考。
3、处理CFPS数据缺失值时需要注意的问题
是不是在遇到CFPS中的缺失值时,我们或者得“忍痛割爱”地删除有缺失值的观测,或者得用复杂程度不等的统计方法来进行插补呢?事实并不总是这样的,因为CFPS中有一部分表面看起来的缺失值是可以补齐的。
(1)由于某类问题不适用而从设计上跳过的题
譬如之前提过的家庭经济问卷中关于农业生产的相关的收入和支出变量,对于不从事任何农业生产的家庭,这些变量用户在后期具体处理时可以根据需要将其设置为0.
(2)追踪调查设计时由于前期访问已经采集到信息而跳过的题
为了提高调查的效率,CFPS在追踪访问时,对于已经有过信息采集的部分变量不再重复进行采集。用户在使用追踪年的这些变量时会发现存在大量的缺失值,这些缺失值大都可以结合往期数据补齐。譬如下面这道在
CFPS2014中出现的对民族成分的采集题,它只针对那些初次进行个人访问或者之前民族信息空缺的样本提问。用户如果要使用这个变量,可以结合往期调查的数据将这个变量的缺失值补齐。
【CAPI】CFPS2012_interv=0或CFPS_minzu=0(无有效数据),继续提问A701;否则跳至A9之前的CAPI。
A701 QA701"您的民族成分"您的民族成分是:_________
总之,了解CFPS问卷的设计意图是理解数据中缺失值是否合理的关键,也只有在理解了缺失值存在的原因之后,才能更有效地对这些缺失值进行相应的处理。
请您关注CFPS公众号,阅读更多CFPS小课堂:ISSS_CFPS