当前位置: 首页 > 常见问题 > CFPS小课堂

CFPS小课堂 | 还在为清理变量费神?试试综合变量

来源:时间:2018-11-16 01:45阅读:

  

什么是综合变量?

 

综合变量是CFPS团队在CFPS调查采集的数据基础上后期清理并构造的一些常用变量,通常涉及个人或家庭的基本属性、特征或状态,如性别、年龄、教育程度、婚姻状态,家庭收入等等。这些变量的取值经过CFPS研究人员的检查和初步清理,综合了多个数据库和逻辑上相关联变量的取值,可视作根据已有信息得到的最佳取值变量,因此在一些情况下也被称为“最佳变量”。

 

为什么要构造综合变量?

 

CFPS问卷结构复杂,哪怕是对于一个最基本的属性、特征或状态,其取值都可能有多个数据来源,比如教育程度。这个特征既有家庭成员问卷中的代答得到的取值,也有个人问卷受访人自报的取值,而且在不同调查年份之间,受访人还会对上一次调查时他的回答进行确认;此外,受访人的配偶在回答个人问卷婚姻模块时也会提供其配偶的教育程度,这也可视为是对受访人教育程度的代答。但是,我们发现,复杂的问卷在提供多角度信息来源的同时,也很可能带来信息甄别的困难:这些不同来源的取值之间可能会存在不合理的不一致。但有一些属性、特征或状态是最基本、最常用的,无论是未来调查时要加载数据,还是对用户分析数据来说,这些属性、特征或状态最好都用一个取值明确的单一变量来表示。因此,CFPS团队针对一些不一致问题比较突出或用户直接使用难度比较大,又有清理基础的常用基本变量构造了最佳取值的综合变量。

 

综合变量是怎么构造出来的?

 

不同的综合变量在清理和构造上的思路不同,但其过程基本上都包括如下几个方面:

 

检查:对同一属性、特征或状态在不同数据库、自答和代答、已有的多个调查年份的回答之间比对。部分数值型变量(如房产价值、睡眠时间等)还专门组织过录音回放来检查部分观测是否存在记录错误。

 

筛选:预先设计一系列逻辑筛选的条件或规则,对上述不同来源的取值判断其正误,或者确定取值的优先级。比如,我们通常会假定自答比代答的答案更准确,或者假定所有来源答案之中最集中的取值可能会更准确,等等。

 

采集额外数据:在少数情况下,如果发现已有的数据仍然不足以判断哪个取值更合理,我们会在下一轮调查中重新采集相关信息或增加核对或确认的题目。

 

重组及查补:把从不同来源得到的(近似)最佳取值合并、插补到一个最终变量上。

 

通常来说,上述工作大部分都是通过编程进行系统性处理,但也有少部分难以判断的情况需要结合更多的信息采用人工一一甄别。

 

作为用户怎么使用综合变量?

 

综合变量对于用户来说只是一个可参考的选择,用户可以直接使用CFPS提供的综合变量,也可以自己清理和构造出自己认为达到最佳取值的综合变量。CFPS在发布综合变量的同时也在发布数据库中均保留了构造这些综合变量的原始变量,并在技术报告系列中陆续发布介绍这些综合变量的技术报告。用户可以根据这些变量在其研究的重要程度及具体研究的需求来决定是不是要使用CFPS提供的综合变量。通常来说,由于经过了一定程度的清理,综合变量的取值要优于直接采集得到的原始变量、有效取值也可能相对更多,但不同的研究者对数据清理的深度和精度要求不同,对变量构造的逻辑判断条件也可能有不同的想法,所以,建议用户在使用综合变量之前,先阅读相关的技术报告。如果用户有更高的要求,建议自行构造所需变量,或者在CFPS的综合变量上进行修正。

 

已发布的综合变量的取值会有变化吗?

有可能会变化。如果数据版本存在实质性的更新,且涉及到构造综合变量的相关变量的取值,可能会改变综合变量的取值。另外,CFPS团队也在不断完善综合变量的构造方案,并利用后续数据提供的更多信息,会进一步优化一些的综合变量的取值。需要提醒用户注意的是,已发布的综合变量都是基于发布前已有的数据所构造,新发布的下一轮数据的相关信息仍可能与基于前几轮数据构造的综合变量取值之间存在矛盾,而对于新一轮数据中的新增样本也没有先前综合变量的取值,这些情况需要用户自行处理。

 

 

 

请您关注CFPS公众号,阅读更多CFPS小课堂:ISSS_CFPS

上一篇: CFPS小课堂 | 职业编码是如何炼成的?

下一篇: CFPS小课堂 | 城里人vs.农村人,城乡界定谁说了算?