CFPS小课堂 | 数据使用Q&A(2020:2)
来源:时间:2022-05-12 03:49阅读:
两周前CFPS通过微信平台推出了小课堂之数据使用Q&A系列的第一期,后台收到了很多小伙伴们的反馈。小编非常感谢大家的积极参与!本次推送将继续分享过去一到两周用户们具有代表性的问题以及我们的回答,供大家参考。另外为了方便大家检索,我们还将所有整理的问题都统一放到我们的项目网站上,并会不断更新(点击“阅读原文”直达该页面)。如果这种方式对您有所帮助,欢迎您留言让我们看到。
收入与支出相关
Q:近期我在使用CFPS收入综合变量时遇到了一个问题。因为我在分析过程中需要使用家庭可支配收入这一变量,但CFPS提供的综合变量是家庭纯收入。《中国统计年鉴》界定的可支配收入包括工资性收入、经营净收入、财产净收入和转移净收入,对比CFPS用户手册的介绍,似乎两者间的区别在于转移性收入的界定上。想请教您的问题是,如何在CFPS家庭纯收入的基础上计算出家庭可支配收入呢,是单纯减去转移性支出吗?
A:因为CFPS的问卷设计跟国统局的有所不同,我们认为得出口径上完全一致的“可支配收入”比较困难。除了你说的转移净收入,CFPS的财产性收入与可支配收入中的“财产性收入”也有所不同,我们的综合变量计算中不包括“银行存款和有价证券等资产获得的收入”。CFPS的问卷和计算方法都在项目网站上可以查询到。建议您根据自己的研究需要构建尽可能可比的指标。
Q:我发现2012 年家庭总消费数据有2068个missing value而其他年份只有 600 左右,可否帮忙查一下是否有错误?为什么缺失值这么多。而且2012年数据中这一个值的描述是 “家庭总支出”,其他年份是“去年家庭总支出”。因为需要这个数据进行验证,麻烦请查一下。
A:缺失值比例的差别与这个综合变量在不同年间的计算方法有一定关系。2014年开始问卷设计的支出部分与前些年份有所不同。2012年只有分项支出,要算总支出只能采用加总的形式,我们数据集中的总支出也是这样计算出来。而2014年开始,问卷中不仅包括分项支出,还包括一个单独的总支出问题,在分项支出有缺失值时综合变量中采用了总支出,这会导致缺失值比例在不同年份有所不同。如果你需要较为一致的比例,可以自己根据问卷数据生成一版自己计算的总支出,在各年间算法保持一致。
Q:我注意到在2018年数据中,有fincperadj_p这个变量,根据描述,其反应的是家庭人均收入的分位数。我阅读了相关的用户手册,用户手册中没有注明这个分位数是定义在哪个范围的。比如25%以上,是指全国25%还是全省25%还是community的25%?此外,我想要的是每个样本在community level的收入分位。除了申请限制数据以外,有没有其他途径可以获取?
A:是全国的分位数。CFPS除了在五个大省具有自代表性外,在其他省份没有代表性,在社区层级也不具有代表性。需要的话请根据具体的研究需要谨慎处理。
Q:您好,请问是否提供了调查记录的原始数据下载?在对人口贫困程度度量时需要一定量单个个体的具体数据,我具体需要的的是农村家庭收入的个体信息,需要的是微观数据。
A:个人收入请在个人库(成人库、少儿库)中查找,但需注意个人收入主要针对工资性收入,而对于经营性、财产性收入等无法精确匹配到个人身上的是没有涵盖的。
缺失值相关
Q:在问卷初始加载是否为党员题(party),后续有是否为党员题(qn4001),其中qn4001中的【不适用】为2560,而在party题中【是】为2560,该题的设计可否理解成,2560为调查初始的党员数,最终党员数为qn4001中回答【是】的人加上2560?
A:涉及到-8的数据一般关系到问卷中设计的逻辑跳转,请仔细阅读问卷,此题的问卷内容如下:
【CAPI】 #1 party=1,跳至 N4004;#2 age<18,跳至 N4002;#3 其他情况,继续提问 N4001。
N4001 QN4001 "是否是党员"“【CAPI】加载你/您”是否是中国共产党党员?
前面的【CAPI】部分是指如果受访者在往轮调查中已经汇报为党员、以及不满18岁,则不会被提问这道题目。想综合得出哪些个体是党员可以结合当期回答和加载变量(party),尽量不要直接使用-8,因为-8的来源可能多样。
Q:CFPS2018公开数据变量iintervy的label是“最近一次调查个人自答长卷完访年”。我看了下变量值,怎么从2010年到2017年都有。其中,2016年最多,有23479条记录。调查说明上说目标样本规模为16000户,即使全部是2+1家庭,两万多的记录也太少了。
A:iintervy是一个加载变量,记录了受访者最近一次接受调查的年份,正如你所看见的,在2010-2017年都有,大部分受访者是在最近一个调查年份我们成功采访到的,其他是最近一个年份没有采访到但更早的年份采访到的。这个数目是否合理需要考虑几个因素:1. 16000户是2010年基线调查的目标家户样本数,实际样本数没有达到这个数目,在2018年调查时我们成功访问的家庭在14000户左右;2. 成功访问的家庭中包括成人和孩子,个人自答样本中不包括10岁以下的只有家长代答的个体样本。
Q:CFPS中关于民族问题的信息采集,如果在2016年未回答该问题,会在CFPS中的qa701题显示新增回答,往年回答显示为【不适用】;我查看了2016年cfps的民族问题回答,显示的也是新增回答,这样是否意味着要获得2018年的人口民族信息,需要不断从往年回答中合并相同ID?最后,想请问您那里是否有2018的人口民族汇总信息?如果有,能否烦请提供?
A:对于2018年之前采集的民族信息,你可以去2016年跨年核心变量库crossyearid中去提取,我们已经帮用户整理好了历年采集的信息。当然,你也可以自己根据所有之前的数据自行整理。
地址相关
Q:我想分析某部分群体的居住地和户口所在地情况,请问在成人问卷数据库中provcd16(2016年省国标码)是现在居住地吧?那么受访者的户口所在地该从哪个变量直接看到呢(还是只能从pa301-302来综合分析呢)?
A:2016年开始对于户口没有变化的人,没有询问户口所在地与居住地的关系。但2014年及之前年份是问所有人户口所在地与居住地的关系的。所以2014年及之前年份,可以较为直接的获取户籍地址相关信息。2016年户口没有变化的人,如果2014年成功访问到,可以追溯到2014年,如果2014年没有访问到,那就要继续回溯到更上一轮。以2014年为例,问卷中QA302"现在的户口所在地"这道题,如果回答选项123,那么户口所在地的区县信息就是当轮数据中的居住地countyid。14年及往轮,如果户口所在地变更了,需要注明变更的地址。但是变更的地址,目前公布到省份,没有公布区县信息,后续会陆续添加区县层面信息。
Q:我在贵项目2016年少儿数据库(数据名称为cfps2016child_201709.dta)时,不知道如何确定少儿问卷中“辅导孩子作业”的人(问卷中代码为WF4)与“辅导孩子作业时长”(问卷中代码为WF401)之间应该如何进行匹配。在少儿数据库中表示“辅导孩子作业”的人的变量有5个,依次从wf4_s_1至wf4_s_5;表示“辅导孩子作业时长”的变量有13个,依次为wf401_a_1至wf401_a_12,wf401_a_31。
A:wf4_s_i代表辅导人的pid,其中i与受访者人选择的顺序有关,受访者报的第一位辅导人员pid则在wf4_s_1中,以此类推。而wf401_a_i则是根据家庭成员列表PID_A_N中N的位置,譬如WF401_A_2对应的是该样本家庭成员中PID_A_2这个人辅导孩子作业的时长。所以如果你想知道100021103这个pid辅导作业时长的话,需要看这个在pid_a_n中的相应位置,然后找到相应的wf401_a_i。目前的设置用起来对于用户来说确实有一定难度,我们计划在下轮更新时将401系列变量进行调整,让其与wf4_s系列变量一一对应。非常感谢你的反馈。
跨库链接相关
Q:目前在处理CFPS2016数据时遇到难题,请问如何能将儿童数据和家长基本情况(如父母的认知测试分数)逐一匹配起来?
A: CFPS2016的家庭关系库中有每一位家庭成员父母的pid,父亲为pid_f,母亲为pid_m,根据这些作为变量作为链接变量,到成人库中寻找相应样本,如果存在则可以提取相应样本的对应变量。
Q:请问新发布的cfps2018childproxy_201912数据库和cfps2018person_201911在样本上是否有重合?如有,我想统计两库中“过去12个月课外辅导费(元)”这一问题(两库的变量名分别为“wd503r”和“pd503r”)的总和数,如何才能做到样本不重叠?
A:cfps2018childproxy_201912数据集中包括0-15岁少儿家长的回答,cfps2018person_201911数据集中包括10岁以上所有个体的自答,所以两个数据集中10-15岁的样本会有重复部分。但注意两套问卷的回答人不同,前者为家长,后者为自答,而且在这个问题上原则上不会出现重复回答,遇到的极个别重复回答样本我们建议采用自答问卷中的回答。
其他相关
Q:我在贵项目2016年少儿数据库(数据名称为cfps2016child_201709.dta)时,不知道如何确定少儿问卷中“辅导孩子作业”的人(问卷中代码为WF4)与“辅导孩子作业时长”(问卷中代码为WF401)之间应该如何进行匹配。在少儿数据库中表示“辅导孩子作业”的人的变量有5个,依次从wf4_s_1至wf4_s_5;表示“辅导孩子作业时长”的变量有13个,依次为wf401_a_1至wf401_a_12,wf401_a_31。
A:wf4_s_i代表辅导人的pid,其中i与受访者人选择的顺序有关,受访者报的第一位辅导人员pid则在wf4_s_1中,以此类推。而wf401_a_i则是根据家庭成员列表PID_A_N中N的位置,譬如WF401_A_2对应的是该样本家庭成员中PID_A_2这个人辅导孩子作业的时长。所以如果你想知道100021103这个pid辅导作业时长的话,需要看这个在pid_a_n中的相应位置,然后找到相应的wf401_a_i。目前的设置用起来对于用户来说确实有一定难度,我们计划在下轮更新时将401系列变量进行调整,让其与wf4_s系列变量一一对应。非常感谢你的反馈。
Q:请问在成人数据库中,关于最高学历为“高中/中专/技校/职高”,有进一步细分吗?我看到在教育史中有变量描述“上哪类高中”,但是这一数据不全,有很多最高学历为高中阶段的个体,在“上哪类高中”显示为“不适用”。请问怎样操作才能对最高学历为高中阶段的进行细分呢?具体分成普高、职高、中专、技校。
A:最高学历是一个综合变量,它的信息可以来自于往期调查数据也可能来自当期调查数据。譬如针对一位我们在往期调查中已经采集过教育信息的老人,我们在当轮次调查中不会再重复采集其教育信息。而教育史“上哪类高中”的信息只针对今年新采集学历相关信息的受访者也有有效值。如果你想知道其他样本的学校类型,你可以尝试在其他期数据中提取。
Q:正式版数据中是否有关于被试所在学校科类的信息呢,以大学为例,师范类、农林类、综合类、军事类、地质类等?
A:正式版中被包括学校分类信息(譬如重点院校、普通院校),学校的分类中不体现学科信息。
Q:关于个人问卷中工作状态的确认方面的数据,想确认下是不是产假期间的妇女仍然算作有工作?看到问卷中有关于临时假期和在确定时间返回工作岗位的问题设置。但这种划定似乎不包含从事农业生产的妇女(因为她们没有名义上的产假)?
A:在我们的综合变量employ中你所提及的情况是算作“有工作”的,不属于另外两类(“没有工作”或“不在劳动力市场“)人员。
Q:在qn201_b_1到qn202题,有跳转条件为u201!=1,这个条件该如何理解?
A:!=的意思是不等于,也就是当U201不等于时。
请您关注CFPS公众号,阅读更多CFPS小课堂:ISSS_CFPS两周前CFPS通过微信平台推出了小课堂之数据使用Q&A系列的第一期,后台收到了很多小伙伴们的反馈。小编非常感谢大家的积极参与!本次推送将继续分享过去一到两周用户们具有代表性的问题以及我们的回答,供大家参考。另外为了方便大家检索,我们还将所有整理的问题都统一放到我们的项目网站上,并会不断更新(点击“阅读原文”直达该页面)。如果这种方式对您有所帮助,欢迎您留言让我们看到。