Q&A
来源:时间:2022-05-12 02:41阅读:
Q:目前在处理CFPS2016数据时遇到难题,请问如何能将儿童数据和家长基本情况(如父母的认知测试分
数)逐一匹配起来?
A:CFPS2016的家庭关系库中有每一位家庭成员父母的pid,父亲为pid_f,母亲为pid_m,根据这些作为变量作
为链接变量,到成人库中寻找相应样本,如果存在则可以提取相应样本的对应变量。
Q:请问新发布的cfps2018childproxy_201912数据库和cfps2018person_201911在样本上是否有重
合?如有,我想统计两库中“过去12个月课外辅导费(元)”这一问题(两库的变量名分别
为“wd503r”和“pd503r”)的总和数,如何才能做到样本不重叠?
A:cfps2018childproxy_201912数据集中包括0-15岁少儿家长的回答,cfps2018person_201911数据
集中包括10岁以上所有个体的自答,所以两个数据集中10-15岁的样本会有重复部分。但注意两套问卷的
回答人不同,前者为家长,后者为自答,而且在这个问题上原则上不会出现重复回答,遇到的极个别重复
回答样本我们建议采用自答问卷中的回答。
Q:做纵贯性分析(longitudinal analysis),如何匹配个人?
A:CFPS中的个人id变量(pid)为永久唯一标识码,跨年数据分析中可以通过此变量来连接匹配个人样本。
Q:请问2018年CFPS更新数据库cfps2018childproxy_201912和cfps2018persony_202001中,
pid有重合的样本吗?与2010-2016年数据库名称相比,第一个childproxy是child少儿库吗,第二个
persony是adult库吗?在这两个数据库中都没有看到父母亲样本编码(pid_f和pid_m ),后续数据库
会更新父母亲样本编码吗?
A:cfps2018childproxy_201912数据集中包括0-15岁少儿家长的回答,cfps2018person_201911数
据集中包括10岁以上所有个体的自答,所以两个数据集中10-15岁的样本会有重复部分。但注意两套问
卷的回答人不同,前者为家长,后者为自答,而且在这个问题上原则上不会出现重复回答,遇到的极个
别重复回答样本我们建议采用自答问卷中的回答。另,父母亲样本编码(pid_f和pid_m )为家庭关系
库的变量,项目组将于今年夏季公布家庭关系库。
Q:家庭层面数据和个人层面数据没有统一的ID信息,例如家庭层面数据对户主进行的调查,个人层面
也有“是否为户主”的选项,这样就能进行统一的合并。家庭层面数据:数据说明中表示家庭层面数据
由家庭中的一位成员回答,那么这个成员是家庭中的任意成员吗?还是每个家庭都是采取的统一标准的
人员,例如户主,这个问题不是太清楚。
A:当你需要把家庭层面和个人层面数据合并的时候,你需要先明确你自己的研究目标和与此目标相应对
的分析单元。如果你的分析是要在家庭层面进行,最终的分析对象是一个个家庭,然后同时需要家庭中
的一个代表(譬如户主)信息,这时候你整合家庭和个人层面的数据需要依赖的链接变量是家户号,以
2016年数据为例,家户号fid16在家庭库中,同时也存在于个人库中,你可以在merge时将这个变量设
置为链接时的匹配变量。至于在个人层面如何选择这个“代表”,跟你的研究主题直接相关。如果你感兴
趣户主,请查看我们的微信推送文。
https://mp.weixin.qq.com/s/ERvMsMaWVLGIbVG0FzbpMw
Q:CFPS数据如何实现夫妻配对呢,在一个样本中知道夫妻双方的收入情况?
A:夫妻配对数据需要借助到家庭关系库,上面针对每一个成员有pid_s(配偶)的pid,根据这个pid到个
人问卷中链接,链接成功时可以提取配偶的个人收入变量。
上一篇: 下面没有链接了