当前位置: 首页 > 常见问题 > 跨库链接

Q&A

来源:时间:2022-05-12 02:41阅读:

Q:目前在处理CFPS2016数据时遇到难题,请问如何能将儿童数据和家长基本情况(如父母的认知测试分

数)逐一匹配起来?

A:CFPS2016的家庭关系库中有每一位家庭成员父母的pid,父亲为pid_f,母亲为pid_m,根据这些作为变量作

为链接变量,到成人库中寻找相应样本,如果存在则可以提取相应样本的对应变量。

 

Q:请问新发布的cfps2018childproxy_201912数据库和cfps2018person_201911在样本上是否有重

合?如有,我想统计两库中“过去12个月课外辅导费(元)”这一问题(两库的变量名分别

为“wd503r”和“pd503r”)的总和数,如何才能做到样本不重叠?

A:cfps2018childproxy_201912数据集中包括0-15岁少儿家长的回答,cfps2018person_201911数据

集中包括10岁以上所有个体的自答,所以两个数据集中10-15岁的样本会有重复部分。但注意两套问卷的

回答人不同,前者为家长,后者为自答,而且在这个问题上原则上不会出现重复回答,遇到的极个别重复

回答样本我们建议采用自答问卷中的回答。

 

Q:做纵贯性分析(longitudinal analysis),如何匹配个人?

A:CFPS中的个人id变量(pid)为永久唯一标识码,跨年数据分析中可以通过此变量来连接匹配个人样本。

 

Q:请问2018CFPS更新数据库cfps2018childproxy_201912cfps2018persony_202001中,

pid有重合的样本吗?与2010-2016年数据库名称相比,第一个childproxychild少儿库吗,第二个

persony是adult库吗?在这两个数据库中都没有看到父母亲样本编码(pid_fpid_m ,后续数据库

会更新父母亲样本编码吗?

A:cfps2018childproxy_201912数据集中包括0-15岁少儿家长的回答,cfps2018person_201911数

据集中包括10岁以上所有个体的自答,所以两个数据集中10-15岁的样本会有重复部分。但注意两套问

卷的回答人不同,前者为家长,后者为自答,而且在这个问题上原则上不会出现重复回答,遇到的极个

别重复回答样本我们建议采用自答问卷中的回答。另,父母亲样本编码(pid_f和pid_m )为家庭关系

库的变量,项目组将于今年夏季公布家庭关系库。

 

Q:家庭层面数据和个人层面数据没有统一的ID信息,例如家庭层面数据对户主进行的调查,个人层面

也有“是否为户主的选项,这样就能进行统一的合并。家庭层面数据:数据说明中表示家庭层面数据

由家庭中的一位成员回答,那么这个成员是家庭中的任意成员吗?还是每个家庭都是采取的统一标准的

人员,例如户主,这个问题不是太清楚。

A:当你需要把家庭层面和个人层面数据合并的时候,你需要先明确你自己的研究目标和与此目标相应对

的分析单元。如果你的分析是要在家庭层面进行,最终的分析对象是一个个家庭,然后同时需要家庭中

的一个代表(譬如户主)信息,这时候你整合家庭和个人层面的数据需要依赖的链接变量是家户号,以

2016年数据为例,家户号fid16在家庭库中,同时也存在于个人库中,你可以在merge时将这个变量设

置为链接时的匹配变量。至于在个人层面如何选择这个“代表”,跟你的研究主题直接相关。如果你感兴

趣户主,请查看我们的微信推送文。

https://mp.weixin.qq.com/s/ERvMsMaWVLGIbVG0FzbpMw   

                                                             

Q:CFPS数据如何实现夫妻配对呢,在一个样本中知道夫妻双方的收入情况?

A:夫妻配对数据需要借助到家庭关系库,上面针对每一个成员有pid_s(配偶)的pid,根据这个pid到个

人问卷中链接,链接成功时可以提取配偶的个人收入变量。

上一篇: 下面没有链接了

下一篇: CFPS小课堂 | 还在为清理变量费神?试试综合变量