_中国家庭追踪调查

当前位置：首页 > 常见问题 > 跨库链接

栏目导航

Q:目前在处理CFPS2016数据时遇到难题，请问如何能将儿童数据和家长基本情况（如父母的认知测试分

数）逐一匹配起来？

A:CFPS2016的家庭关系库中有每一位家庭成员父母的pid,父亲为pid_f,母亲为pid_m,根据这些作为变量作

为链接变量，到成人库中寻找相应样本，如果存在则可以提取相应样本的对应变量。

Q:请问新发布的cfps2018childproxy_201912数据库和cfps2018person_201911在样本上是否有重

合？如有，我想统计两库中“过去12个月课外辅导费(元)”这一问题（两库的变量名分别

为“wd503r”和“pd503r”）的总和数，如何才能做到样本不重叠？

A:cfps2018childproxy_201912数据集中包括0-15岁少儿家长的回答，cfps2018person_201911数据

集中包括10岁以上所有个体的自答，所以两个数据集中10-15岁的样本会有重复部分。但注意两套问卷的

回答人不同，前者为家长，后者为自答，而且在这个问题上原则上不会出现重复回答，遇到的极个别重复

回答样本我们建议采用自答问卷中的回答。

Q:做纵贯性分析(longitudinal analysis),如何匹配个人？

A:CFPS中的个人id变量(pid)为永久唯一标识码，跨年数据分析中可以通过此变量来连接匹配个人样本。

Q:请问2018年CFPS更新数据库cfps2018childproxy_201912和cfps2018persony_202001中，

pid有重合的样本吗？与2010-2016年数据库名称相比，第一个childproxy是child少儿库吗，第二个

persony是adult库吗？在这两个数据库中都没有看到父母亲样本编码（pid_f和pid_m ）,后续数据库

会更新父母亲样本编码吗？

A:cfps2018childproxy_201912数据集中包括0-15岁少儿家长的回答，cfps2018person_201911数

据集中包括10岁以上所有个体的自答，所以两个数据集中10-15岁的样本会有重复部分。但注意两套问

卷的回答人不同，前者为家长，后者为自答，而且在这个问题上原则上不会出现重复回答，遇到的极个

别重复回答样本我们建议采用自答问卷中的回答。另，父母亲样本编码（pid_f和pid_m ）为家庭关系

库的变量，项目组将于今年夏季公布家庭关系库。

Q:家庭层面数据和个人层面数据没有统一的ID信息，例如家庭层面数据对户主进行的调查，个人层面

也有“是否为户主”的选项，这样就能进行统一的合并。家庭层面数据：数据说明中表示家庭层面数据

由家庭中的一位成员回答，那么这个成员是家庭中的任意成员吗？还是每个家庭都是采取的统一标准的

人员，例如户主，这个问题不是太清楚。

A:当你需要把家庭层面和个人层面数据合并的时候，你需要先明确你自己的研究目标和与此目标相应对

的分析单元。如果你的分析是要在家庭层面进行，最终的分析对象是一个个家庭，然后同时需要家庭中

的一个代表（譬如户主）信息，这时候你整合家庭和个人层面的数据需要依赖的链接变量是家户号，以

2016年数据为例，家户号fid16在家庭库中，同时也存在于个人库中，你可以在merge时将这个变量设

置为链接时的匹配变量。至于在个人层面如何选择这个“代表”，跟你的研究主题直接相关。如果你感兴

趣户主，请查看我们的微信推送文。

Q:CFPS数据如何实现夫妻配对呢，在一个样本中知道夫妻双方的收入情况？

A:夫妻配对数据需要借助到家庭关系库，上面针对每一个成员有pid_s（配偶）的pid，根据这个pid到个

人问卷中链接，链接成功时可以提取配偶的个人收入变量。

上一篇：下面没有链接了