_中国家庭追踪调查

当前位置：首页 > 常见问题 > 数据使用

栏目导航

注册及下载
数据使用
CFPS小课堂

权重

来源：时间：2022-03-29 11:06阅读：

Q: 您好！请问一下，抽样权数的设置中Finite population correction (FPC)应该怎么设置啊？对这三

阶段的抽样对应的fpc分别是哪一个变量呢？

A: 抽样样本量占样本总体比例很小，接近于0，FPC接近于1，可以不用考虑。

Q:鉴于CFPS是多阶段抽样，权数设置上除了PSU应该还有SSU？但是在2010年的、对stata的数据中,

我只找到了psu没有找到ssu，请问应该在哪里找这个数据？

A: SSU是村居号cid。

Q: 学生最近在使用CFPS2018年的数据过程中，发现数据库中缺少样本权数变量，请问如何能获取到

2018年横截面权数呢？

A: 当前发布的为CFPS2018的测试版本，在正式版本发布时会包括权数，预计在今年夏季。

Q: 我注意到数据包中提供了权重变量，rswt_natcs14和rswt_rescs14。这个权重在stata中是指的

哪一类weight？是pweight吗？

A: 关于权数的stata操作，请参考以前我们用户培训会的文档，供参考。

http://www.isss.pku.edu.cn/cfps/attachments/8e4cd41179154db491b22f62d954c076.pdf

Q:2010数据库中两个权重fswt_nat和fswt_res分别是在什么情况下使用呢？

A:2010年的数据中，fswt_nat适用于CFPS所有样本，当使用CFPS2010年全库的观测时可用。Fswt_Res

只适用于CFPS全国再抽样样本，使用时要通过 subsample=1提取观测后，基于提取的数据使用。【注：

关于CFPS总样本和全国再抽样样本的说明，可参考CFPS用户手册。】

Q:如果既可以通过基于全库的总样本加上与之配套的权数推断全国情况，也可以通过再抽样样本加上与之

配套的再抽样权数推断全国情况，这两个方案有什么不同？哪个更值得推荐？

A:有效样本量不同，推荐使用全库。

Q:CFPS中的STRATA和PSU分别是什么?

A:Strata是CFPS的六个抽样框，由subpopulation标识。PSU是区县（其中上海是街道乡镇），在基线数

据库中由PSU变量标识。

Q:少儿库和成人库合并的样本，是否应该用各自库的权数？

A:是的。

Q:回归中使用的样本是在原始数据的基础上删减后得到的，那么CFPS原始数据中的权数是否还适用呢？

A:如果缺失量较少，针对缺失值进行处理，不影响权数使用。如果缺失量较多，但样本量足够，可以针对

某些变量做加权调整；如果样本量本身不足以分析，则不推荐使用该样本。

Q:我想研究家庭层面的收入情况，应该用哪个权数？

A:如果研究特定调查年全国家庭收入（譬如2014年家庭纯收入），应该用特定调查年（2014年）的横截

面权数。如果研究对象是不同调查年全国家庭纯收入的总体变化情况（譬如2014年家庭纯收入比2012年

家庭纯收入增加多少），应该分别用两个调查年的样本配合上当年的横截面权数。如果研究对象是同一批

家庭在不同年份的家庭纯收入变化情况，则应该运用家庭层面的追踪权数。

Q:每年的横截面权数有什么不同？

A:如果研究者需要针对特定年的代表性样本，可选用相应年的横截面权数。每年的横截面权数构建过程

中，除了考虑到基线抽样时的设计权数，还会考虑到追踪调查时的流失风险。

Q:每年的面板权数有什么不同？

A:每年的面板权数对应当年的完成情况，具体构建方法可参考CFPS用户手册。

Q:为什么CFPS2014少儿库有很多孩子的权数缺失呢？

A:目前CFPS的权数只针对基因成员，非基因成员没有。

Q:在使用2010年数据时，技术报告中提供了相应的权数，数据库也包含了权数变量，这是不是已经全部

包含了抽样设计权数、无回答调整权数、事后分层调整权数和极端值调整？在描述性分析和进一步统计分

析前，通过stata svyset调整权数后，结果即具有全国代表性？

A:是的。

Q:事后分层调整通过性别、年龄、城乡变量进行权数计算，但是在2010手册中提到，初步结果显示受教育

程度、婚姻状态也与普查结果有差异，受教育水平T1表结果与10年普查分布相近，但个人问卷与T1表相

比学历水平偏低，个人数据库中生成了教育的综合变量educ；婚姻状况在个人库中有最佳变量，那么经过

权数调整之后，是不是受教育程度、婚姻状况与调整前相比也具有全国代表性、更加精确？我们不需要再

进一步调整？

A:权数调整关注了性别、城乡、年龄，受教育程度、婚姻状况可以与六普数据对比一下，具体以数据为

准。

Q:在2016的数据培训中，关于权数使用问题的讲座中讲到，使用全国样本，一定要加权，使用全国再抽样

样本，可以不加权。但是在几篇已经发表的使用CFPS数据的论文中，有些作者直接使用全国样本而没有进

行加权处理。这种做法是否是不准确的？

A:当权数尚未发布时，可以使用不加权的再抽样样本。当权数发布后，最好使用权数。至于对于结果有多

大程度的影响，需要看具体的研究问题进行加权和不加权的比对。

Q:权数是否具有地区或省份代表性？模型中只使用一个或二个大省的样本，还要加权吗？

A:CFPS除了全国代表性样本外，另有五个省级代表性样本，可通过subpopulation这个变量进行识别。

这五个省级代表性样本可以配合总样本权数（变量名中有_nat）使用。

Q:我整理出了消费者金融相关数据，想通过这个数据推断全国各省消费者的情况。这时候，是否只能推断

出CFPS数据库的几个代表性子总体？

A:如果想推断全国的情况，则使用全国的数据和相应权重。省级代表性只对CFPS抽样设计中设置的五个大

省可行，通过subpopulation提取相应子样本的观测后再配合相应权重使用。

Q:如果想比较东、中、西部地区等应该如何使用权数?

A:正常使用权数分析就好。

Q:在什么情况下需要用到权重? 权数是否在做描述统计时才用到，而回归时就不需要用了？

A:模型是否使用权数，有争议，但是建议使用。

Q:假如我想使用多期的追踪数据（譬如2010到2014年的数据），我该怎么使用权数？是2014年的追踪

权数吗？还是三年的权数都要使用？

A:应该多期数据都使用2014年追踪权数rswt_natpn1014。

Q:CFPS2014年的截面权数的全国再抽样样本权数有缺失值，我的理解是缺失值就是没有被选中全国再抽

样样本，所以是缺失值。但是好像此缺失值与“是否是全国再抽样样本”（变量名好像是

subsample14）的那个变量并不一致。那么为了使我的回归模型结果具有全国代表性，那么为了使我的

回归模型结果具有全国代表性，我应该怎么做？我之前的做法是先keep变量subsample14为1的样本，

然后加权做回归，请问这样做对吗？

A:使用再抽样权数时请用subsample10来提取相应样本。Subsample14没有相应权数。

Q:若仅做农村或城市的样本，此时的权数该如何使用？

A:一般情况下可以直接使用权数。

Q:CFPS是否有村居层面的权数？

A:没有。

Q: 我阅读了关于权数的培训材料，非常有帮助。但是我仅在2010年的数据集中看到了psu这个变量，以

后年度均没有这个变量。如果我用2014年的横截面数据，这个是需要我自己去把2010的psu合并进以后

年度吗？psu是根据所在省份确定的吗？如果我不输入psu这个变量，会有什么影响吗？

A: PSU是由样本在基线所在的家户确定的，因此对于2014年的样本，在2014年数据集中找到他们的

fid10，然后在2010年数据中找到该家户对应的PSU即可。

Q: 现在想把10、12、14和16的数据做成混合截面。我的问题是，在对数据进行描述性统计和回归分析

的时候，需要按照个体权重变量”rswt_nat“加权。为什么只有10和14年的数据有权重变量

rswt_nat，其他年份的没有呢？如果要加权，12和16年的个体权重变量在哪里呢？

A: 我们每轮正式发布的数据都包含有权数，而且从2012年开始，包含有截面权数和追踪权数。以2016年

个人库为例，我们有四个权数变量： rswt_natcs16 rswt_rescs16 rswt_natpn1016 rswt_respn1016

Q：想请教下因为12.14.16年都有些个体是没有权重的，这种情况下做回归时这些个体会被自动作为缺失

值，这个问题该如何处理？

A：CFPS只有基因成员赋予了权重，如果使用的是加权的分析，只有基因成员是有效样本。

项目组的工作人员，您好！之前有人在使用多期追踪数据时询问如何使用权数，您给出的解答中，

多期数据都是使用2014年追踪权数rswt_natpn1014，对此我有些疑问。

Q: 这种情况是对于多期混合，横截面数据也适用嘛，不过不适用混合横截面数据的权数应如何使用？

A: CFPS如果是多轮次数据放在一起分析，并非混合横截面数据，混合横截面数据要求这些样本在跨年

度中并不重复并相互独立，CFPS是一个追踪调查，样本在跨年间有很大的重复，不满足混合横截面数

据的条件。

Q: 多期数据都使用2014年追踪权数，是指需要把2014年的追踪权数匹配到前几年的样本中嘛？那如

果前几年的样本没有接受2014年的调查，这样的样本的权数应如何取呢？

A: 对，需要把2014年追踪权数运用到之前的轮次。面板权数只针对在各个轮次都有有效样本的观测才

存在，所以你说的情况是没有有效的面板追踪权数的。

Q: 以2016年为例,请问我这样的理解是对的吗？rswt_natcs16和rswt_natpn1016有值的是全体基因

成员，rswt_rescs16和rswt_respn1016有值的是基因成员中2010年再抽样样本。

A: rswt_natcs16对于2016年所有基因成员有值；rswt_natpn1016对于2010-2016年全部成功访问

的基因成员有值。同理，rswt_rescs16和rswt_respn1016 也是如此。

Q: 我使用2010-2018年的家庭人均收入这个综合变量，每一年的横截面权重是直接乘以家庭人均

收入吗，权重都很大？

A: 2010-2016年的权重都是总量权重，加权后的总样本量近似于全国家庭或人口数；但2018年我们改用

了标准化权数，具体可以查看2018年数据清理技术报告：

http://www.isss.pku.edu.cn/cfps/docs/20210802130405399192.pdf

Q: 我目前在使用CFPS2014-2018的数据，准备合成面板数据。但是我在家庭库中未能在CFPS2018

中找到对应面板数据的权数，只找到截面（全国）权数fswt_natcs18n。故想请教一下1）是否有

2018家庭库中的面板权数？2）如果没有的话，应该使用哪个权数？非常感谢您的帮助！

A: CFPS2018家庭库确实取消了面板权数，相关情况请您阅读如下技术报告的P16-17.

http://www.isss.pku.edu.cn/cfps/docs/20210802130405399192.pdf

上一篇：缺失值

下一篇：其他