当前位置: 首页 > 常见问题 > 权重

CFPS小课堂 | 权数使用Q&A

来源:时间:2022-05-12 04:36阅读:

Q:2010数据库中两个权重fswt_nat和fswt_res分别是在什么情况下使用呢?

A:2010年的数据中,fswt_nat适用于CFPS所有样本,当使用CFPS2010年全库的观测时可用。Fswt_Res

只适用于CFPS全国再抽样样本,使用时要通过 subsample=1提取观测后,基于提取的数据使用。【注:

关于CFPS总样本和全国再抽样样本的说明,可参考CFPS用户手册。】

 

Q:如果既可以通过基于全库的总样本加上与之配套的权数推断全国情况,也可以通过再抽样样本加上与之

套的再抽样权数推断全国情况,这两个方案有什么不同?哪个更值得推荐?

A:有效样本量不同,推荐使用全库。

 

Q:CFPS中的STRATA和PSU分别是什么?

A:Strata是CFPS的六个抽样框,由subpopulation标识。PSU是区县(其中上海是街道乡镇),在基线数

据库中由PSU变量标识。

 

Q:少儿库和成人库合并的样本,是否应该用各自库的权数?

A:是的。

 

Q:为何2010年的fswt_res(个人权重(全国再抽样样本/整合样本))值为missing?

A:fswt_res只对subsample=1的人有正值。权数可以有两种运用方式:1.用全样本,采用全国权数

(fswt_nat);2.用再抽样样本。

 

Q:回归中使用的样本是在原始数据的基础上删减后得到的,那么CFPS原始数据中的权数是否还适用呢?

A:如果缺失量较少,针对缺失值进行处理,不影响权数使用。如果缺失量较多,但样本量足够,可以针对

某些变量做加权调整; 如果样本量本身不足以分析,则不推荐使用该样本。

 

Q:我想研究家庭层面的收入情况,应该用哪个权数?

A:如果研究特定调查年全国家庭收入(譬如2014年家庭纯收入),应该用特定调查年(2014年)的横截

面权数。如果研究对象是不同调查年全国家庭纯收入的总体变化情况(譬如2014年家庭纯收入比2012年

家庭纯收入增加多少),应该分别用两个调查年的样本配合上当年的横截面权数。如果研究对象是同一批

家庭在不同年份的家庭纯收入变化情况,则应该运用家庭层面的追踪权数。

 

Q:每年的横截面权数有什么不同?

A:如果研究者需要针对特定年的代表性样本,可选用相应年的横截面权数。每年的横截面权数构建过程

中,除了考虑到基线抽样时的设计权数,还会考虑到追踪调查时的流失风险。

 

Q:每年的面板权数有什么不同?

A:每年的面板权数对应当年的完成情况,具体构建方法可参考CFPS用户手册。

 

Q:为什么CFPS2014少儿库有很多孩子的权数缺失呢?

A:目前CFPS的权数只针对基因成员,非基因成员没有。

 

Q:在使用2010年数据时,技术报告中提供了相应的权数,数据库也包含了权数变量,这是不是已经全部

含了抽样设计权数 、无回答调整权数、事后分层调整权数和极端值调整?在描述性分析和进一步统计分

前,通过stata svyset调整权数后,结果即具有全国代表性?

A:是的。

 

Q:事后分层调整通过性别、年龄、城乡变量进行权数计算,但是在2010手册中提到,初步结果显示受教育

程度、婚姻状态也与普查结果有差异,受教育水平T1表结果与10年普查分布相近,但个人问卷与T1表相

学历水平偏低,个人数据库中生成了教育的综合变量educ;婚姻状况在个人库中有最佳变量,那么经过

数调整之后,是不是受教育程度、婚姻状况与调整前相比也具有全国代表性、更加精确?我们不需要再

步调整?

A:权数调整关注了性别、城乡、年龄,受教育程度、婚姻状况可以与六普数据对比一下,具体以数据为

准。

 

Q:在2016的数据培训中,关于权数使用问题的讲座中讲到,使用全国样本,一定要加权,使用全国再抽样

样本,可以不加权。但是在几篇已经发表的使用CFPS数据的论文中,有些作者直接使用全国样本而没有进

行加权处理。这种做法是否是不准确的?

A:当权数尚未发布时,可以使用不加权的再抽样样本。当权数发布后,最好使用权数。至于对于结果有多

大程度的影响,需要看具体的研究问题进行加权和不加权的比对。

 

Q:权数是否具有地区或省份代表性?模型中只使用一个或二个大省的样本,还要加权吗?

A:CFPS除了全国代表性样本外,另有五个省级代表性样本,可通过subpopulation这个变量进行识别。

这五个省级代表性样本可以配合总样本权数(变量名中有_nat)使用。

 

Q:我整理出了消费者金融相关数据,想通过这个数据推断全国各省消费者的情况。这时候,是否只能推断

CFPS数据库的几个代表性子总体?

A:如果想推断全国的情况,则使用全国的数据和相应权重。省级代表性只对CFPS抽样设计中设置的五个大

省可行,通过subpopulation提取相应子样本的观测后再配合相应权重使用。

 

Q:如果想比较东、中、西部地区等应该如何使用权数?

A:正常使用权数分析就好。

 

Q:在什么情况下需要用到权重? 权数是否在做描述统计时才用到,而回归时就不需要用了?

A:模型是否使用权数,有争议,但是建议使用。

 

Q:假如我想使用多期的追踪数据(譬如2010到2014年的数据),我该怎么使用权数?是2014年的追踪

数吗?还是三年的权数都要使用?

A:应该多期数据都使用2014年追踪权数rswt_natpn1014。

 

Q:CFPS2014年的截面权数的全国再抽样样本权数有缺失值,我的理解是缺失值就是没有被选中全国再抽

样本,所以是缺失值。但是好像此缺失值与“是否是全国再抽样样本”(变量名好像是

subsample14)那个变量并不一致。那么为了使我的回归模型结果具有全国代表性,那么为了使我的

归模型结果具有代表性,我应该怎么做?我之前的做法是先keep变量subsample14为1的样本,

然后加权做回归,请问样做对吗?

A:使用再抽样权数时请用subsample10来提取相应样本。Subsample14没有相应权数。

 

Q:若仅做农村或城市的样本,此时的权数该如何使用?

A:一般情况下可以直接使用权数。

 

Q:CFPS是否有村居层面的权数?

A:没有。

 

 

参考文献:

 

cfps-17 中国家庭追踪调查2010年基线调查权数计算

http://isss.pku.edu.cn/cfps/docs/20180927133331240819.pdf

 

CFPS用户手册(第三版)

http://isss.pku.edu.cn/cfps/docs/20200315092524928116.pdf

 

Xie,Yu;Lu,Ping (2015) The sampling design of the China family panel studies (CFPS)

http://chs.sagepub.com/content/1/4/471.short

 

CFPS2014权数使用简单说明

http://isss.pku.edu.cn/cfps/docs/20200312175438755569.pd

 

CFPS权数使用常见问题 

http://www.isss.pku.edu.cn/cfps/attachments/8e4cd41179154db491b22f62d954c076.pdf

 

 

 

请您关注CFPS公众号,阅读更多CFPS小课堂:ISSS_CFPS

上一篇: Q&A

下一篇: 用户交流会资料分享 | CFPS权数使用常见问题