Q&A
来源:时间:2022-05-12 02:38阅读:
Q:CFPS中有关具体金额的题目,为何很多变量缺失?问卷中所提及的“逼近法”(unfolding)是如何
操作的?
A:为更多获取有效信息,在受访者不愿意给出具体金额时,采用逼近法提问。例如,当问及个人的总收入
时,题目中会显示字符串 “2500/5000/7500/12000/18000/27000/40000/60000/90000/140000/
210000/320000/480000”。在访问时,以 中点为标记(例子中为40000),中点左侧的提问方式
是“您的总收入是否低于XXXX”(此处XX代表的金额小于中点数值);中点右侧的提问方式是“您 的总
收入是否高于XX”(此处XX代表的金额大于中点数值)。
Q:CFPS的个人收入包括哪些调查内容?
A:CFPS个人收入的调查内容包括非经营性收入,经营收入,亲友资助,国家政府补贴救济。
Q:CFPS个人收入在哪种工作类型中存在?
A:不同类型(农业、 非农业、 受雇、自雇)的工作由于性质的不同,收入结构有差异。如,农业工作的收
入结构很少涉及到保险、福利、奖金、公积金等,而且通常以家庭为生产单位计算;而对于受雇工作,保
险、福利、奖金、公积金等则是收入结构的重要内容,且这些收入往往都是个人收入。
Q:CFPS的家庭收入包括哪些内容?
A:CFPS家庭收入是由五大类分项收入加总而成。分别是工资性收入、经营性收入、财产性收入、转移性
收入、其他收入。CFPS家庭收入精细分项请下载对应年份的调查问卷,仔细阅读。技术报告是一个非常
不错的选择。
Q:CFPS家庭总收入和纯收入的差别在哪里?
A:这两种收入计算方式的差别主要在于经营性收入:纯收入扣除了经营性收入的生产成本,只计算纯收
入或净收入,而总收入没有扣除成本。由于纯收入更能反映收入的流入量,从2012年起,我们就只构造
和公布家庭纯收入的综合变量。
Q:为什么只有2010年的家庭经济库中会看到调整后的收入和未调整的收入?
A:因为在2010年调查问卷中没有涉及到从事农业生产的家庭自家生产并由自家消费的农产品的价值,这
很可能导致研究者对落后地区或贫困家庭的收入估计过低——因为这些家庭农业生产的大部分产品是用于
自家消费,农产品商业化程度低。对此,我们根据提问的农产品(如水稻、小麦、猪、牛等)中未销售的
部分与国家统计局公布的价格计算了这些自家消费农产品的价值,调整了农业生产收入。同时,我们也保
留了受访人直接回答的农业收入,即未调整的收入。由于农业收入是构成经营性收入的一部分,因此经营
性收入也对应产生了调整后和未调整两个变量版本,最终反映到家庭总收入和纯收入上,就产生了调整后
的家庭总收入和未调整的家庭总收入、调整后的家庭纯收入和未调整的家庭纯收入。从2012年调查起,
CFPS的家庭经济问卷已将农业产品的自家消费部分纳入到了问卷中,并在构造农业收入综合变量时会纳
入这部分的价值,因此就不再需要上述特殊调整了。
具体内容可参考《中国家庭追踪调查2010年农村家庭收入的调整办法(CFPS-14)》。
Q:CFPS家庭经济库中收入部分从2012年起出现可比和不可比的情况,该怎么正确理解?
A:首先,在提问工资收入时,2010年没有提问在学阶段勤工俭学/实习/兼职收入和农业帮工收入,而
2012年包括这两项,因此可比收入中就没有加入勤工助学和农业帮工收入;其次,在提问非农经营收入
时,2010只提问了开办私营企业收入而没有提问个体工商户的收入,而2012年是把私营企业收入和个
体工商户收入合并提问,因此2012年与2010年的可比收入就不得不割舍掉不可比的整个非农经营收入
部分,只包括农业生产收入;然后,在转移收入上,2010年没有提问土地转租收入、奖学金收入等小项,
因此可比收入没有计入这些小项。财产性收入在2010和2012年基本可比,因此财产性收入的可比和不可
比变量取值一致。往后的家庭经济库收入部分也就存在与2010年可比和不可比了。
Q:什么时候用可比收入,什么时候用不可比收入呢?
A:如果你研究的是某个调查年份的截面收入,那我们推荐你用不可比收入,因为不可比收入囊括了该次
调查所有的家庭收入项目。而如果你做的是两个或多个年份的追踪研究,涉及不同轮次之间同一批家庭收
入的变化,我们推荐你使用可比收入,因为它排除了由于问卷提问内容不同而导致的收入变化。
Q:面对复杂的数据库该如何构造家庭收入的数据?
A:构造家庭收入变量主要基于家庭经济问卷数据,但在计算工资性收入时,我们使用了个人问卷工作共
用模块中回答工作收入和教育共用模块中勤工俭学/实习/兼职收入等。
Q:面对家庭经济库中多个收入变量该如何正确使用?
A:可以先从综合变量入手,在综合变量中,变量名带“_1”后缀的是指完整计算的家庭收入,而带
“_2”后缀的是指与2010年可比的家庭收入。此外,带“_adj”后缀的表示经过调整,但我们也保留了
根据原始数据生成的收入变量。用户可以自行选择是否采用我们的调整。
Q:CFPS家庭经济库的综合变量是怎么计算的?
A:在官网平台上有关于CFPS家庭经济库综合变量的整理说明。细心的用户可以在2010年(基线)数据文
档中找到这个文件(《2010年综合变量整理说明》),其中包括工资性收入、转移性收入、财产性收入、
其它收入等综合变量的计算公式和使用条件。
具体详情见http://isss.pku.edu.cn/cfps/wdzx/sjwd/index.htm
Q:关于家庭收入还要注意哪些细节?
A:家庭收入的提问时段。在2010年的提问时段是“去年”,2012年则改为 “过去一年”,所谓
“过去一年”并不等于“去年”,而是从调查时刻起往前推12个月,比如调查在8月进行,那么“过去一
年”是指从2013年8月到2014年8月。后来,为了进一步提醒访员和受访者收入的提问时段,2014年和
2016年的问卷明确改为 “过去12个月”。
Q:2010年家庭数据库中,常有“某项支出_调整”、“调整后的家庭收入”,其中的调整是指什么?
A:调整主要是指将农村家户自家消费部分折算成部分收入。具体的操作详见2010技术报告《CFPS-14:中
国家庭追踪调查2010年农村家庭收入的调整办法》。
Q:2010、2012年成人库中的个人收入,是否包括自雇者的经营收入?
A:2010年个人问卷的收入提问为 “去年,您个人的总收入(所有收入来源)大概是多少钱”。可以理解为
是包括了自雇者的经营收入的。2012年的个人收入是工资、奖金、各种福利、退休金、勤工助学金、奖学
金的总和。对于农民、做生意的人,没有问他们的个人收入(这部分收入在家庭问卷中已经问过了),但他
们占得比例较大,所以样本中个人收入的缺失较大。后者的相关收入会在家庭收入中体现,但考虑到无法
精确到个人层面,所以在个人收入这一部分没有体现这一部分的收入。Income是原始加总收,
income_adj是income变量中缺失的部分进行了估算。
Q:请问CFPS数据2012年的收入变量是sg418est吗?如果是,数据调整过物价没?如果没有,如何调整
物价?
A:收入变量建议使用我们的综合变量,个人和家庭层面的收入都有。详情请参考CFPS的用户手册中关于收
入综合变量的说明,详情请见http://www.isss.pku.edu.cn/cfps/wdzx/yhsc/index.htm
Q:近期我在使用CFPS收入综合变量时遇到了一个问题。因为我在分析过程中需要使用家庭可支配收入这一
变量,但CFPS提供的综合变量是家庭纯收入。《中国统计年鉴》界定的可支配收入包括工资性收入、经营
净收入、财产净收入和转移净收入,对比CFPS用户手册的介绍,似乎两者间的区别在于转移性收入的界定
上。想请教您的问题是,如何在CFPS家庭纯收入的基础上计算出家庭可支配收入呢,是单纯减去转移性支
出吗?
A:因为CFPS的问卷设计跟国统局的有所不同,我们认为得出口径上完全一致的“可支配收入”比较困难。
除了你说的转移净收入,CFPS的财产性收入与可支配收入中的“财产性收入”也有所不同,我们的综合变
量计算中不包括“银行存款和有价证券等资产获得的收入”。CFPS的问卷和计算方法都在项目网站上可以
查询到。建议您根据自己的研究需要构建尽可能可比的指标。
Q:我发现2012 年家庭总消费数据有2068个missing value而其他年份只有 600 左右,可否帮忙查一下
是否有错误?为什么缺失值这么多。而且2012年数据中这一个值的描述是 “家庭总支出”,其他年份是
“去年家庭总支出”。因为需要这个数据进行验证,麻烦请查一下。
A:缺失值比例的差别与这个综合变量在不同年间的计算方法有一定关系。2014年开始问卷设计的支出部分
与前些年份有所不同。2012年只有分项支出,要算总支出只能采用加总的形式,我们数据集中的总支出也
是这样计算出来。而2014年开始,问卷中不仅包括分项支出,还包括一个单独的总支出问题,在分项支出
有缺失值时综合变量中采用了总支出,这会导致缺失值比例在不同年份有所不同。如果你需要较为一致的
比例,可以自己根据问卷数据生成一版自己计算的总支出,在各年间算法保持一致。
Q:我注意到在2018年数据中,有fincperadj_p这个变量,根据描述,其反应的是家庭人均收入的分位
数。我阅读了相关的用户手册,用户手册中没有注明这个分位数是定义在哪个范围的。比如25%以上,
是指全国25%还是全省25%还是community的25%?此外,我想要的是每个样本在community level
的收入分位。除了申请限制数据以外,有没有其他途径可以获取?
A:是全国的分位数。CFPS除了在五个大省具有自代表性外,在其他省份没有代表性,在社区层级也不具有
代表性。需要的话请根据具体的研究需要谨慎处理。
Q:您好,请问是否提供了调查记录的原始数据下载?在对人口贫困程度度量时需要一定量单个个体的具体
数据,我具体需要的的是农村家庭收入的个体信息,需要的是微观数据。
A:个人收入请在个人库(成人库、少儿库)中查找,但需注意个人收入主要针对工资性收入,而对于经营
性、财产性收入等无法精确匹配到个人身上的是没有涵盖的。
Q:您好!我想问一个关于个人收入的问题。成人问卷里的个人收入综合变量income是否历年可比?根
据我们的观察,因为2014年起问卷比较稳定,所以各个变量的可比性应该是比较确定的。但是当我们试
图结合2010年和2012年的数据时,就会产生很多的不确定,遗憾地是,2010年和2012年的问卷和相
关报告里并没有给出income的统计口径。此外,我们还想确认:2014年开始,income这个变量是否
只针对受雇人群生成?对于农业生产和个体或者私营经验的个体,是不是并没有一个统计个人经营收入
的变量?
A:目前数据集中四期的个人收入变量并不直接可比,详情可见我们制作的综合变量查询表,链接如下。
建议您根据自己的研究需要暂时生成自己的可比较版本。
http://www.isss.pku.edu.cn/cfps/wdzx/sjwd/index.htm
Q:在2010年和2012年的家庭经济问卷中,家庭总(纯)收入指标均有“未调整的”和“调整后的”这
两种,但从2014年开始,再没有这种区分。由于我需要整理历年的数据构成一个面板样本,所以想请
问老师2014年及以后的变量应该是对应10年和12年的未经调整的变量还是经过调整的变量?
A:我们2014年之后没有生成调整之后的版本,因此建议您面板分析时各年数据都使用未经调整的变量,
另外提醒您如果使用数据年份包括2010年的话,需要使用与2010年可比的变量。
Q:请问2014年数据集中的financial_product 和finance_asset的口径差别是什么?我查看了第三版的
用户手册,其中只对比了2010和2012年的差别,并未提及以后年度的情况。
A:14和16年的情况是finance_asset=savings+financial_product+debit_other,其中
financial_product来自问卷中“金融产品总价”这个问题(FT201)。savings来自FT1(现金和存款
总值),debit_other来自FT901(别人欠自家的钱)。financial_product是finance_asset的一部分。
Q:请问2010-2016年的家庭库中综合变量non-housing debts(非房贷的金融负债)是否包含向亲友借的
钱、民间借贷贷款?2010年的家庭财务部分的回答人由哪一个变量体现?2012年家庭库中,如果财务回
答人的编号是1,是不是说明是财务回答人的三位家庭内部编码存储在code_a_1?
A:non_housing debts包含向亲友借的钱、民间借贷贷款。CFPS项目组提供的综合变量的相关计算方法
可以从我们项目网站上发布的“综合变量查询表”中获得,链接如下。家庭财务部分的回答人信息当时没
有发布,后续也许会更新上去。http://www.isss.pku.edu.cn/cfps/wdzx/sjwd/index.htm
Q:CFPS个人收入部分是否有综合变量?
A:为了给用户提供方便,我们就个人收入生成了一系列综合变量供用户参考使用。
Q:CFPS个人收入的综合变量是怎么计算的?
A:在官网平台上有关于CFPS综合变量的整理说明。细心的用户可以在2010年(基线)数据文档中找到这
个文件(《2010年综合变量整理说明》),其中包括个人收入计算公式和使用条件。
具体详情见:http://isss.pku.edu.cn/cfps/wdzx/sjwd/index.htm
Q:个人收入的计算方法是怎样的?
A:首先使用自报的个人收入进行赋值;如果缺失,则用收入区间的平均值进行替代。如果依然缺失或者小
于100 元,则用分项加总的收入进行替代。
Q:面对复杂的数据库,CFPS2014成人库中的 “个人总收入(p_income)” 是如何构建的?
A:在计算工资性收入时,使用个人问卷工作共用模块中回答工作收入和教育共用模块中勤工俭学/实习/兼
职收入等。p_income 是DGA2 、income 、di202三者之和。
Q:在衡量个人的收入时,比如有人有工作,但是收入却为0,为什么会出现这种情况?
A:这是由于在调查时,受访者可能还没有拿到受雇工作的报酬,所以访员会将其记录为0。另外,成人库是
年龄在16岁以上的个体,故有一部分个体还在上学状态。
Q:成人数据库中收入多个变量该如何正确理解?
A:可以先从综合变量入手,在综合变量中,“INCOME” 表示所有工作总收入,带“B”后缀的表示主要
工作总收入。用户可以自行选择是否采用我们整理的综合变量。
Q:在CFPS2012中,这一变量是这样描述的:P405 过去一个月,您家本地的交通费(包括汽车油费)一
共花多少钱?,所以2012年这一变量的具体内容包括什么呢?和2016年的内容一样吗?
A:这是初始的设计,和2016年一样本意都是所有本地交通费(包括打车费用),但2012年的提问方式可
能会让受访者遗漏汽车油费之外的费用,于是在后续调查中我们对问卷进行了修改,加入了额外的解释。
当问卷内容有所变动时,我们不能保证肯定测量的是相同的内容,但它们的目标是一致的。
Q:我想利用cfps数据追踪个人就业史,2014—2018均对主要工作有专门问卷,但2012年只询问了主要
工作的部分情况,请问如何利用数据抓取与主要工作匹配的工作收入、行业、工作时间等信息呢?
A:2012年工作部分的设计与之后的年份有所不同,无法从问卷数据中直接获取主要工作信息,需要在一
定的假设条件下进行整理。关于2012年主要工作的相关变量,请参考项目网站上的技术报告。
http://www.isss.pku.edu.cn/cfps/docs/20180927132818552079.pdf
Q:对于家庭经济数据集中的水费与电费项目,我存在一些疑问。在调查问卷关于水费与电费的项目中,
有一条说明:”如果受访户没有该项支出,请录入0”。但是在每年问卷16000条数据中,有6000条
左右的数据水费为0,有500条数据电费为0。请问此处的0是否可以反映用水量、用电量为零?是否有
其他原因,比如受访户拒绝回答,家庭使用井水无自来水费支出等使得水费这一项目为零。
A:受访者如果明确表示拒绝回答或不知道,我们的数据中有相应的缺失值可以表示;这道题并非敏感
题目,我们认为受访者采用0值来掩盖据答的可能性不大。但是如果受访者的水费或电费与其他支出在
一起,他们无法分割开,而直接对其中的某一项目汇报为0的可能性是存在的。
Q:公开数据里不管是2018年还是2020年的,个人数据的总收入近一半都是“不适用”,没有具
体的值。请问这种缺失是随机的,还是有某种相同特征的人群都没有填写、录入收入?
A: income变量的生成和跳转条件在调查问卷中可以查询,它只针对受雇状态的工资性收入,并非
个人总收入。
Q:请问老师:如何实现成年子女与父母信息的一对一匹配,我的被解释变量是成年子女的收入,
解释变量是父母的收入。
A: 在关系库中利用pid_a_f或pid_a_m作为关键链接变量进行操作。但成年子女的父母并不一定总是
CFPS界定的家庭成员,只有CFPS界定的成员且完成了个人问卷,才有可能存在父母收入。
上一篇: 下面没有链接了