汇总提问 vs 分项提问:家庭收入的不同提问方式有何差异 | 文献传送门
来源:时间:2024-07-12 01:24阅读:
Comparing Single- and Multiple-Question Designs of Measuring Family Income in China Family Panel Studies
期刊:Sociological Methods & Research
作者:Qiong Wu, Liping Gu
机构:Peking University
DOI: 10.1177/00491241221077238
CFPS项目办公室感谢作者团队的供稿。“文献传送门”栏目诚邀用户投稿,欢迎您介绍基于CFPS数据的优秀
成果。
背景
家庭收入是家户调查中最重要的变量之一,被广泛运用于各学科的实证研究。问卷调查中采集家庭收入的
提问方法主要有两种:一种是单题设计,让受访者汇总性地报出综合所有收入来源的家庭总收入;另外一
种是多题设计,分别提问受访者在各项的收入,家庭总收入可在后期由多道问题的回答综合得出。
从应答过程的角度分析,两种方法各有优缺点。汇总提问简洁高效,在不以家庭金融为主要测量目标的综
合调查中备受青睐。但其缺陷是涵义不明确,不同受访者对家庭总收入的理解可能不一样;对于收入结构
复杂的多人家庭来说,综合不同的收入来源并不容易,漏报的可能性较高;受访者还有可能使用一些取巧
的方法,比如并不进行准确加总,而是采用估算、取整等粗略算法。分项提问的定义相对明确,受访者漏
报收入项的可能性降低,分项的变量提供了对收入结构进行分析的基础。但其缺点也十分明显,受访者需
要回答更多问题,缺失率相对高;不同收入分项之间区分度有时并不明显,可能造成项目重复汇报或漏报。
考虑到家庭收入变量在家户调查中的重要地位,已有研究对两种收入采集方式进行比较。但这些研究大多
依赖于多个分别使用不同提问方式采集的调查数据(如A调查使用汇总提问,B调查使用分项提问),只能
在宏观层面进行分析,缺乏微观层面更加精细的比较研究。
中国家庭追踪调查(CFPS)同时使用了汇总提问和分项提问的方式采集家庭收入,这为我们提供了从微观
层面研究此问题的独特数据源。我们不仅关注两种方法在数值分布上的差异,还进一步从应答过程的角度
对一些偏差的应答行为(如漏报、取整)进行数据模拟,以理解不同提问方式在估计值上不一致的原因。
研究方法
我们主要采用2018年CFPS家庭经济问卷的数据。经济问卷的前半部分采用28道相关问题,分别对于受访
者家庭在农业、非农业经营、工资、财产以及转移方面的收入进行提问;家庭总收入可以将各分项收入进
行加总得到。同时,经济问卷在快结束时询问受访者过去12个月的家庭总收入。对于汇总提问以及分项提
问中的部分题目,问卷设计中针对缺失值进行了展开式提问(unfolding),以采集收入区间。
我们对基于汇总提问和分项提问两种方式所产生的家庭收入估计值进行总体分布以及家庭内部的比较,并
分析哪些家庭和个人因素与两种估计值的不一致性相关。在此基础上,我们进一步分析漏报和取整行为在
多大程度上能解释两种估计值的差异。
在评估漏报的影响时,我们具体模拟了以下三种在回答汇总提问时可能产生的漏报行为:一是只包含在题
目题干中出现的收入项目,遗漏其他未出现的项目;二是遗漏所有在家庭收入中占比小于10%的项目;三
是只汇报最大收入项,忽略其他所有项目。我们将基于分项提问所模拟出的汇总数值与受访者实际汇报的
汇总数目进行比较。在评估取整的影响时,我们模拟了两种取整方式,分别是向下取整和向上取整。对于
每一种取整方式,我们同时考虑只保留首位整数和保留前两位整数的算法。我们将模拟后的数值与受访者
实际汇报的数值进行比较。
研究发现
1. 总体分布比较
从均值来说,汇总提问方式的家庭收入低于分项加总,但是在不同收入区间,二者的相对大小并不一致。
在收入分布的较低区间一直到中位数,基于汇总提问的家庭收入高于基于分项提问的家庭收入。只有到
了收入分布的较高区间时,分项提问的估计值才高于汇总提问。
分项提问涉及到高达28个变量,缺失比例(7.3%)自然高于只涉及一个变量的汇总提问(2.7%),在
考虑了展开式提问后,二者缺失比例均有下降,但前者(4.0%)依然高于后者(0.6%)。在不同的收
入项目中,工资收入的缺失比例(2.8%)较高,展开式提问将其缺失比例降低到0.3%。
2. 家庭内部的一致性
下图展示了在家庭内部进行两种估计值比较的结果。只有11.6%的家庭两个估计值相等,41.6% 的家庭
汇总提问估计值更高,剩余46.8%的家庭分项提问估计值更高。即便我们采用模糊算法,将两者数值相差
在10%以内的均算作是一致,也只有36.6%的家庭在两个估计值上一致,这意味着我们无法忽视两种估计
值之间的差异。
我们进一步分析了估计值不一致的影响因素。在家庭层面,收入结构有显著的影响。收入来源越多,越有
可能分项加总的数值更高。除此之外,收入种类也有影响。当工资收入是家庭收入的主要来源时,两种
估计值一致的比例最高(45.2%);当农业收入是主要来源时,一致的比例最低(10.1%)。在个人层面,
问卷回答人对家庭财务的熟悉度也对汇报的一致性有正面影响。
3. 漏报和取整能否解释两种估计值的不一致
我们模拟三种典型的漏报行为,来解释汇总估计值低于分项加总的情况。下图显示,汇总估计值低于分项
加总的6000多个家庭样本中,40%以上的样本可以用三种典型的漏报行为来进行解释,其中只报最主要收
入项这一种漏报行为就能解释超过三分之一。而向下取整的行为可以解释37.3%的此类不一致;漏报和取
整在一起能解释55.3%的此类估计值不一致。
我们用向上取整来解释汇总估计值高过分项加总估计值的现象,其中约四分之一的不一致可以用向上取整
进行解释。
总结
我们利用CFPS中同时包含两种家庭收入估计值的数据资源,在微观层面对汇总提问和分项提问进行比较。
研究发现这两种常用的估计值之间在分布上存在着实质性差异,在较低收入区间,汇总提问的估计值高于
分项提问;在较高收入区间,二者相对大小反转。在同一个家庭内部的估计值不一致比例较高,采用模糊
匹配方式,也有近三分之二家户的两种估计值不一致。数值模拟的结果表明,漏报和取整的应答行为可以
在较大程度上解释两种估计值的不一致。
使用汇总提问所得的家庭收入估计值存在较大的漏报风险,受访者很有可能只汇报了各项收入来源中的最
主要收入。汇总提问的题干中需要包含收入的主要组成项,以降低漏报的可能性。而分项提问的缺陷体现
在家庭农业收入方面,采用多道题分别采集农业投入和产出的方式可能导致农业收入的低估,有待更多的
研究进一步探索。
文章信息
Wu, Q., & Gu, L. Comparing Single- and Multiple-Question Designs of Measuring Family Income in China Family
Panel Studies. Sociological Methods & Research,doi:10.1177/00491241221077238https://journals.sagepub.com/
doi/10.1177/00491241221077238
请您关注CFPS公众号,阅读更多CFPS小课堂:ISSS_CFPS