1. 文献综述及背景分析
收入问题受到每一个个体的关心,而每个国家有每个国家的国情,每个省份有每个省份的发展程度和发展速度,忽略不同地区的个体情况,把中国看作一个同质整体,个体放在中国的大环境中分析个人的收入影响因素有一定的合理性但又不是最恰当的分析方法,因为这样忽略了当代中国省份,城市收入不平等的时间和空间变异。中国各地区的经济活动,教育程度在很大程度上是由各地的自然资源、政府政策和人力资源等因素决定的,更重要的是,中国的工业经济改革是分地区进行的,对教育的支持程度也是不同的,对应个体普遍的受教育程度是有分层的。从上述背景出发,本文分地区探讨与个人收入相关因素的关系。
此前,谢宇和韩怡梅(Xie & Hannum, 1996)采用四88年中国居民收入调查(CHIP)数据中城市居民的调查数据,以各地区改革步伐的不均衡为前提,研究了经济改革的成功与个人收入决定因素之间的关系 [1] 。Hauser和Xie (2005)发现在经济改革快速推进时期,党员的好处不但依然存在,而且不论被访者受教育程度的高低、工作经历的长短、是男性还是女性,党员的相对优势都有所扩大 [2] 。对此,一个可能的解释是党员身份也许可以被看作是一种能力,它代表了人力资本中未被观测到的方面(Gerber, 2000; 2001) [3] 。因而,党员身份回报的明显提高反映的可能是对某些能力回报的提高。Hauser和Xie (2005)揭示了1998、1995年间收入决定因素重要性的诸多变化:教育的收入回报对男女两性都有显著提高;收入的性别差异在扩大;党员身份的收入回报也翻了番。也就是说,在个体层次上,收入决定因素的确存在统计上的显著变化 [3] 。
2. 多水平模型理论
2.1. 多水平模型介绍
人与人之间是有差异的,而且总是生活在一定的社会环境中,其表现和行为方式总是随着其置身于其中的社会环境的变化而变化。在更一般的意义上,社会研究经常会涉及个体与社会环境之间的互动关系。个体会受到其所属的团体氛围或社会环境的影响;反过来,团体氛围或社会环境的属性也会受到作为它们构成要素的个体的影响。个体与社会环境之间的这种互动关系决定了社会研究所用数据中的多层结构。
多水平模型,社会学研究者称其为多层线性模型(multilevel models),教育学研究者将其称为分层线性模型(hierarchical linear models),计量经济学者往往称其为随机系数回归模型(random-coefficient regression models),统计学家则更多地称其为混合效应模型(mixed effect models)和随机效应模型(random-effects models),而发展心理学研究者多称其为增长曲线模型(growth-curve models)。另外,多层线性模型有一个特例,被习惯称作协方差成分模型(covariance components models)。尽管名称繁多,但多层线性模型大体上包括两个方面的来源:情景分析和混合效应模型 [4] 。
2.2. 多水平模型基本原理
多水平模型的分析思路其实比较简单。它首先将多层结构数据在因变量上的总变异明确区分成组内和组间两个层次,然后分别在不同的层次上引人自变量来对组内变异和组间变异加以解释。最简单的多层线性模型由一个组内方程和一个组间方程构成,同时将组内方程的部分或全部参数作为结果变量由组间方程来加以解释。
对于多层结构数据而言,变量的变异同样可以区分为组内变异和组间变异两个部分。如果完全忽略组间变异的话,残差分布有可能出现异方差,采用常规最小二乘法所得到的参数估计值尽管仍是无偏和一致的,但不再是最有效的。多水平模型通常使用最大似然估计(简称MLE)方法来估计模型的方差协方差。但是,在具体应用中,最大似然估计方法又分成完全最大似然法(简称FML)和限制性最大似然法(简称REML)两种。两者之间的差别在于它们对模型残差项的考虑有所不同。REML包含了所有来源的残差,而且它常被用于估计高层次上的单位数量偏少的模型,而在进行模型比较时通常采用FML方法进行模型估计 [5] 。多水平模型子模型 [6] 主要有空模型又叫截距模型、随机系数模型、完全模型。
3. 多水平模型数据说明 [7]
3.1. 数据来源
数据来源于中国综合社会调查(CGSS) 2013年数据,此数据于2015年1月1日在中国国家调查数据库网站正式发布。中国综合社会调查(Chinese General Social Survey, CGSS)始于2003年,是我国最早的全国性、综合性、连续性学术调查项目。CGSS系统全面的收集社会、社区、家庭、个人多个层次的数据,总结社会变迁的趋势,探讨具有重大科学和现实意义的议题。此调查项目关键字:价值观,健康,截面调查,家庭,教育,职业;地理覆盖范围:中国大陆;分析单位:个人,家庭;人口覆盖范围:18+;调查的时间组织方式:过续性截面调查;调查频率:年度;抽样程序:多阶分层抽样;调查模式:面访。
3.2. 数据分布
2013年为中国综合社会调查(CGSS)第二期(2010~2019)的第4次年度调查,也是CGSS自2003年开始以来的第10年。调查在全国一共抽取了100个县(区),加上北京、上海、天津、广州、深圳5个大城市,作为初级抽样单元。在全国一共调查480个村/居委会,每个村/居委会调查25个家庭,每个家庭随机调查1人,总样本量约为12,000。分布情况见图1。
3.3. 数据解释说明
原数据变量数:722个,样本量:11,438例;经过年龄,空缺,异常值等条件数据清洗收集关于收入和教育因素相关的变量,进入样本4949例。表1为中国综合社会调查问卷中相关变量及本论文个人派生变量,并对部分变量进行建模分析。
Figure 1. The geographical distribution of the data (source: CGSS)
图1. 数据地域分布情况(来源:CGSS)
Table 1. Variable description in the questionnaire
表1. 调查问卷中变量说明
4. 中国居民收入影响因素分析
4.1. 变量选择说明
从居民收入的实际情况出发,对中国居民收入影响因素分析这一研究选择如下变量:
lnself_y:表示收入的对数,收入指的是个体每年所得的各种来源的收入之和;
vilorngh:0表示居委会,1表示村委会;
a2 (性别):0表示男性,1表示女性;
a7a (教育年限):正整数表示所受教育的时间;
a10 (政治面貌):1表示中共党员或民主党派,0表示共青团员、表示群众,用来作为对政治资本的测量;
a69:1表示初婚有配偶,0表示非初婚有配偶;
a2* a7a:教育与性别的交互项,即允许教育回报因性别的不同而不同;
a7a* a10:教育与政治面貌的交互项,即允许教育回报因政治面貌的不同而不同;
a2* a10:性别与政治面貌的交互项。对如上变量进行多水平模型分析如下:
4.2. 空模型检验
以省份\直辖市\自治区为划分,个人收入对数为因变量进行空模型检验,表2为空模型分析结果。
P值均不超过0.005,省份地区差异的估计值为0.25031,不同省份地区收入水平有差异,且由公式(1~4),求得ICC为0.24,从数据来看总方差有24%的方差比例是由组间方差所影响的,分省地区考虑收入水平具有统计学意义,应进一步拟合多水平模型。
4.3. 全模型分析
如表3所示,在首次探索中,以省份\直辖市\自治区为主题,个人收入取对数为因变量,在固定效应中加入a2 (性别),a4 (民族),a7a (教育年限),a10 (政治面貌),a69 (婚姻状况),a89b (父亲教育年限),a90b (母亲教育年限),age (2012年年龄),vilorngh (城市或农村),a7a*a10 (教育年限与政治面貌交互项),a2*a7a (性别与教育年限交互项),a2*a10 (性别与政治面貌交互项);在随机效应中加入vilorngh (城市或农村),发现在固定效用中民族,政治面貌、父母教育程度,a2*a10对个人的收入影响不显著则在下一轮模型构建中剔除此类变量。
对于民族(a4)不显著,一方面是因为中国少数民族不管是占中国总人口还是调查人数所占比例均较少,统计的样本太少(少数民族占样本的8.1%,且分为七大部分:蒙,满,回,藏,壮,维,其他)从而各部分没有到达一定的显著性,二是因为中国近年来的各地区经济发展速度较快加之政府对少数民族地区的扶持力度,各民族共同发展共同繁荣,民族因素在收入差异上没有十分明显的不同。
对于政治面貌、政治面貌和教育年限的交叉影响,不显著,这与此前研究中共党员身份在中国是一种政治优势的理论相反 [6] 。性别与政治面貌(a2*a10)交叉项的不显著,在样本中男女比例接近一比一,样本中共党员占比超过10%,大致和人口特点相符,所以不存在样本数量的层面上的影响,这里正是中国男女平等,社会公平方面的进步印证。
如表4所示,在第二次探索中,以省份\直辖市\自治区为主题,个人收入取对数为因变量,在固定效应中加入a2,a7a,a69,age,vilorngh,lnfamily_y,a2*a7a,其中a2,a69,vilorngh即:性别、婚姻状态、城市农村为哑变量;在随机效应中加入vilorngh,各变量均显著。
此时全模型为:
Table 2. Estimates of covariance parameters
表2. 空模型运行结果
a. Dependent Variable:个人收入对数。
Table 3. Complete model fixed effect parameter estimation
表3. 完全模型固定效应参数估计
a. Dependent Variable:个人收入对数。
b. This parameter is set to zero because it is redundant.
Table 4. Complete model random effect parameter estimation
表4. 完全模型随机效应参数估计
a. Dependent Variable:个人收入对数。
层1模型:
层2模型:
组合模型:
对固定效应进行检验,均有P < 0.05,说明教育年限、婚姻状态、年龄、城市或农村、家庭收入水平,性别,性别与教育年限交互项均对个人收入都有影响。
5. 中国居民收入影响因素多水平模型分析结论
婚姻状态为初婚有配偶的相对于非初婚有配偶的系数0.062774,一方面说明婚姻状态对事业有正影响,一方面暗示婚姻状态也是其他能力的一种体现。
城市的对收入影响的系数为正,对收入有正的影响,体现了城市的就业机会、工资水平、发展可能性比农村要有优势 [3] [8] 。
年龄对收入影响的系数为−0.003098,系数为负且较小,说明在青壮年时期年龄因素对收入的影响效应不大,但是随着年龄继续升高,对收入的累计效应将有负的影响,符合现在的社会现状。
家庭收入对个人收入的影响系数为0.756516,这似乎在说明一种类似“书香门第”的传递效应,也可能是因为家庭成员收入相当,总体水平的上涨是因为个体水平的积累效应。
男性相对于女性的收入,0.750235说明男性工资水平比女生高。在性别与教育年限(a2*a7a)较差效应为负,男性相对于女性的教育回报率为负,系数为−0.44902,说明女性的教育回报率要高于男性的教育回报率,这可能反映了受教育程度最少的那部分工作者而言,男性和女性可获得的工作类型有所不同,收入的性别差异在继续扩大,这支持了有关经济改革可能加具劳动力市场性别不平等的结论 [9] 。这可能是由于收入的性别差距在低受教育水平上表现很大,但是随着受教育水平的上升,收入的性别差异在缩小,甚至不明显,这与文献中探究的结果一致 [10] [11] 。