1. 引言
国家统计局最新资料显示,2022年我国60岁及以上的老年人口数为2.80亿,占总人口的19.8% [1] ,老龄化程度不断加深。同时,近年来我国出生人口和生育水平呈现持续低迷的态势。2022年我国人口进入生育主导的人口负增长阶段,人口出生率降至6.77‰,且据第七次人口普查数据,2020年我国出生人口减少至1200万人,总和生育率仅为1.30,远低于生育更替水平2.1 [2] 。由此可见,当前我国老龄少子化问题凸显。我国政府也在不断优化人口生育政策以平衡人口年龄结构,从“单独二孩”到“全面二孩”政策以及2021年全国人大常委会提倡的“一对夫妻生育三个子女”的政策,均旨在改善生育水平,促进人口均衡发展。长期极低的生育率将会造成人口失衡和劳动力短缺的后果,因此,有必要对我国育龄群体生育行为进行全面了解,并进一步探究影响生育行为的相关因素。
2. 文献综述
生育行为是育龄群体所产生的实际生育行为,是人们考量生育意愿和生育成本后,所进行的生育选择 [3] 。生育行为可以拆分成数量、性别、时间等维度,具体包括子女数量、性别结构、生育时间、胎次间隔等要素 [4] 。生育行为的相关研究主要围绕其影响因素展开,刘璐婵和张瑞利的研究结果显示,教育成本对生育行为有抑制效应,且农村、低收入和东部地区对于教育成本更为敏感。中介效应结果显示教育开支能降低父母的预期子女数,从而扭转其生育意愿,导致消极的生育行为 [5] 。冯永琦和于欣晔的研究认为,家庭投资风险偏好会对生育行为产生影响,较高的投资风险偏好会对子女的生育行为产生抑制作用。此外,收入水平、受教育程度、户籍状况、年龄、拥有房产数量以及收入风险等因素对生育行为也有较大的影响 [6] 。顾和军等运用CHNS调查资料,针对祖辈“退而不休”现象对育龄妇女生育行为的影响及其机理进行了研究,结果显示,在其它条件不变的前提下,祖辈“退而不休”明显降低了育龄妇女的生育数量,在对该模型处理内生性后,回归分析结果仍然显著 [7] 。现有的研究中,生育行为的影响因素研究多局限在验证一个或两个因素对其的影响,缺少更为全面的社会经济影响因素探索分析,本文将结合传统的计量经济学模型、机器学习分类算法和中介效应模型,从个体、家庭、社会保障、地区特征四个方面探究生育行为的影响因素,不但充实了现有的研究方法体系,也更为全面地探究了影响生育行为的因素。
3. 数据来源与模型构建
3.1. 数据来源
本文的数据来源为中国社会状况综合调查(CSS)数据,中国社会状况综合调查采用入户抽样的访问方式,调查区域覆盖了除港澳台、新疆外的全国30个省(自治区、直辖市),包括了151个区市县,604个村/居委会,每项调查访问了7000至10,000多个家庭,以18~69周岁以上住户人口为调查对象。CSS调查问卷从设计上分三大部分,即基础模块,更替模块,热点模块。其中基础模块是固定的,包括个人的基础信息,工作和就业,家庭结构和家庭经济状况等;更替模块比如社会阶层地位的流动,社会保障,休闲消费和社会价值观,在间隔一定周期后进行重复调查;热点模块紧跟时代步伐,话题涉及但不局限于社会群体利益关系,民生问题和城镇化问题等。本文选取2019、2021两年的数据进行了合并与汇总,共获得有效样本3659个。
3.2. 模型选择
3.2.1. 有序Logistic回归
有序logistic回归,是根据有序多分类变量拆分成多个二分类因变量,拟合多个二分类logistic回归,并基于累积概率构建回归模型。本文的因变量为生育行为(生育0或1个、生育2个、生育3个及以上),则因变量可以拆分成两个二分类回归模型,一个是生育0或1个与生育2个及以上,另一个则为生育2个及以下和生育3个及以上。计算公式如式(1)所示。
(1)
式中,i代表因变量的第i个类别,i = 1,2,3;Y代表因变量生育行为,X代表自变量;
为常数项系数,
分别为自变量系数。
有序logistic满足比例优势假设,在拆分的多个二分类logistic回归中,假定除了截距不同,自变量对应的模型系数均相等,故累计概率的优势比(OR)值也相等。
3.2.2. Poisson回归
当因变量为计数型变量时,使用Poisson回归或者负二项回归,而负二项回归模型使用的前提条件是因变量的方差大于期望,本文生育行为的方差小于期望,依据最大似然比检验判定选用Poisson模型 [8] 。Poisson回归模型的具体设定分别如下:
(2)
(3)
3.2.3. LightGBM分类算法
LightGBM模型一种基于梯度提升树算法的改进模型,具有精度高、可处理海量数据等优点。该模型主要是利用决策树迭代训练以获得最优模型,计算见式(4)。
(4)
式中:
为g棵决策树形成的模型;X为自变量,
为第k棵决策树。
该模型的最终目的是要让识别结果更接近于真实结果,因此,在每次迭代的过程中,都要找到决策树,以使得目标函数的值达到最小。其中,目标函数包含了两个部分,一个是损失函数,另一个是正则化项。损失函数的计算见式(5)。
(5)
式中:
为损失函数;
为自变量
对应的真实类别;
为输入自变量
后识别的类别;A为输入样本量;
为将自变量
输入模型后识别为类别1的概率。
正则化项通过控制叶子节点分裂以降低模型的过拟合,该模型的目标函数见式(6)。
(6)
式中:O为目标函数;Z为叶子节点数;
为第v个叶子结点的输出值;
和
是设定的参数。
相比较传统的梯度提升算法,LightGBM模型改进为采用直方图的决策树算法,并与受深度限制的叶子生长策略相结合,从而获得了更高的精度和运算速度。且该模型使用了单边梯度采样算法,通过增加大梯度样本的权重,降低小梯度样本的权重来计算加权信息增益 [9] 。
3.2.4. 中介效应模型
中介效应模型是检验某一变量是否成为中介变量,发挥何种程度中介作用的一种方法。变量之间的关系如下,图1(a)是自变量X作用于因变量Y,路径系数为c,在没有中介变量的情况下,系数c反映了自变量对因变量的影响程度。图1(b)显示了在对中间变量M进行调节之后,自变量X与因变量Y的关系,系数a指自变量对中间变量的影响,b指中间变量对因变量的影响。系数c'是指对中间变量进行控制后,自变量对因变量产生的影响。图1(b)中的变量间总效应等于直接效应加上间接效应,即
,c为总效应,c'为直接效应,ab为中介效应,也可称为间接效应。
(a)
(b)
Figure 1. The diagram of test path of mediation effect
图1. 中介效应的检验路径示意图
3.3. 变量设置
3.3.1. 变量说明
本文取40~49岁育龄群体作为研究对象,该年龄段的生育行为尚未完全结束,但依据第七次全国人口普查数据,40~49岁育龄群体年龄别生育率仅为7.95‰,且结合实际,这一年龄段的育龄人群大多数都终止了生育行为,故本文聚焦40~49岁育龄人群,将这一群体的实际生育孩子数作为当前育龄人群终身生育子女数的近似估计。
1) 因变量。本文的因变量为生育行为,数据来源于问卷中“您现在有几个亲生子女?”的问题。将生育数量为0或1个定义为1,2个定义为2,大于等于3个定义为3。
2) 中介变量。本文的中介变量为生育意愿,数据来源于问卷中“您认为一个家庭通常有几个孩子最理想?”的问题,也即育龄群体的理想子女数。
3) 自变量。本文的自变量主要选取个体属性、家庭属性、社会保障、地区属性四个方面,将受教育程度、家庭规模、家庭人均收入、家庭相对收入、养老保险、医疗保险作为主要的社会经济解释变量,其中,家庭规模数据来源于“请您告诉我您家有几口人?”这一问题,家庭人均收入由家庭总收入除以家庭规模计算得到(家庭总收入来源于“您家的总收入”这一问题),家庭相对收入 [7] 为家庭人均收入除以所在区/县各家庭人均收入的中位数,家庭人均收入反映的是家庭的绝对收入水平,而家庭相对收入反映的是家庭的相对收入水平。相关变量描述性统计如表1所示。
3.3.2. 异常值处理
选择KS检验对表1中各数值型变量进行正态性检验,检验结果如表2所示,可以看到,各变量的P值均小于显著性水平0.05,拒绝“服从正态分布”的原假设,故认为各数值型变量均不服从正态分布。
![](Images/Table_Tmp.jpg)
Table 2. Normality test of numerical variables
表2. 数值型变量的正态性检验
因此本文选取箱线法对所有数值型的变量进行异常值检测,若直接对异常值对应的样本进行删除处理,则本文保留的数据量会大量缩减,为保留其他变量中所包含的有效信息,故本文采取将异常值视为缺失值的方法来进行异常值的处理。
3.3.3. 空值处理
本文对分类型变量,采用众数填补缺失值的方法,对于数值型变量,采用中位数填补的方法。
4. 不同特征人群生育行为差异分析
育龄妇女2019、2021年平均终身生育子女数分别为1.71、1.74,与对应年份理想子女数均相差0.29,可见生育意愿与生育实际之间存在一定的差异。图2是调查对象的终身生育子女数量分布,可以看出,当前育龄群体没有生育孩子的样本量占比1.75%,生育1孩的占比39.36%,选择终身生育2个孩子的样本量占比为46.84%,选择生育3个及以上的孩子占比为12.05%。
![](//html.hanspub.org/file/18-2623455x31_hanspub.png?20230725092002790)
Figure 2. Distribution of lifetime births
图2. 终身生育子女数分布
4.1. 个体特征间的差异分析
表3展示了不同个体特征之间生育行为差异分布及卡方检验结果。分性别来看,不同性别育龄群体拥有的子女数无明显差异。分年龄来看,40~44岁育龄人群拥有2个、3个及以上的样本占比分别为48.98%、13.08%,分别高出45~49岁育龄人群3.82、1.84个百分点,两个年龄段之间的生育行为存在显著差异。就受教育程度来看,小学及以下育龄群体生育2孩及以上的占比较高,为77.26%,受教育程度为本科/大专、研究生的育龄群体生育2孩及以上占比较少,分别为34.68%、35.29%,不同受教育程度育龄群体之间的生育行为差异显著。婚姻状况为已婚的育龄群体生育2个及以上孩子的占比较高,离婚/丧偶的育龄群体则较低,不同婚姻状况育龄群体之间的生育行为差异显著。就个人收入而言,收入较低的育龄群体生育2个及以上孩子的样本占比较高,收入中等的占比较低,而收入较高的育龄群体生育2个及以上孩子的样本占比反而高于收入中等的群体。由此推测,当个人收入高于一定水平时,育龄人群的生育行为将会更多。
![](Images/Table_Tmp.jpg)
Table 3. Distribution of reproductive behaviors with different individual characteristics
表3. 不同个体特征的生育行为分布
注:***、**、*分别代表1%、5%、10%的显著性水平,下同。
4.2. 家庭特征间的差异分析
不同家庭特征育龄群体之间的生育行为存在显著差异。如表4所示,家庭规模为4个及以上的育龄群体生育2个或以上的占比较高。将相对收入小于0.5归类为“很低”,大于等于0.5且小于0.8归类为“较低”,大于等于0.8且小于1.2归类为“中等”,大于等于1.2且小于1.5归类为“较高”,大于等于1.5归类为“很高”,可得相对收入与生育行为呈“U”型的数量关系,相对收入很高和相对收入很低的育龄人群生育2孩及以上的样本占比均较高,因此家庭相对收入不同,生育行为也有所不同。家庭人均收入越高,生育2个及以上孩子的样本占比就越低。
![](Images/Table_Tmp.jpg)
Table 4. Distribution of reproductive behavior of different family characteristics
表4. 不同家庭特征的生育行为分布
4.3. 社会保障特征间的差异分析
表5结果显示,参与/未参与养老保险育龄群体之间的生育行为存在显著差异。相较于未参与,参与养老保险的育龄群体生育2个、3个及以上孩子的占比较少,分别为41.85%、8.30%,较未参与的低了9.15、6.88个百分点。参与医疗保险的育龄群体生育0个或1个的育龄群体占比42.35%,相较于未参与养老保险高出6.22个百分点,参与/未参与医疗保险育龄群体之间的生育行为存在显著差异。
![](Images/Table_Tmp.jpg)
Table 5. Distribution of reproductive behaviors with different social security characteristics
表5. 不同社会保障特征的生育行为分布
4.4. 地区特征间的差异分析
不同地区育龄人群的生育行为差异显著。表6结果显示,居住在农村地区的育龄人群生育2个及以上的占比72.48%,高于城市22.57个百分点。所在地区为中南、西南、西北的育龄人群生育2孩、3孩及以上的占比均较高,说明这些地区生育多孩的现象较为普遍。
![](Images/Table_Tmp.jpg)
Table 6. Distribution of reproductive behavior in different regions
表6. 不同地区特征的生育行为分布
5. 育龄人群生育行为影响因素研究
本文从个体特征、家庭特征、社会保障、地区因素四个方面探究影响育龄群体生育行为的因素。重点研究受教育程度、家庭支持(家庭人均收入、家庭相对收入、家庭规模)、社会保障(是否参与养老保险、是否参与医疗保险)等社会经济因素对生育行为的影响路径和大小,上述变量为主要的解释变量,其余为控制变量。
首先使用方差膨胀因子(VIF)对自变量之间的自相关性进行了检验,各解释变量的方差膨胀因子如表7所示,根据方差膨胀因子判断准则(VIF < 5时自变量之间不存在自相关),所有自变量中最大的方差膨胀因子也仅为2.68,故各变量之间不存在自相关性。
![](Images/Table_Tmp.jpg)
Table 7. Variance inflation factors
表7. 方差膨胀因子
5.1. 基准回归结果与稳健性检验
5.1.1. 基准回归结果
表8展示的是有序logistic回归的结果,主要解释变量中,受教育程度、家庭人均收入、家庭规模、家庭相对收入、养老保险对被解释变量生育行为影响显著,医疗保险变量对生育行为不显著;控制变量中年龄、婚姻状况、个人收入、城乡、所在地区、年份对生育行为影响显著,而性别对生育行为影响不显著。
相较于小学及以下,受教育水平高的育龄群体,其选择多生育孩子的可能性较低,学历为初中的育龄群体多生育孩子的可能性相较于小学及以下降低了44.9%,同理,高中/中专/职高、本科/大专、研究生分别下降了61.0%、74.4%、66.8%,对比得到,学历为本科/大专的育龄群体产生更多生育行为的可能性最低,研究生学历的产生更多生育行为的可能性较本科/大专的育龄群体高。
家庭支持包含了人力、财力两个方面的变量。其中,家庭规模越大,获得的家庭生育支持越多,产生更多生育行为的可能性就越大。家庭人均收入越高,产生更多生育行为的可能性越小。而家庭的相对收入越高,产生更多生育行为的可能性则越大。
社会保障变量中,参加养老保险会降低更多生育行为发生的可能性,而参加医疗保险对生育行为的影响不显著。
控制变量中,年龄越大,生育更多孩子的可能性越小,推测年龄越大,育龄人群处在计划生育阶段的时期就越长。婚姻状况为离婚的育龄群体相较于在婚人群生育更多孩子的可能性较低,而丧偶的育龄群体生育更多孩子的可能性更高。个人收入对生育行为的影响显著,个人收入越高,产生更多生育行为的可能性就越低。居住在农村地区的育龄妇女相较于城市地区生育更多子女的可能性更高。相较于华北地区,所在地为东北地区的育龄妇女生育更多子女的可能性更低,所在地区为中南地区的育龄妇女生育更多子女的可能性更高;相对于2019年,2021年育龄妇女生育更多子女的可能性更高。
![](Images/Table_Tmp.jpg)
Table 8. Results of ordered logistic regression
表8. 有序logistic回归结果
5.1.2. 稳健性检验
将有序logistic回归模型中的因变量——生育行为分组(1个及以下、2个、3个及以上)替换成连续变量(0, 1, 2, …, 12),使用Poisson回归进行稳健性分析,得到表9所示结果,其与有序logistic回归结果保持一致,主要解释变量中除医疗保险之外均显著,故认为生育行为影响因素分析的结果是稳健的。
![](Images/Table_Tmp.jpg)
Table 9. Results of Poisson regression
表9. Poisson回归结果
5.2. 育龄人群生育行为影响因素特征重要性排序
将调查样本按照4:1的比例划分训练集和测试集,对调查样本的生育行为进行分类和预测。使用F1值和AUC作为评价指标,F1值为模型准确率和召回率的调和平均值,AUC同时考虑了分类器对于正例和负例的分类能力,在样本不平衡的情况下,依然能够对分类器作出合理的评价。两个评价指标都可以综合评价机器学习算法的性能优劣和稳定性。使用逻辑回归(LR)、随机森林(RF)、XGBoost (XGB)、LightGBM (LGB)四种分类算法对样本进行分类,各分类器的F1值和AUC如表10所示,比较得到,无论是F1值还是AUC值,LightGBM算法表现得均较高。因此本文选用LightGBM分类算法对样本进行分类。
![](Images/Table_Tmp.jpg)
Table 10. Evaluation indexes of each classifier algorithm
表10. 各分类器算法评价指标
由于变量量纲或赋值的差异,回归模型的系数大小并不能直接代表单个变量影响生育行为的重要程度。故使用LightGBM分类算法对各解释变量进行特征重要性排序,如图3所示,影响育龄人群生育行为的特征按照重要性由大到小排序分别为家庭规模、个人收入、家庭相对收入、家庭人均收入、年龄、所在地区、受教育程度、婚姻状况、养老保险、城乡、性别、医疗保险和调查年份。可见,相较于个人的受教育程度以及是否购买养老保险等特征,家庭所能提供的生活照料以及个人、家庭的经济状况是影响育龄人群生育行为更为重要的因素。这也提示我们要以帮助改善家庭生育条件为发力点,通过提供配套生育支持,保证育龄妇女的就业权益等来鼓励育龄人群产生更多的生育行为。
![](//html.hanspub.org/file/18-2623455x32_hanspub.png?20230725092002790)
Figure 3. Importance of characteristics of influencing factors of reproductive behavior
图3. 生育行为影响因素特征重要性
5.3. 生育意愿对生育行为的中介效应分析
意愿和行为通常都是一个内部的体系,特别是当个体受到外界因素的影响之后,它们通常会通过意愿的转变来做出反应,所以,在对生育行为进行研究时,必须将生育意愿的影响全面地考虑进去 [10] 。使用中介效应模型探究上述显著的社会经济相关变量,是否存在中介机制,即通过影响生育意愿从而影响生育行为,如果存在中介效应,则具体的中介效应占比为多大,中介效应检验的路径图4如下:
![](//html.hanspub.org/file/18-2623455x33_hanspub.png?20230725092002790)
Figure 4. Test path diagram of mediation effect of reproductive willingness on reproductive behavior
图4. 生育意愿对生育行为的中介效应检验路径图
中介效应的模型结果如表11所示,受教育程度和家庭规模的中介效应显著,家庭人均收入、家庭相对收入、养老保险的中介效应不显著。受教育程度对生育行为影响的直接效应为−0.106,中介效应为−0.006,中介效应占比5.36%;家庭规模对生育行为影响的直接效应为0.156,中介效应为0.015,中介效应占比为8.77%。
![](Images/Table_Tmp.jpg)
Table 11. Results of the mediation effect model
表11. 中介效应模型结果
5.4. 不同模型结果比较分析
有序logistic回归结果显示,主要解释变量中,受教育程度、家庭人均收入、家庭规模、家庭相对收入、养老保险对生育行为影响显著,而医疗保险对生育行为影响不显著;控制变量中,除了性别,剩余的年龄、婚姻状况、个人收入、城乡、所在地区、年份均对生育行为影响显著。接着,运用Poisson回归进行稳健性检验,检验结果与有序logistic回归结果一致,故认为生育行为影响因素模型是稳健的。有序logistic回归和Poisson回归结果均显示,家庭规模和城乡是影响生育行为的重要因素,而LightGBM模型中,特征重要性排在前二的是家庭规模和个人收入。中介效果也显示,家庭规模和受教育程度会对生育行为产生中介效应。可见,在不同模型中,家庭规模是生育行为的共同影响因素。
6. 结论与建议
6.1. 结论
生育水平对于优化人口结构、促进人口均衡发展具有重要意义。本文基于中国社会状况综合调查(CSS)数据,运用有序Logistic回归、Poisson回归、LightGBM模型、中介效应模型等方法,对不同特征育龄群体生育行为进行差异分析并探究影响生育行为的社会经济因素,得到结论如下:
1) 从生育行为来看,当前育龄群体选择终身生育1个或不生孩子的样本量占比41.11%,选择终身生育2个孩子及以上的样本量占比为58.89%。除性别外,不同特征育龄群体之间生育行为差异显著。
2) 有序Logistic回归结果显示,生育行为受家庭人均收入、受教育程度、家庭相对收入、家庭规模、养老保险的显著影响,家庭人均收入越高、受教育水平越高、家庭相对收入越低、家庭规模越小、参与养老保险的育龄群体其生育更多子女的可能性更低。
3) 运用LightGBM模型对影响调查样本生育行为的特征重要性排序,从大到小分别为,家庭规模、个人收入、家庭相对收入、家庭人均收入、年龄、所在地区、受教育程度、婚姻状况、养老保险、城乡、性别、医疗保险和调查年份,相较于个人的受教育程度以及是否购买养老保险等特征,家庭所能提供的生活照料以及个人、家庭的经济状况是影响育龄人群生育行为更为重要的因素。
4) 中介效应模型结果显示,受教育程度、家庭规模通过影响生育意愿,从而对生育行为产生影响,两者的中介效应占比分别为5.36%、8.77%。
6.2. 建议
基于上述研究结论,本文提出以下几点建议:
1) 完善社会公共服务供给,提高相对收入,缓解家庭生育养育教育负担。完善教育、医疗、环境、公共安全各方面的社会公共服务供给,一定程度上降低育龄人群的绝对支出,提高其相对收入,从而提高育龄人群增加生育的概率。要大力发展普惠制的公共托育场所等福利设施,加快制定行业标准和管理体系,推动优化托幼服务业的发展,降低年轻一代的生育成本,让那些缺少充足家庭支持的育龄群体能够免去孩子生下来无人照看的后顾之忧。同时,要加强养老服务专业设施建设,以“一老一小”为重点完善人口服务体系。
2) 构建生育友好型社会,引导监督用人单位保障婚育女职工各项合法权益。受教育程度高的育龄群体生育更多子女的可能性较小,尤其是对于女性来说,受教育水平高会通过提高机会成本从而降低生育水平,因此政府应根据实际情况建立育儿措施,推进弹性工作制,实施育龄人群的带薪(陪)产假等制度来缓解育龄群体在家庭和工作之间的矛盾,保障育龄妇女的就业合法权益,对以生育为由解聘的单位要严格惩治,鼓励弹性制、远程办公等灵活的工作模式,对聘用多孩妇女用人单位予以减税和补贴等。
3) 加强婚育新风引导,形成婚育友好氛围。要倡导新时代婚育文化,通过“婚育新风进万家”活动,将科学文明的婚育观传播到、影响到千家万户,形成生育友好型的社会氛围。要倡导适龄生育、适当缩小生育间隔、优生优育等,要鼓励夫妻共同承担家庭育儿责任,落实“父母同育”的鼓励政策,增加走访和宣传工作,开展“能干奶爸”、“优秀生育家庭”等评选活动,促进儿童健康成长、家庭幸福和谐。
NOTES
*通讯作者。