1. 引言
党的二十大明确指出,必须坚持“人才是第一资源”,深入实施“人才强国战略”,坚持“人才引领驱动”,强化“就业优先政策”,健全“就业促进机制”,促进“高质量充分就业”,高校毕业生是国家宝贵的人才资源,是促进就业的重要群体 [1] 。
截至2024年3月,2022届衡阳市高职毕业生已工作了一年多的时间,本文通过逻辑回归分析公司满意度、员工考核评分、项目数量和工作时长等数值型工作特征对于2022届衡阳市高职毕业生工作一年内离职的影响,为企业的员工管理策略、学校的就业工作和毕业生本人的就业决策提供理论依据。
2. 衡阳市高职院校2022届毕业生就业数据
为了解衡阳市高职院校2022届毕业生毕业一年内的就业情况,2023年9月至11月通过邮箱、班级QQ群等途径向2022届衡阳市高职毕业生发放问卷星平台调查问卷链接,问卷着重调查对公司的满意度、月均考核评分、月均项目数量和月均工作时长等数值型工作特征以及是否离职。其中,是否离职是一个二分类问题,使用0表示未出现离职行为,使用1表示出现过离职行为。
最终回收有效问卷2520份,出现离职行为的2022届衡阳市高职毕业生1348人,毕业一年内的离职率为53.49%。问卷回收后使用Python软件进行数据采集、数据清洗和统计分析,计算得到数值型工作特征的最大值、最小值、中位数、均值、标准差、方差、偏度和峰度,计算结果如表1所示。
Table 1. Descriptive statistics for numeric features
表1. 数值型特征的描述统计量
可通过表1中的数值型特征的描述性统计量对2022届衡阳市高职毕业生毕业一年内的就业情况有一个初步了解:在对公司的满意度方面,最低的满意度是9,最高的满意度是100,均值是61.28,标准差是24.86,偏度是0.476,峰度是−0.670,说明毕业生对公司的满意度集中在较低的区间内;在月均考核评分方面,最低的评分是36,最高的评分是100,均值是71.61,标准差是17.11,偏度是0.027,峰度是−1.239,说明毕业生的月均考核评分集中在较低的区间内;在月均项目数量方面,最少的项目数量是2,最多的项目数量是7,均值是3.8,标准差是1.233,偏度是−0.338,峰度是−0.495,说明毕业生月均项目数量集中在较高的区间内;在月均工作时长方面,最少的工作时长是96,最多的工作时长是310,均值是201,标准差是49.943,偏度是−0.052,峰度是−1.134,说明毕业生月均工作时长集中在较高的区间内。
3. 基于逻辑回归的特征重要性分析
3.1. 逻辑回归
逻辑回归的思想来源于线性回归 [2] [3] [4] ,本文研究的问题包含对公司的满意度、月均考核评分、月均项目数量和月均工作时长四个数值型特征,因此可用四元线性回归公式表示为:
(1)
式中:右上角的
表示第i份问卷,共有2520份有效问卷;
表示第i份问卷中的对公司的满意度,
表示第i份问卷中的月均考核评分,
表示第i份问卷中的月均项目数量,
表示第i份问卷中的月均工作时长;
表示毕业生基于公司满意度做出离职决策的权重参数,
表示毕业生基于月均考核评分做出离职决策的权重参数,
表示毕业生基于月均项目数量做出离职决策的权重参数,
表示毕业生基于月均工作时长做出离职决策的权重参数,其值越大表示其对应的特征重要程度越强;
表示偏置参数;
表示第i份问卷数据中的4个特征与权重、偏置通过公式(1)计算得到的输出,是线性回归的预测输出数据,其值可能是任一实数。可用
表示第i份问卷中的是否离职这一字段的数据,即第i份问卷的实际输出数据,实际输出数据
与预测输出数据
之间的差值称为第i份问卷的预测误差。
令:
(2)
式中:
是参数矩阵,表示所有参数;
是特征矩阵,表示处理后的第i份问卷中的所有特征。则式(1)可利用矩阵乘法简化为:
(3)
式中:
是参数矩阵
的转置,
表示矩阵乘法。
为了将线性回归的预测输出数据
与发生离职行为的概率联系起来,可使用sigmoid函数可将任一实数
映射成(0,1)之间的数,实现数值到概率的转换。将线性回归的预测输出数据
经过sigmoid函数变换后可得:
(4)
式中:使用了sigmoid函数将实数
映射成(0, 1)之间的数,同时也将线性回归的预测输出数据
变成了逻辑回归的预测数据
,即通过第i份问卷的4个特征数据预测其发生离职行为的概率为
,未发生过离职行为的概率为
,可用公式表示为:
(5)
式中:当第i份问卷是否离职字段的取值为代表发生离职行为的1时,此时第i份问卷的实际输出数据
取值为1,则发生离职行为的概率
;当第i份问卷是否离职字段的取值为代表没有发生离职行为的0时,此时第i份问卷的实际输出数据
取值为0,则发生离职行为的概率
。
为找到某个参数矩阵
使得全体就业问卷数据的预测误差最小,可采用基于逻辑回归的梯度下降方法求解参数矩阵
,公式为:
(6)
式中:m取值为2520,表示有效调查问卷的数量;
表示逻辑回归的损失函数;
、
、
、
、
分别表示损失函数
在不同偏置方向上的偏导数,它们汇聚而成的矩阵就是损失函数的梯度
;
被称为学习率,是梯度下降算法中的参数。重复使用式(6)更新参数矩阵
,可以得到预测误差最小的参数矩阵
。
3.2. 评估指标
逻辑回归的常用评估指标有准确率、精确率、召回率、ROC曲线和AUC值,且这些评估指标的计算都依赖于混淆矩阵 [5] [6] [7] [8] ,本文研究的基于逻辑回归分析离职问题的混淆矩阵如表2所示。
Table 2. Confusion matrix based on logistic regression analysis of resignation issues
表2. 基于逻辑回归分析离职问题的混淆矩阵
其中,TP表示逻辑回归预测结果与真实情况均未出现离职行为的样本数量;FP表示逻辑回归预测结果为出现离职行为而真实情况为未出现过离职行为的样本数量;FN表示逻辑回归预测结果为未出现过离职行为而真实情况为出现离职行为的人数;TN表示逻辑回归预测结果与真实情况均为未出现过离职行为的人数。
逻辑回归准确率的计算公式为:
(7)
式中:accuracy表示逻辑回归准确率,
表示预测正确的样本数量;
表示本研究样本的总数量,即2520份样本;准确率accuracy表示逻辑回归预测正确的样本数量占总样本的比例。
逻辑回归精确率的计算公式为:
(8)
式中:TP表示逻辑回归预测结果与真实情况均未出现离职行为的样本数量;
表示2520份样本中逻辑回归预测结果为出现离职行为的样本数量;精确率precision表示逻辑回归正确预测离职的样本数量占逻辑回归预测结果为出现离职行为的样本数量的比例。
逻辑回归召回率的计算公式为:
(9)
式中:TP表示逻辑回归预测结果与真实情况均未出现离职行为的样本数量;
表示真实情况为出现离职行为的样本数量;召回率recall表示逻辑回归正确预测离职的样本数量占实际出现离职行为的样本数量的比例。
逻辑回归的ROC曲线绘制依赖于不同阈值下的真正例率和假正例率,真正例率和假正例率分别定义为:
(10)
式中:真正例率TRP与式(9)中的召回率recall相同,表示逻辑回归正确预测为离职的样本数量占实际出现离职行为的样本数量的比例;FP表示逻辑回归预测结果为出现离职行为而真实情况为未出现过离职行为的样本数量;
表示真实情况为未出现离职行为的样本数量;假正例率FRP表示逻辑回归错误预测为离职的样本数量占实际未出现离职行为的样本数量的比例。
逻辑回归的AUC值被定义为ROC曲线下的面积,当AUC值在0.8以上时就表示逻辑回归预测效果很好 [9] [10] 。
3.3. 基于逻辑回归的特征重要性分析实验步骤
基于逻辑回归的衡阳市高职毕业生离职特征重要性实验步骤如下:
1) 使用符合高斯分布的随机数初始化参数矩阵
;
2) 对数值型数据进行标准化处理;
3) 计算得到预测误差最小的参数矩阵
,如公式(6)所示;
4) 根据逻辑回归预测结果计算混淆矩阵,如表2所示;
5) 计算得到逻辑回归的准确率、精确率和召回率,如公式(7)、公式(8)和公式(9)所示;
6) 计算不同阈值下的真正例率和假正例率,并将它们分别作为纵轴和横纵绘制ROC曲线,如公式(10)所示;
7) 计算ROC曲线下的面积,即AUC值;
8) 结合参数矩阵
和评估指标分析衡阳市高职毕业生离职特征重要性。
4. 实验
根据实验步骤,基于逻辑回归的特征重要性分析实验图像与实验数据分别如图1和表3所示。
Figure 1. ROC curve of resignation issues for vocational college graduates in Hengyang city based on logistic regression
图1. 基于逻辑回归的衡阳市高职毕业生离职问题ROC曲线
图中:ROC曲线靠近左上角说明使用逻辑回归对于本文研究的衡阳市高职毕业生离职问题有较好的预测性能。
Table 3. Experimental data of feature importance analysis based on logistic regression
表3. 基于逻辑回归的特征重要性分析实验数据
表中:偏置参数
是−1.40;权重参数
和
分别是−1.04、−0.15,表示毕业生对公司的满意度、月均考核评分与发生离职行为存在负相关关系,且对公司的满意度这一特征的负相关程度较强;权重参数
和
分别是0.31、0.23,表示毕业生月均项目数量、月均工作时长与发生离职行为存在正相关关系,且月均项目数量这一特征的正相关程度较强;基于逻辑回归的衡阳市高职毕业生离职问题的准确率是0.80、精确率是0.73、召回率是0.77、AUC值是0.76,这些评估指标均说明使用逻辑回归对于本文研究的衡阳市高职毕业生离职问题有较好的预测性能,由此得到的各个特征的重要性也有着很高的可信度。
5. 结论与启示
本文以2520份有效问卷数据为依据,基于逻辑回归研究了2022届衡阳市高职毕业生对公司的满意度、月均考核评分、月均项目数量、月均工作时长4个工作特征与毕业一年内是否发生离职行为的相关关系,结论与启示如下:
1) 毕业生对公司的满意度和月均考核评分越高,毕业生做出离职行为的可能性就越低,且对公司的满意度的重要性更大;毕业生月均项目数量和月均工作时长越高,毕业生做出离职行为的可能性也越高,且月均项目数量的重要性更大;评估指标数据表明得到的各个特征的重要性有较高的可信度。
2) 避免毕业生离职需要企业在毕业生本人的主观情感方面做出努力,包括确立企业文化和价值观、提供良好的工作环境和氛围、公平合理的薪酬和福利、提供良好的职业发展空间。这些策略的实施有利于提高毕业生对公司的满意度,毕业生对公司的满意度。
基金项目
2023年衡阳市社会科学基金项目“基于逻辑回归的衡阳市高职毕业生离职问题研究”(2023D023)。