1. 引言
近年来,我国家政服务业蓬勃发展,在互联网时代背景下,也迎来了新的转型和升级,服务范围逐步扩大,服务内容更加细化和专业化,人们对家政服务的需求不断增加,同时对家政服务员的服务质量和服务水平也提出了更高的要求。家政服务员工面临新的工作内容与挑战,但由于其职业特殊性,家政员工的社会重视程度不高,缺乏工作成就感,流动性高,平台对员工监管难度大,极易出现员工虽然出勤但是工作效率低下的隐性缺勤现象,进而导致服务质量参差不齐、用户信任度降低等,家政行业的发展很大程度上取决于服务人员的服务质量与职业素养,隐性缺勤问题是家政行业谋求长久与良性发展的过程中亟待解决的问题。
在目前“互联网 + 家政”的服务模式下,家政服务业呈现平台化、线上运营和去门店化的大趋势,从管理角度来看,家政员工多在家庭场景中提供多种静态服务和动态服务,包括室内清洁、老人陪护、整理收纳等服务内容,其工作地点不固定,大部分时间与管理者处在不同空间内,管理者无法及时了解每位员工的工作状态和服务质量,也就很难及时了解员工隐性缺勤状态从而加以干预。隐性缺勤是人力资源领域研究的焦点之一,目前其研究对象多集中于教师、医务人员和大型企业职工,缺乏对家政行业员工隐性缺勤行为的进一步研究。
针对以上问题,本文设计心理量表,结合Y企业真实数据,基于心理理论选取心理属性,通过相关性分析确定用于家政员工隐性缺勤预测的心理属性,选择XGBoost算法构建家政员工隐性缺勤预测模型,将使用基础属性和行为属性的模型预测结果与进一步融合了心理属性的模型预测结果进行对比,验证融合心理属性模型对家政员工隐性缺勤的预测效果的优越性,提供家政服务行业进行员工隐性缺勤行为的新预测方法,帮助企业及时判断员工状态,采取相应措施以减少企业损失,保证家政行业工作的服务质量和服务效果。
2. 文献综述
2.1. 隐性缺勤研究
2.1.1. 隐性缺勤概念
隐性缺勤的概念最早是由英国的心理学家Cary Cooper教授在20世纪90年代提出,他将隐性缺勤描述为“人由于生病或长时间工作致使工作效率不高时,应该在家休息,但却仍然工作”的情况 [1] ,目前国内外的学者对隐性缺勤的概念还未达成统一,主要可以概括为两类,第一类定义为员工身体不舒服但是仍然参加工作的行为,第二类定义为虽然身体感到不舒服但仍然选择参加工作,从而导致工作投入减少和工作效率低下的行为 [2] 。本文定义的隐性缺勤是一种工作投入减少、完成工作量不高的工作状态,主要出现在员工生病、压力大或在岗但有事不专心的情况。
2.1.2. 隐性缺勤测量
隐性缺勤的测量主要采取自我报告型的调查方法,国外目前已有的较为成熟的测量工具包括《工作受限问卷》《斯坦福隐性缺勤简式量表》和《工作效率和活动受损问卷》等,应用较为广泛的量表有《斯坦福隐性缺勤简式量表(SPS)》和《工作受限问卷(WLQ)》等,其信度和效度都较高。国内学者对一些较为成熟的测量工具进行了汉化研究,进行了引进和翻译,验证中文版问卷具有良好的信度和效度,同时,在测量工具研发方面,国内学者依据实际情况针对我国高新技术企业知识工作者研制出了专门的隐性缺勤测量工具 [3] 。
2.2. 预测模型研究
根据已有文献,国内外学者在员工行为预测、财务金融预测、灾害预测等多个方面都进行了预测研究,在员工行为预测方面,主要对员工不安全行为、员工离职、旷工等行为进行预测研究,从不同方面为员工管理提供决策依据。
在预测方法方面,最初学者主要采取统计学的方法进行研究,从单一变量模型到多元变量分析模型,提高了预测的准确率,但是仍旧存在着预测结论的时效性不强等问题,基于此,学者将分析概率模型引入到预测模型研究当中,进一步提高了预测模型的使用范围和预测准确率。近年来计算机技术发展迅速,人工神经网络、机器学习等人工智能技术逐渐被应用到预测模型研究当中,多个研究结果表明使用人工智能的预测模型准确率有所提高,此外,将统计学方法与人工智能技术相结合也能提高模型的准确率,如任婷婷将代价敏感支持向量机作为改进AdaBoost算法的基分类器,建立动态了不平衡预警模型 [4] 。
3. 模型方法
3.1. XGBoost算法原理
XGBoost是一种经过改进的梯度提升决策树(GBDT)算法 [5] ,构造决策树(子分类器)后一个子分类器对前一个子分类器的残差进行修正,各个子分类器结果求和构成总分类器,比起其他模型,能够更好地控制过拟合 [6] ,其本质是不同的单个决策树的组合。假设一个包含n个样本m个特征的数据集
,
,其中
表示第 个样本的特征向量,
代表第i个样本的标签,则由 棵树集成的模型输出为:
(1)
XGBoost模型的目标函数为:
(2)
其中式子右边第一部分为度量预测值与真实值之间的损失函数,第二部分表示对模型复杂度的惩罚项(正则项),用来控制模型的复杂程度,防止过拟合。确定一棵CART树需要两部分,首先是树的结构,这个结构将输入样本映射到一个确定的叶子节点上,记为
,第二部分是各个叶子节点值,输出的叶子节点序号记为
,对应叶子节点序号的值记为
,由定义可得:
(3)
XGBoost对应的模型包含多棵树,每棵树的复杂度定义为:
(4)
其中T为叶子节点的个数,
为叶子节点向量的模,
为正则化惩罚项系数,
为最小训练损失函数下降值。
根据式子(2),当第t棵树生成的时候,目标函数可表示为:
(5)
使用二阶泰勒展开对目标函数进行近似定义,泰勒展开式为:
(6)
假设令损失函数为泰勒公式中的f,令损失函数中
为泰勒公式中的x,令损失函数中
项为泰勒公式中的
,则目标函数可以表示为:
(7)
其中,
表示前
棵树组成的学习模型的预测误差,为常数项,对优化目标不产生影响,因此可以将常数项合并去除,得到目标函数为:
(8)
其中
(9)
(10)
表示预测误差对当前模型的一阶导函数值,
表示预测误差对当前模型的二阶导函数值,结合式(3)和式(4),将
与
的表达式带入到目标函数中,得到表达式为:
(11)
式(11)第一部分为对所有训练样本进行累加,因为所有样本都是映射为树的叶子节点,从叶子节点出发,对所有的叶子节点进行累加,可得:
(12)
令
(13)
表示映射为叶子节点 的所有输入样本的一阶导之和,
表示映射为叶子节点j的所有输入样本的二阶导之和,可得:
(14)
其中,对于第t棵CART树的某一个确定结构而言,其叶子节点是相互独立的,
和
都是确定量,因此,式(15)可以看成是关于叶子节点的一元二次函数。此时目标函数最优值w为:
(15)
将
带入到目标函数中,可得:
(16)
上式也称为打分函数,可以用来衡量树结构的质量,其值越小,代表结构越好,用打分函数选择最佳切分点,从而构建CART树,确定样本特征的所有切分点,对每一个确定的切分点进行切分,切分好坏的标准如下:
(17)
表示单节点
与切分后的两个节点的树
之差,遍历所有特征的切分点,找到最大
的切分点即是最佳分裂点,根据这种方法继续切分节点,得到CART树。若
值设置的过大,则
为负,表示不切分该节点,因为切分后的树结构会变差,
值越大,表示对切分后
下降幅度要求越严。
3.2. XGBoost算法优势
XGBoost算法主要体现在以下五个方面。第一是精度更高,传统的梯度提升决策树GBDT算法在进行优化的时候只使用一阶导数信息,XGBoost算法则对损失函数进行了二阶泰勒展开,从而增加了精度,并且能够自定义损失函数。第二是灵活性更强,传统的GBDT算法的基学习器为CART,XGBoost还支持线性分类器。第三是防止过拟合,XGBoost通过在目标函数当中加入正则项来控制模型的复杂程度,从而使模型的方差降低,学习出的模型变得更加简单,有助于防止出现过拟合的情况。第四是支持列抽样,能够在防止过拟合的同时减少计算。第五是增加了对缺失值的处理,对于样本中特征的缺失值,XGBoost采用的稀疏感知算法可以自动学习出它的分裂方向。基于以上,XGBoost能够在取得高精度的同时保持较快的速度,在使用当中能够取得较好的效果。
4. 影响家政员工隐性缺勤预测的心理属性构建
4.1. 基于心理理论选取心理属性
心理活动不但对个体的身心健康有影响,同时在其行为和社会适应等方面都发挥着作用 [7] ,在人力资源管理领域,心理属性也已经得到了广泛的应用 [8] 。基于已有研究可知,心理弹性、职业倦怠和心理契约是影响员工隐性缺勤的重要因素 [9] ,每个心理维度下的属性能够更详细地说明产生影响的具体原因,因此,结合心理弹性、职业倦怠和心理契约理论完成影响家政员工隐性缺勤预测的心理属性构建。
基于心理弹性、职业倦怠和心理契约理论的概念、内容与维度、理论模型 [10] 等方面选取心理属性,在此基础上,结合对Y企业管理者的访谈结果分析,保证选取心理属性的合理性,进行心理属性的初步确定,最终确定的心理属性如表1所示。
![](Images/Table_Tmp.jpg)
Table 1. Summary of psychological attributes that affect the implicit absence status of domestic service staff
表1. 影响家政服务员隐性缺勤状态的心理属性总结
4.2. 心理属性实验分析
4.2.1. 调研对象
Y企业在职家政服务人员。
4.2.2. 实验方法
为了测量心理属性,同时考虑到Y企业家政员工的受教育水平,本文基于目前较为成熟的心理弹性量表 [11] 、心理契约量表 [12] 、职业倦怠量表 [13] 、隐性缺勤量表 [14] 进行修订,将量表的维度与问题与所构建的心理属性相对应。心理弹性量表和职业倦怠量表采用采取Likert-5分量表法进行计分,1 = 从来没有这样、2 = 很少这样、3 = 有时候这样、4 = 经常这样、5 = 几乎每次都这样,隐性缺勤量表采取Likert-5分量表法进行计分,1 = 完全不同意、2 = 比较不同意、3 = 不确定、4 = 比较同意、5 = 完全同意,其中后两个条目采取反向计分,以得分的中位数为截断点,分为高隐性缺勤和低隐性缺勤状态 [15] ,心理契约量表采取Likert-5分量表法进行计分,1 = 不符合、2 = 有点不符合、3 = 一般、4 = 有点符合、5 = 符合。
4.2.3. 实验信度检验
使用克隆巴赫系数进行量表的信度检验,一般来说,当克隆巴赫系数大于0.6时,说明量表的信度较好,心理弹性量表、心理契约量表、隐性缺勤量表、职业倦怠量表的克隆巴赫系数均大于0.6,同时,各项的删除项后的克隆巴赫系数也没有明显的提升,说明无需对题目进行修改,心理弹性量表、心理契约量表、隐性缺勤量表、职业倦怠量表的信度检验结果如表2所示。
![](Images/Table_Tmp.jpg)
Table 2. Reliability analysis of questionnaire questions
表2. 问卷题目可靠性分析
4.2.4. 基本信息分析
本次共调查801名Y企业家政服务员工,对收集信息进行整理后,调查对象的基本信息如表3所示。
![](Images/Table_Tmp.jpg)
Table 3. Basic information of survey subjects
表3. 调查对象基本情况
4.3. 心理属性相关性分析与属性筛选
为了降低所使用心理属性的维度,本文使用皮尔逊相关系数对心理属性进行相关性分析,以此进行心理属性的筛选,皮尔逊相关系数的计算公式为:
(18)
其中,
是X,Y的标准差,
是X的标准差,
是Y的标准差。皮尔逊相关系数的值在[−1, 1]之间[16],所得值的绝对值越大,证明两属性的相关程度越高,设定皮尔逊相关系数的阈值为0.5,即当属性X与Y的皮尔逊相关系数的绝对值大于0.5时,属性X与Y的相关程度较高,从而保留属性X,删除属性Y。
4.3.1. 心理弹性维度下心理属性相关性分析与筛选
在心理弹性维度下选取的心理属性及其代码如表4所示。
![](Images/Table_Tmp.jpg)
Table 4. Psychological attributes and codes in the dimension of psychological resilience
表4. 心理弹性维度下心理属性及代码
心理弹性维度下各个心理属性之间的皮尔逊相关系数如表5所示。
![](Images/Table_Tmp.jpg)
Table 5. Pearson correlation coefficient matrix table between various psychological attributes under the dimension of psychological resilience
表5. 心理弹性维度下各个心理属性之间皮尔逊相关系数矩阵表
心理弹性维度下的心理属性筛选流程如下:依据属性R1为初始点进行选择,属性R1与其余属性的皮尔逊相关系数都小于0.5,故不进行属性筛选;根据属性R2进行选择,属性R2与属性R8的皮尔逊相关系数大于0.5,故删除属性R8,保留属性R2;根据属性R3进行选择,R3属性R9属性的皮尔逊相关系数大于0.5,故删除属性R9,保留属性R3;同理,分别根据属性R4、R5、R6、R7进行选择,属性R4、R5、R6、R7均与其余任一属性的皮尔逊相关系数都小于0.5,故不进行属性筛选,按照此步骤完成心理弹性维度下的心理属性筛选。
经过对心理弹性维度下各个心理属性的相关性分析,本文最终选取了 R1、R2、R3、R4、R5、R6、R7等7个心理属性。
4.3.2. 职业倦怠维度下心理属性相关性分析与筛选
在职业倦怠维度下选取的心理属性及其代码如表6所示。
![](Images/Table_Tmp.jpg)
Table 6. Psychological attributes and codes under the dimension of occupational burnout
表6. 职业倦怠维度下心理属性及代码
职业倦怠维度下各个心理属性之间的皮尔逊相关系数如表7所示。
![](Images/Table_Tmp.jpg)
Table 7. Pearson correlation coefficient matrix table between various psychological attributes under the dimension of occupational burnout
表7. 职业倦怠维度下各个心理属性之间皮尔逊相关系数矩阵表
由于职业倦怠维度下的心理属性筛选流程与心理弹性维度下的心理属性筛选方法相同,故不再体现具体分析过程,经过对职业倦怠维度下各个心理属性的相关性分析,本文最终选取了B1、B2、B3、B4、B5、B6、B7等7个心理属性。
4.3.3. 心理契约维度下心理属性相关性分析与筛选
心理契约维度下选取的心理属性及其代码如表8所示。
![](Images/Table_Tmp.jpg)
Table 8. Psychological attributes and codes under the dimension of psychological contract
表8. 心理契约维度下心理属性及代码
心理契约维度下各个心理属性之间的皮尔逊相关系数如表9所示。
![](Images/Table_Tmp.jpg)
Table 9. Pearson correlation coefficient matrix table between various psychological attributes under the dimension of psychological contract
表9. 心理契约维度下各个心理属性之间皮尔逊相关系数矩阵表
最终选取C1、C3、C4、C5、C6、C8、C9、C10、C11等9个心理属性。经过对心理弹性、职业倦怠、心理契约三个维度下各个心理属性的相关性分析,最终选取了23个心理属性用于下一步的模型构建。
5. 融合心理属性的家政员工隐性缺勤预测模型构建
5.1. 对比试验
5.1.1. 数据预处理
本文使用的数据包括Y家政企业数据库内的真实数据和使用心理量表所采集的数据,根据家政员工姓名和门店将以上两类数据进行匹配连接形成数据集。在构建模型之前,需要对所使用的数据进行预处理,避免出现数据缺失、数据类型错误等问题。
在经过缺失值处理、异常值处理、数据类型转换等操作后,形成包含基础属性、行为属性、心理属性和隐性缺勤状态属性等49个属性,801个样本在内的实验数据集,按照7:3的比例将数据集划分为训练数据集和测试数据集。
5.1.2. 数据属性说明
经过数据预处理后,本文使用的实验数据集包含49个属性、801个样本。其中,结果变量为隐性缺勤状态属性,其他属性为条件变量,可细分为基础属性、行为属性和心理属性,以下将对各数据属性进行详细说明。
将隐性缺勤量表得分的中位数作为截点,将家政人员隐性缺勤状态分为高隐性缺勤和低隐性缺勤状态,其中,高隐性缺勤状态380人,低隐性缺勤状态421人。
本文使用的家政服务员数据集中的基础属性包括入职年限、拥有技能数量、学历、性别、星级等8个属性,属性名称定义为J1-J8,行为属性包括接单量、工资、请假通过次数、请假拒绝次数等17个属性,属性名称定义为x1-x17。
5.1.3. 对比实验结果分析
首先构建基于基础属性和行为属性的预测模型,命名为模型1,再构建融合心理属性、基础属性和行为属性的预测模型,命名为模型2,采用网格搜索方法进行参数调优,调优后的参数如表10所示。
选取准确率(Accuracy)、精确率(Precision)、召回率(Recall)和F1值(F1 Score) 4个指标来进行模型的评价,采用经过调优后的参数建立XGBoost模型,对比两种模型的预测效果,详情见表11。
由表可知,融合了心理属性的模型2在四项指标上均优于未融合心理属性的模型1,从准确率来看,模型2的准确率比模型1提高了31.95%,证明了融合了心理属性的XGBoost模型在预测家政服务员工的隐性缺勤状态方面的性能更好;从精确率角度来看,以高隐性缺勤状态为例,模型2的精确率比模型1提高了30.63%,表明模型2所预测的高隐性缺勤状态中预测正确的比例大幅度提高;从召回率角度来看,以高隐性缺勤状态为例,模型2的召回率相较于模型1提高了29.41%,可知模型2能够更全面地正确预测处于高隐性缺勤状态的员工,同时,模型2的F1值高于模型1,综合来看,模型2的各评价指标均高于模型1,在家政员工的隐性缺勤状态预测方面有着良好的性能。
6. 结论
本文首先设计心理测量量表对Y家政企业员工进行调查,基于相关的心理理论完成对心理属性的初步选取,再通过相关性分析进一步筛选所使用的心理属性,将Y企业数据库数据与量表测量数据进行匹配连接,经过数据预处理后形成所使用的数据集,将数据集用于XGBoost家政员工隐性缺勤状态预测模型的构建,采用网格搜索方法进行参数调优,分别构建两个预测模型,模型1为基于基础属性和行为属性的家政员工隐性缺勤行为预测模型,模型2为融合心理属性、基础属性和行为属性的家政员工隐性缺勤行为预测模型,将两个模型进行对比实验,采用准确率、精确率、召回率和F1值等指标来评价模型的性能,结果表明,模型2在各个指标上均优于模型1,表明了融合了心理属性的XGBoost家政员工隐性缺勤状态预测模型的优越性。
本文结合大数据方法,融合心理属性构建XGBoost家政员工隐性缺勤预测模型,提高了对家政员工隐性缺勤状态预测的准确性,便于企业及时获取员工状态,采取相应措施进行管理,对企业管理有积极的作用。
参考文献
NOTES
*通讯作者。