1. 引言
随着大数据时代的到来和产业的快速发展,社会对大数据相关从业人员的需求日益增长。有关机构或组织相继发布了大数据分析与应用职业技能方面的有关标准。阿里巴巴(中国)有限公司于2021年12月发布了《大数据分析与应用职业技能等级标准》;中国通信企业协会于2022年6月发布了《大数据分析与应用开发职业技能等级标准》。此外,不少机构相继开展了相关认证工作,比如阿里云的大数据分析师认证、CDA数据分析师认证等。2022年6月14日,国家人社部向社会公示18个新职业信息,其中包括“商务数据分析师”。国家工信部和人社部制定的《大数据工程技术人员国家职业技术技能标准》中,将大数据工程技术人员专业技术等级中的初级、中级分为大数据处理、大数据分析和大数据管理三个职业方向。有关高校为了适应社会对人才培养提出的新要求,在大数据管理与应用、电子商务、市场营销等有关专业的基础上,根据不同的职业领域、行业特点和市场需求等因素,划分出更为具体的专业领域,设置诸如商务大数据分析、大数据营销、商务数据分析与应用等专业方向或开设有关课程。这些相关专业或课程围绕大数据的分析和应用展开,旨在培养具备较强数据素养能力的专业化人才。但从市场需求来看,随着大数据技术的迅速发展,企业对掌握大数据技术的专业人才的需求也在不断变化。为了适应这种变化,数据素养教育需要及时根据市场需求进行调整和完善,为此需要通过对学生数据素养能力进行科学评价,找出不断优化改进的方向。
2. 数据素养评价指标体系设计
2.1. 指标体系设计依据
2.1.1. 数据生命周期理论
该理论基于大数据环境下数据在组织中的流转情况,将数据生命周期阶段定义为:数据采集、数据分析与处理、数据存储与管理以及数据交流与共享,之后这些数据被再次利用从而进入下一个新的生命周期当中 [1] 。因此,在借鉴数据生命周期理论的基础上,结合大数据分析和应用的一般步骤,将数据素养分解为“识别问题→明确所需数据→数据采集→数据处理→数据分析→给出结论→提出解决方案”等环节所具备的能力表现。
2.1.2. 问题解决理论
该理论被定义为由一定情境引起的,按照一定的目标,应用各种认知活动、技能等,经过一系列思维操作使问题得以解决的过程。个体是否具有解决问题的思维水平和思维策略,即个体能否对问题进行分析、综合、比较、抽象与总结,反映个体如何去解决问题的过程 [2] 。因此,学生数据思维的形成体现在问题解决过程中,数据分析需要聚焦在业务、产品和用户上,即落实到数据应用上,不是为了分析而分析,学生通过问题解决使数据素养得到培养与提升。
2.1.3. 成果导向教育理论
成果导向教育(Outcome-Based Education,简称OBE)理论是一种以学习成果为目标的教育理念 [3] 。按照OBE理论,构建数据素养评价指标体系需要结合人才培养目标的要求,秉持“学生中心、成果导向、持续改进”的教育理念,形成制定评价目标、选取评价指标、实施评价过程和反馈与改进的闭环,最后针对不同对象分别给出优化策略建议。
2.2. 指标体系构建原则
数据素养评价指标体系的构建需要在有关理论的指导下,考虑社会及教育发展需要和人才培养要求等因素,具体遵循以下主要原则:
1) 适应专业定位与培养目标要求。指标体系要与教育部制定的有关专业教学质量标准要求相融合,充分考虑相关专业的多学科交叉的特征,指标的选取应与专业培养方案相适应,紧扣社会对相关专业人才的要求,符合相关专业的教育现状和未来科技发展方向。
2) 反映专业培养过程并体现核心要素。数据素养能力评价指标体系要能够真实反映人才培养过程,每个指标能与人才培养方案相关联,与课程设置相适应,做到选择有依据且结果可追溯。此外,选择的指标不宜过多,应选择最能体现相关专业数据素养能力的核心要素。
3) 数据可收集和结果可观测。指标的选择应简单明了,结果可直观把握。指标所对应的相关数据应可衡量和可收集。所得结果能够通过数字的形式来表示,使相关人员能够通过量化结果直观把握数据素养教育状况。
2.3. 数据素养评价指标选取
首先确定评价维度,然后根据评价维度的含义确定评价指标,结合当前相关专业人才数据素养教育现状和特征以及指标体系设计依据和构建原则进行筛选,最终共选取4个维度12个指标,指标具体含义如表1所示。
3. 数据素养能力评价模型构建
3.1. 图示模型
数据素养评价流程如图1所示,按图中箭头方向从下到上,构成持续改进链,依次为确定评价对象→指标评分→维度评分→数据素养测评→数据素养模糊综合评价→反馈与优化人才培养方案。其中,评价对象为同一班级每名学生;评价时间点可以是在有关课程教学期末或学生大三下学期期末。确定评价对象的各指标评分可以用两种方法来确定,对应两种应用场景:第一种由教师通过各指标观测点确定评价对象的各指标评分值,第二种由学生通过各指标对应的测评题给出评语选择从而确定各指标评分值。后一种属于学生自评,教师借助有关网络平台得到各指标评分值,采集数据方便。本文针对后一种应用场景,通过数据素养测评方法反映评价对象的个体状况,运用数据素养模糊综合评价方法反映评价对象的整体状况,探究改进的重点。
![](Images/Table_Tmp.jpg)
Table 1. Data literacy evaluation indicators
表1. 数据素养评价指标
![](//html.hanspub.org/file/122-1165189x7_hanspub.png?20231226084214277)
Figure 1. Graphical model of data literacy evaluation
图1. 数据素养评价图示模型
3.2. 数据素养测评方法及过程
3.2.1. 指标评分及处理
1) 制作和发布测评题。参考表2所示自评题项及五种回答选项制作数据素养测评题。自评题项参考李克特量表(Likert scale)来确定,每个自评题项对应一个评价指标。自评学生对每个题项有五种回答(很不符合、不太符合、有点符合、比较符合、完全符合),学生答题后对每个回答赋值依次记为1、2、3、4、5,分别对应评语为很差、较差、一般、较好、很好。将测评题发布在超星学习通或问卷星网站,学生答题后即可汇总数据。
2) 构建指标值矩阵。整理学生答题结果构建指标值矩阵A。设自评学生有m个,第i个学生第j个
指标评分值为
,则12个评价指标值矩阵为
。
3) 规范指标值矩阵。对指标值矩阵进行极差标准化,得到标准化矩阵B。标准化后的数值均落在[0, 1]之间,从而达到消除量级以及量纲的作用。此外,在标准化处理时,指标计算公式中一般加上一个微小数比如0.00001,其作用是为了避免出现0或负数,以确保后续计算结果的可靠性。
![](Images/Table_Tmp.jpg)
Table 2. Data literacy assessment questions
表2. 数据素养测评题
3.2.2. 确定评价指标权重
确定评价指标权重的方法主要有主观赋权法和客观赋权法,后者的优点主要是根据原始数据之间的关系来确定权重,因此权重的客观性强,方法具有较强的数学理论依据。经过比较,采用客观赋权法中的熵值法来计算权重,有助于评价结果更加准确和可靠。计算过程首先要在标准化矩阵B的基础上计算指标熵值和指标差异系数,然后计算指标权重。由此得到12个指标归一化的权重系数,依次表示为
~
。
3.2.3. 计算评价维度权重
将12个指标权重按各个维度再进行归一化,得到按维度归一化权重。以数据认知维度为例,其下属三个指标的权重依次为
、
、
,按数据认知维度归一化后的权重分别为
、
、
,将这3个权重系数求和,得到数据认知维度权重
。其它3个维度按同样方法处理,由此得到相应维度权重为
、
、
。
3.2.4. 计算评价维度评分
对每个评价对象各维度下的对应指标评分值
加权求和,即可得到其各维度的评分。第i个评价对象的4个维度评分如公式(1)~(4)所示。
(1)
(2)
(3)
(4)
3.2.5. 计算综合评分
将各维度评分与对应的权重相乘求和即得到第i个学生的数据素养评分。设第i个学生的综合评分为
,计算公式如(5)所示。
(5)
3.3. 数据素养模糊综合评价方法及过程
为了更好地把握评价对象的数据素养整体状况,应用模糊综合评价方法做进一步的分析是一个科学可行的方法。其原因在于,按照模糊数学理论,数据素养能力高低这样的概念具有模糊性,难以用某种尺度精确度量。在这种情况下,运用模糊数学来对它进行研究具有客观基础和科学依据。该方法作为模糊数学的一种具体应用方法,应用模糊变换原理和最大隶属度原则,考虑评价系统的各个相关因素,能够对评价对象整体进行科学的综合评价。
数据素养模糊综合评价方法及过程主要包括:
1) 构建指标评价表。通过整理指标值矩阵A,统计每个测评题项符合各评语的频率,得到某个班级的指标评价表,表中第j个指标对第k个评语的隶属度为
。
2) 建立隶属度矩阵。根据指标评价表得到各维度的隶属度矩阵
。
3) 计算各维度综合评价矩阵。根据按维度归一化后的指标权重,可得到各维度相应权重矩阵
。通过权重矩阵和各维度隶属度矩阵相乘,得到各维度综合评价矩阵
。各维度综合评价矩阵所得到的结果分别表示各维度对应评语的隶属度。
4) 计算数据素养综合评价矩阵。将
构成新的隶属度矩阵,与各维度权重
构成的权重矩阵相乘得到数据素养综合评价矩阵M。所得结果
分别表示某个班级的数据素养相对应各评语的隶属度。根据最大隶属度原则,由此可以判断目前整体的数据素养状况。
3.4. 差异值计算分析
差异值计算分析主要有以下步骤:
1) 计算测评值。测评值是某个维度或指标的隶属度按赋值换算的单一得分。设评语“很不符合、不太符合、有点符合、比较符合、完全符合”的赋值矩阵为
(5 × 1矩阵,“;”表示换行),设第t个维度综合评价矩阵及其测评值依次为
、
,第
个指标隶属度矩阵及其测评值依次为
、
,则测评值计算如公式(6)、(7)所示。
(6)
(7)
2) 计算差异值。差异值是某个维度或指标在考虑权重情况下其测评值与5分满分相比的差距数值。差异值的计算如公式(8)所示。
差异值 = 权重值 × (5 − 测评值) (8)
3) 找出改进重点。差异值越大,表明所反映的因素对数据素养的影响越不利,是需要改进的重点。
4. 数据素养评价实证分析
4.1. 问卷发放与处理
4.1.1. 问卷设计与发放
在网络平台参照表2编辑和发布数据素养测评题,发放对象为符合评价对象情况的班级。
4.1.2. 问卷批阅
学生答题后,教师对各班级每名学生答题进行批阅,将评语集5个选项设置依次按照1~5分进行赋值,由此得到各班级每名学生的12个指标评分数据。
4.1.3. 问卷评估
以某班级46名学生为例,对指标值数据使用统计软件进行信效度检验,采用
系数测量整个量表的内部一致性系数,表3给出了量表总体内部一致性系数检验结果,信度系数值为0.951,大于0.9,且表4检验结果显示各个量表系数值均大于0.8,说明信度较高。如表5所示,KMO值大于0.8,说明结构效度良好。因此,测评题所收集数据可用于进一步分析。
![](Images/Table_Tmp.jpg)
Table 3. Overall consistency test results
表3. 总体一致性检验结果
![](Images/Table_Tmp.jpg)
Table 4. The results of the consistency test at the main level
表4. 主要层面一致性检验结果
![](Images/Table_Tmp.jpg)
Table 5. KMO and Bartlett test results
表5. KMO和巴特利特检验结果
4.2. 数据素养测评
4.2.1. 建立指标值矩阵
整理测评题答卷,整理班级学生的评分结果得到指标值矩阵。
4.2.2. 计算指标权重
运用Python程序对指标值矩阵进行极值标准化,得到标准化矩阵,然后计算各指标的熵值和差异系数,利用熵值法得到的各指标权重如表6“指标权重1”列的数据所示。将各维度下的对应指标“指标权重1”数值求和即得到各维度权重。再对各维度下的所属指标权重进行归一化,得到按维度归一化的权重,即“指标权重2”列数据。
4.2.3. 综合评分
将每名学生各维度下每个指标赋值与其对应归一化权重相乘求和,得到该生各维度的评分;各维度的评分与对应的维度权重对应相乘求和,得到该生的数据素养测评得分。据此可以了解该生各维度的目前状况,也可以与其以往的测评结果进行对比分析。
4.2.4. 评分统计分析
将5分制综合评分换算为百分制评分,统计分析的结果如表7所示。从中可知,该班级数据素养能力属于中等(70~79)的居多,占比45.7%,但数据素养能力差(<60)的占比也有15.2%。具体到各维度,表现最好的为数据知识维度,属于优秀(90~100)和良好(80~89)的占比合计超过60%;表现最差的是数据应用维度,属于及格(60~69)和不及格(<60)的占比合计也超过60%。从标准差结果也可看出,数据应用维度的评分数据分布最为分散,离散程度最大,说明该班级在数据应用方面差异比较明显;而数据技能维度的标准差最小,表明该班级学生的数据技能水平差异不大。
![](Images/Table_Tmp.jpg)
Table 6. Weights of evaluation indicators
表6. 评价指标权重
![](Images/Table_Tmp.jpg)
Table 7. Statistical analysis of scores
表7. 评分统计分析
4.3. 数据素养模糊综合评价
4.3.1. 构建指标评价表
对指标值矩阵进行整理,按每个指标统计每个评语出现的频率,所得结果如表8所示(
~
依次表示12个指标),表中每个数据表示某个指标属于某个评语的隶属度。
4.3.2. 建立模糊评价矩阵
根据指标评价表可得到各维度的隶属度矩阵,依次为
。
4.3.3. 计算综合评价矩阵
根据表6得到的“指标权重2”,可得到各维度相应的权重矩阵
。通过权重矩阵和各维度的隶属度矩阵相乘,得到各维度综合评价矩阵
。
(9)
(10)
(11)
(12)
各维度权重矩阵与
构成的隶属度矩阵相乘得到数据素养综合评价矩阵M。
(13)
所得结果表明,该班级数据素养相对应评语集的隶属度结果中,“比较符合”的隶属度(0.4455)最高。根据最大隶属度原则,可判断该班级目前的数据素养处于较好水平。再从四个维度的综合评价结果来看,该班级数据认知和数据应用处于一般水平,数据知识和数据技能总体处于较好水平。
4.4. 数据素养教育优化策略
计算各维度和指标的测评值与差异值,构建如表9所示的因素分析表。表9中,“改进序”是按指标的差异值计算的排序值,差异值越大的排序越前。从表中指标改进序来看,数据利用能力、数据挖掘技能、数据可视化技能、数据采集技能、数据工具知识等是需要重点改进的指标。从维度差异值来看,数据技能是优先改进的重点,其次是数据应用。
按以上方法对其它班级进行同样评价,再综合各班级的评价结果,据此提出数据素养教育的优化策略:在相关课程教学中,建议进一步完善教案、教学过程设计,加强实训练习,重点针对数据技能维度提升学生的数据挖掘、数据可视化和数据采集技能。在人才培养方案中,建议进一步加强学生数据应用能力的培养,重点是增强学生将数据技能应用拓展到创新创业实践和竞赛项目等领域、利用数据来解决实际问题并提出有价值建议的能力,通过学分设置、奖励、加分等措施,激励学生更多参与第二课堂的活动。通过深化产教融合来强化学生数据素养,可以更好地将企业的产业需求和人才培养目标相结合,有助于提供更加符合行业标准的人才培养方案和课程体系,不断强化数据素养教育,提升学生的数据素养能力。
![](Images/Table_Tmp.jpg)
Table 9. Influencing factor analysis table
表9. 影响因素分析表
5. 结语
在有关研究的基础上,本文针对应用型本科院校大数据分析与应用等相关专业学生的数据素养评价与优化策略进行研究,提出4个维度和12项指标构成的评价指标体系,通过数据素养测评题采集数据,运用客观赋权法确定权重,据此对学生个体和整体的数据素养状况进行评价。问卷检验和实证分析结果表明,本文所提出的数据素养评价方法及过程可行有效;数据素养测评结果有助于从量化角度把握学生的数据素养水平状况,数据素养模糊综合评价的结果有助于把握学生整体的数据素养教育状况,通过差异值分析有助于明确数据素养教育改进的重点,对优化人才培养体系提供科学依据。
基金项目
2023年度广州商学院质量工程项目“能力本位与OBE理念下数据素养教育研究与实践”(2022JXGG46)资助。