1. 引言
创新是现代企业实现可持续发展的第一动力,关于企业双元创新的研究目前已有许多,相关理论及分析主要围绕影响因素、作用机制及作用效果展开,其中影响因素研究大多从两个角度即内部组织影响和外部环境影响切入。内部影响因素中,关于企业资源的研究最早提出,Jancenelle等 [1] 将企业资源分为有形和无形两种,基于复杂性理论提出相对无形性即相对资源总和的无形资源份额是企业成功的关键指标。张馨等 [2] 的研究将人员结构引入创新影响因素分析中,提出科研人员异质性影响。在组织制度方面,股权激励制度的影响受到广泛认可,高层管理者激励 [3] 和企业员工激励 [4] 均对创新能力产生作用,员工结构 [5] 的调节作用也在激励过程中显现。此外,外部影响因素的分析也较为丰富。基本涵盖政策环境 [6] 、市场环境 [7] 、技术环境 [8] 。
综上,各视角下企业创新相关影响因素分析均比较深入透彻。但是,在诸多分析研究中,学者们多数利用双重差分模型或固定效应模型等进行单个变量直接影响分析或调节变量对比分析,较少学者将机器学习模型应用到双元创新影响因素分析中进行大规模变量综合分析,存在研究片面、主观性较强等不足之处。本文利用机器学习特征工程中特征选择算法,建立企业双元创新影响因素模型,对双元创新相关的46个影响因素进行重要性程度综合评估分析,最终得到了含22个重要特征集合空间,在保留高维数据预测准确性优势的同时减少了模型复杂性,提高了企业管理过程中数据价值,为企业双元创新能力提高起到一定的借鉴参考作用。
2. 模型建立
2.1. 样本选择与数据来源
本文选取2011~2021年中国沪深A股上市公司作为研究样本,初始样本6万余,企业专利及董事会、监事会和高管的个人信息等企业指标数据来自中国研究数据服务平台(CNRDS)、中国经济金融研究数据平台(CSMAR)以及上市公司企业年报数据,城市层面的数据来自《中国城市统计年鉴》及各省市统计年鉴。对一些研究需要的数据库并未收录的信息,使用Python软件通过网页进行数据爬虫抓取,结合手动搜索补充。
2.2. 变量选取及计量
2.2.1. 双元创新变量
现有关于企业双元创新的研究中,探索式创新和开发式创新的衡量主要集中在专利衡量、投入衡量和文本搜索衡量三方面。专利衡量角度,根据我国专利法专利分为发明专利、实用新型、外观设计三类,学者一般根据专利内容侧重点及审批难度区分,使用侧重新技术新产品、申请难度大的发明专利衡量企业探索式创新,使用侧重技术完善、申请难度较低的实用新型与外观设计衡量开发式创新。投入衡量角度,根据创新时间点不同,企业研发投入可分为研究阶段投资和开发阶段投资,研究阶段创新难度大往往是对新产品的全新创造,符合探索式创新特点;开发阶段则通常是对现有产品及技术的改进完善,符合开发式创新特点。据此使用创新投入衡量双元创新时往往用研发活动的费用化支出衡量探索式创新,资本化支出衡量开发式创新。文本搜索衡量角度,方鑫等 [9] 对企业年报就分别进行探索式创新、开发式创新相关词汇统计,使用对应词汇频次和度量两类创新水平。
考虑到样本选择、数据获取等因素的影响,本文参考汤莉 [10] 研究,用专利衡量方式计算上市公司双元创新能力,同时考虑专利申请需要一定时间,使用延后一期的发明专利申请数量代表探索式创新能力,使用延后一期的实用新型与外观设计专利申请数量和代表开发式创新能力。在模型稳健性评估中,使用资本化创新投入和费用化创新投入分别代表探索式创新能力和开发式创新能力替换被解释变量。
2.2.2. 解释变量
根据资源基础理论、利益相关者理论、信息不对称理论、企业数字化转型等相关理论,本文按照企业内部影响因素、外部环境影响因素、数字化转型相关因素三大类总结归纳学者们之前的研究,并加入数字经济指数指标,构建企业双元创新能力影响指标体系。
1) 企业内部影响因素。企业内部影响因素细分为基础属性、人员状况、运营状况、治理状况。基于企业创新主体特征及创新行为流程,在基础属性中考虑了企业规模、上市时长、企业年龄、生命周期四指标,在人员分布中考虑了研发人员数量、职工数量、职工学历、岗位分布四指标,运营状况从经济角度出发考虑企业利润、资产周转率、托宾Q值、营业收入四指标,在治理状况中考虑了内部控制指数、监管制度、激励制度、决策制度四指标。其中:
企业生命周期。企业生命周期变量参考尹闪等人研究使用企业经营、投资、筹资三维现金流量分类方法计算,计算结果分为增长期、成熟期、衰退期三个阶段,使用哑变量表示。
监管、激励、决策指标。借鉴Sergey Anokhin [11] 、顾乃康等 [12] 人研究。监管分为董事会监督作用和股权监督作用,董事会监督作用使用独立董事比例与董事会规模表示,股权监督作用使用机构持股比例、股权制衡度(二至五大股东持股比例之和/控股股东持股比例)表示。激励机制选用高管薪酬与高管持股比例来表示。决策主要考虑总经理决策权力,使用董事长职位与总经理职位是否两职合一来表示。
2) 外部环境影响因素。外部环境影响因素分为政策环境、行业环境和外部关注度。根据既有研究可知企业政策环境可使用企业所获得政府补助表示。行业环境根据企业所在省份的全要素生产率以及《中国区域科技创新评价报告2022》中提到的区域知识创造效用、知识获取效用、企业创新效用、创新环境效用、创新绩效效用表示。外部关注度则使用个人关注度及媒体关注度表示,其中个人关注使用月均超额换手率表示,媒体关注使用总关注度、正面关注度、中性关注度、负面关注度表示,即新闻媒体中出现该企业的新闻总数、正面新闻数、中性新闻数、负面新闻数,该数据来源CNRDS数据库。
3) 数字化转型相关影响因素。数字化转型相关影响因素从企业角度和区域角度进行表示。其中企业数字化转型程度参考祁怀锦等 [13] 的研究,根据企业财务报告所披露的年末无形资产明细项中与数字化转型相关的部分占无形资产总额的比例来度量。即通过查找含有“数字化”“智能网络”“管理系统”“智能平台”等与数字化转型技术相关的关键词的项目或专利,将其定为“数字化技术无形资产”,计算企业当年度所有数字化技术无形资产占本年度无形资产的比例,即为企业数字化转型程度。区域数字经济发展水平主要参考潘为华等 [14] 的研究,从数字金融使用深度、覆盖广度、数字化程度三方面综合度量,数据来源于《北京大学数字普惠金融指数》及《中国数字经济指数白皮书》。
归纳前人研究得到的企业双元创新能力影响因素变量指标及说明见表1。
Table 1. Variables influencing enterprise ambidextrous innovation
表1. 企业双元创新影响因素变量指标
2.3. 特征选择模型
在有监督学习问题中,对于每条样本信息都有一个正确的输出,记为Y,输入特征的向量
组成要素空间
。在此定义下,特征选择的目标函数可表示为:
(2-1)
式(2-1)中,
,
组成的特征子空间
,f表示可以转换输入特征的关于x的机器学习模型,以最小化预测输出和正确输出之间的距离。距离衡量使用包括欧几里得距离在内的多种计算方式。
特征工程的总体目标是选择最佳特征子空间,为既定的算法提供最佳数据性能支持。因此特征工程实际上依赖于所定处理模型,这意味着不同算法模型的最佳特征子空间可能不同。本文使用多种代表性算法进行特征选择,并通过投票选出多种算法下企业创新模型中共同的重要特征,保证特征选择合理性。
2.4. 特征选择方法
特征选择方法主要包括过滤式选择、包裹式选择、嵌入式选择。过滤式选择通常是作为独立于模型的预处理方法,根据通过解释变量与被解释变量的相关性得分选择特征。包裹式选择是根据机器学习的模型预测性能对特征集进行效用评估,特征子集的错误率越低则结果越好,错误率最低的特征子集被记为最有特征集合,组成特征子空间。嵌入式选择方法是由学习算法引申来的,是学习算法的组成部分,通常在学习过程中引入稀疏诱导正则化或先验到学习算法的目标函数中来起作用,即将选择过程嵌入到学习过程中,在学习中不断优化特征集合的权重赋值。
本文选取卡方拟合法(Chi2)、递归消除方法(Random Forest)、随机森林(Random Forest)算法建立CRRT特征选择模型进行重要特征评估选择,对其结果进行综合分析。
3. 实证分析
3.1. 数据预处理
鉴于样本数据参差不齐,为保证样本可靠性和数据完整性,对于样本值进行初步筛选,筛选标准如下:
1) 剔除经营异常的ST、*ST或PT以及金融类行业上市公司样本;
2) 根据商务数据基本原则,剔除不符合的上市公司样本。即剔除资产负债率不在0~1区间的样本;
3) 剔除变量数量缺失严重及核心变量缺失的上市公司样本;
4) 对连续变量在前后1%分位处进行双边缩尾处理,避免极端异常值影响模型拟合效果。
最终,获得809家上市公司7065个样本观测值。
由于样本不同维度数据间存在数量级差别,因此在进行实验前对数据进行预处理。本文使用Scikit Learn预处理包的Standard Scaler模块针对样本特征进行标准差标准化,标准化公式如式:
(3-1)
式(3-1)中,
为所有样本数据均值,
为所有样本数据的标准差。
3.2. 相关性分析
根据皮尔逊相关系数矩阵计算方式,对样本数据进行相关性分析,计算公式为式(3-2)。
(3-2)
其中,r为相关性系数,
、
为变量数据值,
、
为变量数据均值,n为变量个数。如果y与x完全正线性相关,则r等于1;如果y与x完全负线性相关,则r等于−1;如果y与x完全非线性相关,则r等于0。使用SPSS软件计算相关性系数,具体结果见表2。
Table 2. Sample data correlation analysis
表2. 样本数据相关性分析
**. 相关性在0.01层上显著(双尾)。*. 相关性在0.05层上显著(双尾)。
根据表2相关性分析可以看出,绝大部分指标与探索性创新能力及开发式创新能力相关性显著,表明本章所建立影响因素指标体系科学合理,可以使用样本数据进行双元创新能力评估分析。
3.3. CRRT特征选择结果分析
使用Python3.9对CRRT模型进行模拟仿真,分别得到三种算法下企业双元创新的20个重要特征指标。依据各指标重要度排序赋值得分,三个模型所有指标分数求和后再次排序,得到最终综合指标集。
各算法的主要代码见表3:
Table 3. Main codes of feature selection algorithms
表3. 特征选择算法主要代码
3.3.1. 探索式创新重要特征
利用发明专利数量作为被解释变量建立探索式创新影响因素选择模型,得到各算法下重要特征集(指标重要性程度至上到下为由高到低),具体指标见表4:
Table 4. Important features of exploratory innovation sub-model (number of invention patents)
表4. 探索式创新分模型重要特征(发明专利数量)
从表4中可以看出,以发明专利为探索式创新变量时,各算法均认为研发人员数量为最重要特征,研发人员、研究生及以上学历员工通常具有较高的研发创新技能和较强的解决问题的能力,他们的加入对企业科技水平的提高和推动企业技术创新的发展很有帮助。人力资源素质对探索式创新能力影响重要性程度高也符合探索式创新难度大、重研发的特点。
统计各算法中各指标排名得分,得到三类算法下重要性程度最高的20个指标,形成发明专利表征下探索式创新能力影响因素重要特征子空间,具体指标见表5:
Table 5. Comprehensive important features of exploratory innovation (invention patents)
表5. 探索式创新综合重要特征(发明专利)
3.3.2. 开发式创新重要特征
针对实用新型与外观设计专利和作为被解释变量,建立开发式创新影响因素选择模型,使用三类算法分别得到重要特征指标集,具体指标见表6:
Table 6. Important features of the development innovation sub-model (utility model and design patent)
表6. 开发式创新分模型重要特征(实用新型和外观设计专利)
从表6中可以看出,以实用新型和外观设计专利为开发式创新变量时,政府补助以及部分财务指标成为重要性程度较高指标,这符合创新能力对资金要求的特点,与探索式创新对高素质人才要求不同,开发式创新能力影响因素中职工数量及本科人数等重要性程度较高,这些员工通常具有更为专业的技能和更强的操作实践能力,这有利于企业实践应用型的研究及开发新项目,符合开发式创新特点。
统计各算法中各指标排名得分,得到三类算法下重要性程度最高的20个指标,形成实用新型和外观设计专利表征下开发式创新影响因素重要特征集合,具体指标见表7:
Table 7. Comprehensive important features of development-type innovation (utility model and design patents)
表7. 开发式创新综合重要特征(实用新型和外观设计专利)
3.3.3. 双元创新对比
以特征在双元创新影响因素指标集中的重要性排序作为对比依据,若某特征仅在探索性创新指标集中出现或在探索式创新影响因素指标集中的重要性排序高于开发式创新影响因素指标集中的重要性排序,认为该因素指标侧重于影响探索式创新能力;若两集合中重要性排序相同,认为该因素指标为标记为双元创新指标;否则认为该因素指标对开发式创新能力影响更大。
由图1可以看出,企业规模、净资产收益率、高管薪酬以及政府补助四个因素对探索式创新和开发式创新影响程度相当。从资源基础理论考虑,企业规模、净资产收益率、政府补助均会影响企业的资源丰富度,一般而言,企业规模大、收益高、补助多会直接提高企业资源存量,使得企业在创新发展过程中不至因资源限制而在双元创新选择上厚此薄彼。同理,资产负债率也在一定程度上反映企业资源变化,资产负债高则企业难以进行需要较大投入的探索式创新,开发式创新带来的短期效益则有利于改善企业经济状况。从人力资本讨论,在创新过程中,研发人员因职责所在,更容易进行探索式创新,研究生及以上学历人员则从知识、专业性出发也侧重探索式创新。技术生产员工、本专科学历人员距离实际生产更近,有更多机会进行难度较低的开发式创新。独立董事比例、股权制衡度、股东持股比例等反映董事会监督作用的因素对开发式创新影响更大,这从公司治理角度反映了股东们更倾向于进行容易获得短期大额收益的开发式创新。
Figure 1. Comparison of important features of ambidextrous innovation
图1. 双元创新重要特征对比
对各重要特征排序整理见表8。
Table 8. Combined Important Features of Ambidextrous Innovation (Patents)
表8. 双元创新综合重要特征(专利)
从表8中各指标重要性排序看,数字化转型程度成为影响探索性创新的最重要因素,这反映了数字化时代企业要想进行大幅度、改革化深度创新则需要紧跟时代发展,进行数字化转型是新格局下企业进行探索式创新的有效途径。开发式创新影响因素中,人力相关因素较多影响度排序也更靠前,这与开发式创新的特点相关,开发式创新更多是过程中进行的,在生产、产品改进、业务流程等过程中,人力资源的投入和数量优势可以在一定程度上影响创新能力,对于难度要求较低的开发式创新的影响也更显著。而对于专业性强、难度大的探索式创新,则与研发人员的质量相关性更高。
3.3.4. 模型稳健性
使用资本化研发投入与费用化研发投入分别替换发明专利与实用新型和外观设计专利作为双元创新解释变量指标,再次使用所建立特征选择模型进行拟合,检验模型稳健性。替换被解释变量指标后,重复特征选择过程,最终得到的重要特征指标见表9和表10:
Table 9. Comprehensive key characteristics of exploratory innovation (capitalized R & D investment)
表9. 探索式创新综合重要特征(资本化研发投入)
Table 10. Comprehensive key characteristics of development-based innovation (cost-based R & D investment)
表10. 开发式创新综合重要特征(费用化研发投入)
分别对比表5与表9、表7与表10发现,以不同指标表示被解释变量进行特征选择得到的特征选择后指标集合中各指标基本一致,表明所建立特征选择模型稳健性高,重要特征选择有效。
4. 结论
使用企业数字化转型程度成为影响探索式创新能力的最重要因素,进行数字化转型是新格局下企业进行探索式创新的有效途径。开发式创新能力影响因素中人力相关特征较为重要,人力资源的投入和数量优势对开发式创新能力影响较探索式创新能力影响更显著。企业规模和资产、得到的政府补助以及高管薪酬则是企业协同发展双元创新需着重考虑的因素特征。
致谢
感谢对本论文完成过程中提供数据的支持者、提供指导和帮助者,同时对本论文应用资料给予转载和引用权的资料、图片、文献、研究思想和设想的所有者表示感谢。