1. 引言
这几年以来,随着我国工业的快速发展、产业结构的调整和我国国民经济的快速发展,我国钢铁工业不仅在数量上取得了较快增长,而且在质量、技术经济、准备水平、节能与环保等诸方面也取得了巨大成就,钢铁工业成为了非常具有竞争力的工业,为我国国民经济的快速发展做出了突出贡献。钢铁行业的稳定发展是实现我国新型工业化战略目标的关键一环,其发展水平的高低是衡量我国工业化水平和综合国力高低的重要标志。
《钢铁产业调整和振兴规划》(2009)表明,我国是钢铁生产和消费大国,粗钢产量连续13年位居世界第一,钢铁产业涉及面广、产业关联度高、消费拉动大,在经济建设、社会发展、国防建设、财政税收以及稳定就业等诸多方面发挥着至关重要的作用。21世纪以来,我国粗钢产量年均以21.1%的速度迅速增长。2007年,我国钢铁规模以上企业完成工业增加值为9936亿元,占我国GDP的4%,实现利润2436亿元,占我国工业利润总额的9%;到2008年,国内粗钢消费量为4.53亿吨,直接出口钢材产品折合为粗钢6000万吨,占世界钢铁贸易总量的15%。钢材产品大体上可以满足国内需要,对保障国民经济又好又快发展做出了突出贡献。
但是,我国钢铁工业形势依然严峻,存在以下几个问题:一是投资盲目,产能过剩;二是企业分布不合理;三是资源控制力弱;四是流通方向混乱;五是创新能力不强;六是产业不集中,粗钢生产企业平均规模不足100万吨,排名前5的企业钢材产量仅占全国钢材总量的28.5%。
为了解决上述的一些问题,学者们对钢铁需求量进行了深入研究:宝良,郗维强等人 [1] 运用计量经济模型,就相关的宏观因素对钢材的需求影响程度进行分析,得出了钢材消费与工业增加值、建筑业竣工面积之间的弹性关系,并根据模型进行了简单的预测;刘铁敏,周伟,王青等人 [2] 建立计量经济模型,从钢材历史统计数据分析相关因素对我国钢材需求量的影响,得到钢材需求量与相关因素的模型,并对模型进行预测;李凯、代丽华、韩爽等人 [3] 应用生长曲线模型,预测中国钢铁到达峰值点的时间以及拐点时间,并从不同的指标角度对结果进行分析;吴文东、吴刚、魏一鸣和范英等人 [4] 采用基于相关系数的组合预测方法对我国未来的成品钢材需求量进行预测;赵月红 [5] 通过对影响钢铁需求量的变量进行协整检验,说明它们之间存在长期的协整关系,建立了误差修正模型,并对钢材需求量进行了预测。通过查阅外文文献,发现国外预测钢材需求量的方法大概可以分为三种:第一种方法 [6] 是将钢材需求量看作是工业产值或者其他宏观经济变量的函数,建立模型研究钢材需求量;第二种方法 [7] 是采用向量自回归模型预测钢材需求量;第三种方法 [8] 是利用使用强度技术预测钢材需求量。
基于以上背景,为解决我国钢材需求量存在的国内供需平衡基础不平衡、生产成本高、对环境破坏大等诸多问题,本文将对我国1999年到2014年的钢材需求量及相关因素进行分析,找到未来几年我国钢材需求量呈现何种趋势,预测下一年,甚至未来几年内我国钢材需求量,做到未雨绸缪,防患于未然。
2. 数据分析
2.1. 数据来源及变量
通过中华人民共和国国家统计局 [9] ,中国统计年鉴查阅到1999年到2014年16年间我国成品钢材需求量、原油产量、原煤产量、天然气产量、生铁产量、发电量、水泥产量、全社会固定资产投资额、居民消费、政府消费的数据,变量名称如表1所示。
2.2. 数据预处理
对于上述给定的数据,为了能更好的建立回归模型,首先需要对数据进行简单分析,从因变量对自变量的影响和样本之间的相关系数等方面来分析数据各自的变化情况以及它们相互之间的关系。
2.2.1. 因变量y对自变量影响分析
为了观察成品钢材与其他变量之间的关系,从而建立合适的模型,因此对成品钢材与每个自变量作了散点图,具体结果如图1所示。
从图1第一行中可以看出,每一个自变量对因变量
都存在一定的线性关系,并且线性关系较强,因此对它们建立多元线性回归模型是合适的。
2.2.2. 样本相关系数
为了进一步刻画各变量之间线性关系的强弱,给出了各变量之间的相关系数,相关系数(记为
)不同的值代表的相关程度不同:
1) 若
,表示没有线性关系;
2) 若
,称为完全正相关,
,称为完全负相关;
3) 若
,则称有“一定程度”的线性关系,
越接近于1,则线性相关程度越高,越接近于0,则线性相关程度越低。
对于本文使用的数据,给出了各变量之间的样本相关系数,结果如表2所示。
![](Images/Table_Tmp.jpg)
Table 1. Information about each variable
表1. 各变量说明
![](Images/Table_Tmp.jpg)
Table 2. The sample correlation coefficient
表2. 样本相关系数
![](//html.hanspub.org/file/13-2390550x45_hanspub.png)
Figure 1. Scatter plot between the variables
图1. 各变量之间散点图
从样本的相关系数表表2可以看出,各变量的相关系数都在0.9以上,根据相关系数的判别,说明成品钢材与自变量有着高度的线性相关性,适合做
与9个自变量的多元线性回归。
3. 模型构建
3.1. 多元线性回归模型
在上述问题中,中国成品钢材的需求量
的影响因素有原油产量(
)、原煤产量(
)、天然气产量(
)、生铁产量(
)、发电量(
)、水泥产量(
)、固定资产投资额(
)、居民消费(
)和政府消费(
)等,因此,可以采用多元线性回归进行问题的分析。
多元线性回归模型的基本形式 [10] :设因变量
与自变量
的理论线性回归模型为:
![](//html.hanspub.org/file/13-2390550x59_hanspub.png)
其中,
是
个未知参数,
称为回归常数,
称为回归系数。
称为被解释变量(因变量),而
是
个可以精确测量并可控制的一般变量,称为解释变量(自变量)。
是随机误差,与一元线性回归一样,对随机误差项我们常假定其满足如下假设:
![](//html.hanspub.org/file/13-2390550x68_hanspub.png)
称
![](//html.hanspub.org/file/13-2390550x69_hanspub.png)
为理论回归方程。
写成矩阵形式为:
![](//html.hanspub.org/file/13-2390550x70_hanspub.png)
式中
![](//html.hanspub.org/file/13-2390550x71_hanspub.png)
为了方便对多元回归方程模型进行参数估计,对回归方程有如下的一些基本假设:
1) 解释变量
是确定性变量,不是随机变量,且要求
。
2) 随机误差项具有零均值和等方差,即:
![](//html.hanspub.org/file/13-2390550x74_hanspub.png)
这个假定常称为高斯-马尔柯夫条件。
3) 正态分布的假定条件为:
![](//html.hanspub.org/file/13-2390550x75_hanspub.png)
对于多元线性方程的未知参数,采用最小二乘估计方法,经整理后得到如下形式:
![](//html.hanspub.org/file/13-2390550x76_hanspub.png)
基于上述的分析,对本文使用的变量建立如下多元线性回归模型:
![](//html.hanspub.org/file/13-2390550x77_hanspub.png)
使用R软件,编写相应的程序代码。为了便于后面的比较,这里的回归系数给出的是标准化后的系数,具体结果如表3所示:
根据表3给出的结果,得到回归方程为:
![](//html.hanspub.org/file/13-2390550x78_hanspub.png)
调整后的决定系数
,由决定系数看,回归方程高度显著;
,表明回归方程高度显著,说明自变量
整体上对
有高度显著的线性影响。但是从回归系数的显著性检验看,在0.05的显著性水平下,只有
对
是显著的,其他的自变量都不显著。造成这种现象的原因可能是自变量
之间存在多重共线性,由于多重共线性的存在,利用普通最小二乘估计得到的回归参数估计值很不稳定,回归系数的方差随着多重共线性强度的增加而加速增长,就会造成回归方程高度显著的情况下,有些回归系数通不过显著性检验,甚至导致回归系数的正负号得不到合理的经济解释。
3.2. 多重共线性诊断
当回归方程的解释变量之间存在很强的线性关系,回归方程的检验高度显著时,有些与因变量y的简单相关系数绝对值很大的自变量,其回归系数不能通过显著性检验,甚至出现有的回归系数所带符号与实际经济意义不符,这时就认为变量间存在多重共线性。近年来,统计学家提出了许多判断多重共线性的方法,本文主要使用方差膨胀因子法来判断九个自变量之间是否存在多重共线性。
对自变量作中心标准化 [10] ,则
为自变量的相关阵。记:
![](//html.hanspub.org/file/13-2390550x87_hanspub.png)
![](Images/Table_Tmp.jpg)
Table 3. Coefficient of linear regression model
表3. 线性回归模型系数
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1. Residual standard error: 450.1 on 5 degrees of freedom Multiple R-squared: 0.9999, Adjusted R- squared: 0.9998. F-statistic: 7831 on 9 and 5 DF, p-value: 7.894e−10.
称其为主对角线元素
为自变量
的方差膨胀因子,则有:
![](//html.hanspub.org/file/13-2390550x99_hanspub.png)
式中,
为
的离差平方和,由上式可知,用
作为衡量自变量
的方差膨胀程度的因子是恰如其分的。记
为自变量
对其余
个自变量的决定系数,则方差膨胀因子可以表示为:
![](//html.hanspub.org/file/13-2390550x107_hanspub.png)
度量了自变量
与其余
个自变量的线性相关程度,这种相关程度越强,说明自变量之间的多重共线性越严重,
越接近1,
就越大。经验表明,当
时,就说明自变量
与其余自变量之间有严重的多重共线性,且这种多重共线性可能会过度地影响最小二乘估计值。
对本文的9个自变量,进行多重共线性检验,计算自变量
的方差膨胀因子,结果如表4所示。
从表4可看出,每个自变量的
值都很大,最小的方差膨胀因子
,远远超过了10,说明9个自变量之间存在严重的多重共线性,如果还按照一般的线性回归方法进行建模,所得到的预测结果会很不理想,为此需要先消除自变量之间的多重共线性,再对变量进行建模。
3.3. 消除多重共线性方法
通过上述的分析可知,9个自变量之间存在严重的多重共线性,这会对回归预测产生严重的影响,为此在建模前需要消除变量之间的多重共线性。消除多重共线性的方法有很多,例如可以剔除一些不重要的解释变量、增大样本量、回归系数的有偏估计、逐步回归法、岭回归法、主成分回归法、偏最小二乘回归法等,本文主要通过逐步回归法和Lasso回归法来消除多重共线性的影响。
3.3.1. 逐步回归
逐步回归法 [10] [11] 是一种选择自变量最优子集的方法,该方法的基本思想是有进有出,具体做法是将变量一个个引入,每引入一个自变量后,对已选入的变量要进行逐个检验,当原引入的变量由于后面变量的引入而变得不再显著时,要将其剔除。引入一个变量或从回归方程中剔除一个变量,为逐步回归的一步,每一步都要进行
检验,以确保每次引入新的变量之前回归方程中只包含显著的变量,这个过程反复进行,直到既无显著的自变量选入回归方程,也无不显著的自变量从回归方程中剔除为止。
对本文的9个自变量,通过使用逐步回归法,来选择对成品钢材都显著的变量,从而建立回归模型,为了便于后面的比较,给出了标准化后的回归系数。逐步回归的结果如表5所示。
由表5可知,经过逐步回归后得到的回归方程为:
![](//html.hanspub.org/file/13-2390550x119_hanspub.png)
由回归方程可以看出,剔除的变量有原油产量(
)、天然气产量(
)、水泥产量(
)、居民消费(
)等四个变量,对成品钢材需求量有显著性影响的自变量是原煤产量(
)、生铁产量(
)、发电量(
)、固定资产投资(
)和政府消费(
),在其他条件不变的情况下,当原煤产量每增加一个单位,我国成品
![](Images/Table_Tmp.jpg)
Table 4. Variance inflation factor of independent variable
表4. 自变量的方差膨胀因子
![](Images/Table_Tmp.jpg)
Table 5. The results of stepwise regression
表5. 逐步回归结果
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1. Residual standard error: 378.5 on 9 degrees of freedom. Multiple R-squared: 0.9999, Adjusted R-squared: 0.9999. F-statistic: 1.992e+04 on 5 and 9 DF, p-value: < 2.2e−16. Shapiro-Wilk normality test. data: b$res. W = 0.97312, p-value = 0.9013.
钢材需求量就会减少0.090个单位;当生铁产量每增加一个单位,成品钢材需求量增加0.387个单位;其他变量的解释也如此,变量的解释符合经济规律,说明该模型建立符合常理。
从表5中可以看出调整后的决定系数
,说明回归方程是显著的,在0.05的显著性水平下,除了
,其他剩余的变量都通过了显著性检验,说明建立该模型比较合理。关于残差的Shapiro-Wilk正态性检验的
值为0.9013,可以认为在0.05的显著性水平下不能拒绝残差来自正态总体的假定。说明该模型的建立符合线性回归模型的一般条件,可以用该模型来进行预测。
3.3.2. Lasso回归
多元线性回归模型的矩阵形式为:
,参数
的普通最小二乘估计(OLS)为
,当自变量
与其余自变量间存在多重共线性时,
很大,
就很不稳定在具体取值上与真值有较大的偏差,有时甚至会出现与实际经济意义不符的结果。针对出现多重共线性时,普通最小二乘法明显效果变坏的问题,学者们提出了岭回归法、Lasso回归法等消除多重共线性的方法。
Lasso回归 [12] 的基本思想如下:
假定自变量的数据矩阵
为
的,OLS估计寻求那些使得残差平方和最小的系数
,即:
![](//html.hanspub.org/file/13-2390550x156_hanspub.png)
Lasso回归则需要一个惩罚项来约束系数的大小,在原理上和岭回归的想法有些类似,但Lasso回归法在惩罚项中添加的不是系数的平方而是其绝对值,即在约束条件
下,系数需要满足下面的条件:
![](//html.hanspub.org/file/13-2390550x158_hanspub.png)
出于绝对值的特点,Lasso回归的做法是筛选掉一些系数。对于回归系数的选择,本文使用
统计量,如果从
个自变量中选取
个(
)参与回归,那么
统计量的定义为:
![](//html.hanspub.org/file/13-2390550x164_hanspub.png)
据此,选择
最小的模型即为Lasso回归的最终模型。
对本文数据进行Lasso回归,所得结果如表6和表7所示。
由表6的
变化结果可知,最小的
,故选择使
最小步的系数,即选择第6步的回归系数,第6步回归系数结果如表7所示。
由表7,可以建立Lasso回归方程:
![](//html.hanspub.org/file/13-2390550x169_hanspub.png)
从回归方程可以看出,Lasso回归剔除的变量有原油产量(
)、原煤产量(
)、居民消费(
)和政府消费(
)等四个变量,使用天然气产量(
)、生铁产量(
)、发电量(
)、水泥产量(
)和固定资产投资(
)五个变量来对我国成品钢材需求量进行建模。
4. 模型效果比较
根据第三节的分析,本文建立了三个回归模型,它们分别是:
![](//html.hanspub.org/file/13-2390550x179_hanspub.png)
![](//html.hanspub.org/file/13-2390550x180_hanspub.png)
![](//html.hanspub.org/file/13-2390550x181_hanspub.png)
为了比较三个模型拟合效果的好坏,给出了三个模型对1999年-2014年成品钢材需求量进行预测,预测结果和原始成品钢材需求量的值如图2所示。
从图2中可以看出,预测效果最好的是Lasso回归,和真实数据值比较接近,效果最差的是一般的线性回归模型,和真实值的偏差比较大。
![](Images/Table_Tmp.jpg)
Table 6. The change of value in the Lasso regression
表6. Lasso回归中
值的变化情况
![](Images/Table_Tmp.jpg)
Table 7. Regression coefficient of Lasso regression
表7. Lasso回归的回归系数
![](//html.hanspub.org/file/13-2390550x185_hanspub.png)
Figure 2. Comparison on steel demand forecast for three models
图2. 三个模型对成品钢材需求量的预测值比较
因此对于我国成品钢材需求量的分析,可以通过天然气产量(
)、生铁产量(
)、发电量(
)、水泥产量(
)和固定资产投资(
)五个变量来建立模型,并由该模型来预测今后几年的成品钢材需求量。
5. 结论与建议
5.1. 结论
本文通过问题分析及假设建立了一般线性回归模型、逐步回归模型和Lasso回归模型,发现使用天然气产量、生铁产量、发电量、水泥产量和固定资产投资这五个变量就能对我国钢材需求量进行很好地分析。以此同时,为完成对未来我国钢材需求量的预测,需要对其相关变量的未来可能变化趋势进行深入分析,并以此为依据运用本模型进行钢材需求量的预测,变量的未来取值可以根据变量增长情况结合我国实际情况进行估计。
5.2. 建议
1) 在结构调整方面,应通过依法强制性推行节能减排目标和严格税收征管,加快淘汰落后产能,加速推进钢铁产业装备和技术结构升级,推进产业结构升级,在依靠法律手段的同时还要体现市场竞争的作用,避免钢铁产业越淘汰产能越大,而是要依靠竞争让企业体会到产品结构升级的好处。此外还要通过加快钢铁企业联合重组实现结构调整、提高我国钢铁行业自主创新能力和行业自律协调能力。
2) 在节能环保方面,应制定科学的管理细则,提高废铁使用比例,减少能耗,同时引进新技术提高生产率,加大对自然环境造成影响的企业的处罚,同时建立各种市场的预警、预测系统,使市场参与者能科学地判断市场运行效率和风险。