基于线性回归模型对汽车价格预测分析
Analysis of Automobile Price Prediction Based on Linear Regression Model
DOI: 10.12677/SA.2022.114087, PDF, HTML, XML, 下载: 325  浏览: 2,114 
作者: 范雪晨:云南财经大学,云南 昆明
关键词: 价格预测线性回归显著性多重共线性Price Forecast Linear Regression Significance Multicollinearity
摘要: 随着时代进步、科技创新以及社会经济的不断发展,出行因为有了汽车的加入而变得更加便捷,因此对汽车的需求逐渐增大,舒适、性价比高的汽车就成了人们的首选。而汽车价格在汽车市场营销中是一个重要的因素,他会直接影响到汽车产品在市场中能否被接受,影响生产者是否能获得最大盈利,同时还会影响消费者是否有能力购买以及消费者是否愿意购买。本文数据是某汽车公司为了顺利进入美国市场,对影响美国市场的汽车定价因素的研究。通过对定价因素的影响分析,汽车研究人员可以合理设计汽车,这样更有利于对汽车产品的定价,能够更好地制定销售策略,以获得最大的价值。
Abstract: With the progress of the times, technological innovation and the continuous development of social economy, travel has becomes more convenient because of the addition of cars. Therefore, the demand for cars gradually increases, and comfortable and cost-effective cars have become people’s first choice. Automobile price is an important factor in automobile marketing. It will directly affect whether automobile products can be accepted in the market, whether producers can get the maximum profit, and whether consumers are able to buy it and whether consumers are willing to buy it. The data of this paper is a study of the automobile pricing factors affecting the American market in order to enter the American market smoothly. By analyzing the influence of pricing factors, automobile researchers can reasonably design cars reasonably, which is more conducive to the pricing of automobile products and can better develop sales strategies to obtain maximum value.
文章引用:范雪晨. 基于线性回归模型对汽车价格预测分析[J]. 统计学与应用, 2022, 11(4): 832-844. https://doi.org/10.12677/SA.2022.114087

1. 引言

1.1. 研究背景

2009年中国汽车销售量达到了世界第一,但至今中国汽车在国际市场中只占据了很小的市场份额,并没有实现我们走向全球市场的目标。为了顺利进入美国市场,汽车企业希望可以在美国设立生产部门并在当地生产汽车,他们想要了解美国汽车定价的影响因素,以便制定合适的价格。

1.2. 研究意义

我国汽车企业顺利进入美国市场这对我们走向国际市场奠定了基础。中国汽车行业在国际市场中取得领先的市场份额,对实现我国制造强国战略,抢占制造业新一轮竞争制高点非常重要。国际化发展是中国汽车企业进一步增强竞争力的必由之路 [1]。

1.3. 文献综述

汽车工业在整个国家的经济中,起着重要支柱的作用。汽车工业是高度技术密集型的综合型组装工业,在产业链全球化时代,国产自主汽车品牌的快速发展很难通过单一的国内市场来实现,拓展海外市场是所有汽车企业的必要选择 [2]。

汽车产业是实现我国制造强国的重要力量,而汽车产业又是深度全球化的行业。在当下面临全球百年未有之大变局的新形势下,中国汽车企业有机会制定合适的策略抓住历史性机遇实现弯道超车,在国际化进程中取得突破,成为真正的汽车强国 [3]。

随着经济全球化发展,中国本土汽车企业纷纷着眼海外市场,积极向海外扩张。经过多年努力,中国本土汽车企业已在国际市场营销中取得了一些成绩,但由于国际市场比国内市场环境复杂得多,再加上贸易壁垒、跨国文化差异等诸多因素,而且我国对于汽车产品的研发水平、服务水平等也与世界传统汽车强国存在很大差距,我国本土汽车企业的国际化道路还存在困难与挑战 [4]。

2. 数据来源及分析

2.1. 数据来源

本文所使用的数据来源:https://www.datafountain.cn/datasets/4610的数据集file.csv。数据信息如表1所示:

Table 1. The specific value of a variable

表1. 变量的具体取值

该数据是某汽车公司为了顺利进入美国市场,对影响美国市场汽车定价所依赖的因素进行研究分析。对此数据进行分析更有利于研究员设计汽车以及对汽车进行定价。

2.2. 数据分析

1) 因变量的描述性分析

Figure 1. The histogram of price

图1. price直方图

图1所示,从直方图和图中的正态曲线大致可以看出数据呈右偏分布,说明该数据存在极大值,会拉动平均值向极大值一方靠近,峰值大约出现在15,000处。

2) 变量之间的散点图矩阵

Figure 2. Scatter plot matrix between variables

图2. 变量之间的散点图矩阵

图2所示,从散点图矩阵中大致可以看出Wheel base和Car length、Car width、Car height、Curb weigh、Engine size均呈正相关关系;Wheel base与Peak rpm、City mpg、High way mpg呈负相关关系;Car length与Car width、Curb weigh、Engine size均呈正相关关系;Car length与Peak rpm、City mpg、High way mpg呈负相关关系;Car width与Curb weigh、Engine size均呈正相关关系;Car width与Peak rpm、City mpg、High way mpg呈负相关关系;其余变量间也存在一定相关关系。

3) 自变量的箱线图

Figure 3. Box plot of wheel base

图3. Wheel base的箱线图

Figure 4. Box plot of car width

图4. Car width的箱线图

Figure 5. Box plot of engine size

图5. Engine size的箱线图

Figure 6. Box plot of stroke

图6. Stroke的箱线图

Figure7. Box plot of compression ratio

图7. Compression ratio的箱线图

Figure 8. Box plot of horse power

图8. Horse power的箱线图

Figure 9. Box plot of high way mpg

图9. High way mpg的箱线图

变量箱线图示例如图3~9所示。

对变量做箱线图分析得出部分结论,wheel base、curb weigh、engine size、horse power和city mpg分布的比较离散,wheel base、car length、car width、engine size、stroke、compression ratio、horse power、peak rpm、city mpg和high way mpg出现了异常点,可以看出wheel base、car width、engine size、compression ratio、horse power、peak rpm、city mpg、high way mpg呈现右偏分布,即数据中有极大值,拉动着均值向右移;car length、stroke呈现左偏分布,即数据出现极小值,拉动均值向左移。

3. 研究方法概述

3.1. 线性回归模型

本文数据构成了多元线性回归模型,其中 β 0 是常数项, β 1 β 2 β 13 是回归系数, ε 时随机误差项 [5]。假设我们对因变量 Y (Price)和自变量 X 1 (wheelbase)、 X 2 (car length)、 X 3 (car width)、 X 4 (car height)、 X 5 (curb weigh)、 X 6 (engine size)、 X 7 (bore ratio)、 X 8 (stroke)、 X 9 (compression ratio)、 X 10 (horse power)、 X 11 (peak rpm)、 X 12 (city mpg)、 X 13 (high way mpg)进行了 n 次观测,得到 n 组观测值如下:

x i 1 , x i 2 , , x i 13 , y i i = 1 , 2 , , n

它们满足关系式:

y i = β 0 + β 1 x i 1 + β 2 x i 2 + + β 13 x i 13 + ε i i = 1 , 2 , , n (1)

用SPSS软件进行数据分析,得出系数表,如表2,由此表建模,得到的模型表达式为:

Y = 47495.741 + 122.617 X 1 94.675 X 2 + 505.572 X 3 + 163.180 X 4 + 1.885 X 5 + 117.346 X 6 1002.565 X 7 3034.606 X 8 + 298.137 X 9 + 30.809 X 10 + 2.375 X 11 320.355 X 12 + 202.822 X 13 (2)

Table2. Table of the coefficients of the linear regression models

表2. 线性回归模型系数表

a. 因变量:price。

从数据得到的回归方程的实际意义是:当wheelbase增加一个单位时,汽车价格增加122.617个单位;当car length增加一个单位时,汽车价格减少94.675个单位;当car width增加一个单位,汽车价格增加505.572个单位;car height每增加一个单位,汽车价格增加163.180个单位;当curb weigh增加一个单位,汽车价格增加1.885个单位;当engine size增加一个单位时,汽车价格增加117.346个单位;当bore ratio增加一个单位,汽车价格减少1002.565个单位;当stroke增加一个单位,汽车价格减少3034.606个单位;当compression ratio增加一个单位,汽车价格增加298.137各单位;当horse power增加一个单位,汽车价格增加30.809个单位;当peak rpm增加一个单位,汽车价格增加2.375个单位;当city mpg增加一个单位,汽车价格减少320.355个单位;当high way mpg增加一个单位,汽车价格增加202.822个单位。

Figure 10. Model diagnostic diagram

图10. 模型诊断图

图10所示,可以看出线性回归模型不存在异方差现象,残差服从正态分布。

3.2. 回归方程的显著性检验

回归方程的显著性检验就是检验假设:所有回归系数都等于零。对于此数据,我们提出原假设 H 0 : β 1 = β 2 = = β 13 = 0 ,回归方程不显著;备择假设 H 1 : β 1 β 2 β 13 不全相等,回归方程显著。

Table 3. Model summary

表3. 模型摘要

a. 预测变量:(常量),high way mpg, stroke, peak rpm, car height, compression ratio, bore ratio, engine size, car width, wheelbase, horsepower, car length, curb weight, city mpg. b. 因变量:price。

一般来说R方的取值在0~1之间,R方取值越接近1,说明水鬼方差对于样本数据点的拟合优度越高。如表3所示,数据输出结果可以知道R方为0.851,初步判定回归方程拟合程度较好。

Table 4. Analysis of variance table

表4. 方差分析表

a. 因变量:price;b. 预测变量:(常量),high way mpg, stroke, peak rpm, car height, compression ratio, bore ratio, engine size, car width, wheelbase, horsepower, car length, curb weight, city mpg。

表4所示,我们通过方差分析可知,显著性 = 0.000 < 0.01 < α = 0.05 ,所以拒绝原假设 H 0 ,回归方程显著,即因变量 Y (Price)和自变量 X 1 (wheelbase)、 X 2 (car length)、 X 3 (car width)、 X 4 (car height)、 X 5 (curb weigh)、 X 6 (engine size)、 X 7 (bore ratio)、 X 8 (stroke)、 X 9 (compression ratio)、 X 10 (horse power)、 X 11 (peak rpm)、 X 12 (city mpg)、 X 13 (high way mpg)之间的线性关系显著。

3.3. 回归系数的显著性检验

原理:当我们检验的结果是拒绝原假设,这就意味着因变量 Y 线性依赖于自变量 X 1 , X 2 , , X p 1 ,但并不能排除 Y 不依赖于某些自变量,即某些 β i 可能等于零。所以在回归方程显著性检验被拒绝之后,我们要对每个自变量逐一做显著性检验。

首先我们提出原假设 H 0 : β i = 0 , i = 1 , , 13 ,解释变量不显著;备择假设 H 1 : β i 0 , i = 1 , , 13 ,解释变量显著。在给定显著性水平 α = 0.05 的条件下,查表可知 t ( 0.025 ) = 1.645 ,如表2所示,自变量car length、car width、engine size、stroke、compression ratio、horse power、peak rpm、city mpg对汽车价格的影响是不明显的。但这种结论也不一定完全正确,当这八个自变量高度相关时,可能会导致它们对因变量的影响不显著,因此接下来我们要对多重共线性进行检验。

3.4. 多重共线性检验

基本假设之一是自变量 X 1 X 2 X p 之间不存在严格的线性关系。如不然,则会对回归参数估计带来严重影响。逐步回归法是我们检验多重共线性的一种重要方法。我们先对数据做逐步回归,再进行分析,用SPSS软件我们可以得出下面的所有图表。

首先我们对相关性进行分析,用相关系数表格我们可以判断自变量之间是否存在共线性。一般情况我们认为相关系数 > 0.7可以考虑变量之间存在共线关系。

Table 5. Correlation between variables

表5. 变量之间的相关性

表5所示,从数据的输出结果我们可以看出,多个变量之间的相关系数大于0.7,因此可以说变量之间是有多重共线性的。

在“回归系数表”里有重要的两个共线性诊断统计量:容忍度和VIF (方差膨胀因子)。一般情况下我们认为:容忍度 < 0.2或 V I F > 10 则要考虑自变量之间存在多重共线性的问题。

Table 6. Table of collinearity coefficient

表6. 共线性系数表

a. 因变量:price。

表6所示,我们可以看出部分自变量的容忍度小于0.2,同时curb weight、city mpg和high way mpg的VIF (方差因子)大于10,由此我们知道自变量之间可能存在共线性,这与相关系数表格所得出的结论相符。

最后我们要观察共线性诊断表格。在共线性诊断表格中我们要关注特征值和条件指标这两个参数。一般我们存在以下判定方法:1) 多个维度的特征值约为0证明存在比较严重多重共线性;2) 条件指标大于10,说明存在比较严重的共线性;3) 在方差比例中存在接近于1的数,说明存在比较严重的多重共线性。

Table 7. Colinear part of diagnosis is shown here

表7. 共线性诊断部分图示

a. 因变量:price。

表7所示,从输出结果可以看出特征值趋于0,条件指标大于10,在方差比例中,存在car width的值为0.89,接近于1,所以结果表明变量之间存在多重共线性。

3.5. 岭回归分析

原理:上述回归方程存在严重的多重共线性,即X中各列向量之间存在较强的相关性,会导致 | x x | 0 ,从而引起 ( x x ) 1 的值很大。并且不一样的样本也会导致参数估计值 β ^ 变化非常大,即参数估计量的方差也增大,对参数估计会不准确。岭回归分析是一种改良的最小二乘法,他是通过放弃最小二乘法的无偏性,以损失部分信息为代价来寻找效果稍差但回归系数更符合实际情况的模型方程。

Table 8. Table of variable coefficient estimated by ridge regression

表8. 岭回归估计的变量系数表

表8所示,通过R软件的应用,我们可以得到最优模型对应的各个变量的系数,同时还可以得到在选择岭回归的过程中,最优模型的参数 λ 所对应的均方误差的运动轨迹,直观地看出最佳 λ 的大致取值,如图11所示。

Figure 11. Trajectories of parameters λ and mean square errors

图11. 参数λ与均方误差的运动轨迹

3.6. 决策树回归分析

利用RStudio软件的rpart.plot包可以得出下图:

Figure 12. Regression tree

图12. 回归树

图12所示,可以看出这棵回归树顶部的分裂点产生出两大分支。左边的分支对应Engine size (汽车整备质量)小于182,右边的分支对应Engine size (汽车整备质量)大于182;在Engine size (汽车整备质量)小于182的节点处又产生两个分支,分别是Curb weight (湿度比)大于2660和Curb weight (湿度比)小于2660。在Curb weight (湿度比)小于2660的分支内又产生大于2292和小于2292的两个分支;在Curb weight (湿度比)大于2660的分支里又产生Car width (汽车宽度)大于69和Car width (汽车宽度)小于69的两个分支。这棵树有三个内部结点和五个终端节点(树叶),每个树叶上的数字表示落在这个树叶处观测值的平均响应值。

4. 结论

通过上述对美国市场汽车定价的影响因素的研究,我们有了初步的了解。Wheelbase、car length、car width、car height、curb weigh、engine size、bore ratio、stroke、compression ratio、horse power、peak rpm、city mpg和high way mpg对美国汽车市场的定价都有很大影响。

汽车产业是国家经济发展的重要支柱,并且其整个产业链在国家工业生产、提供就业、促进科技创新发展等方面也起着重要的作用。面对全球经济形式复杂的今天,我们的国产汽车品牌走向国际市场是一项重要突破,先步入美国市场为后续发展奠定了基础 [2]。

致谢

行文至此已临近结束,回归此篇文章的撰写过程,少不了老师朋友的帮助。感谢各位老师对我数据模拟的指导;感谢同学对我数据收集的帮助以及大力支持;感谢身边朋友对我的不断鼓励以及感谢家人对我的陪伴。

参考文献

[1] 蔡娅囡, 农驰. 中国汽车企业国际化发展与展望[J]. 企业科技与发展, 2021(5): 24-27.
[2] 时文泽. 国产汽车企业国际化发展策略分析[D]: [硕士学位论文]. 天津: 天津商业大学, 2020.
[3] 徐陈栋, 方舒杰, 潘超杰, 叶凌浩, 刘建超. 新能源汽车产量的影响因素分析[J]. 汽车工程师, 2021(2): 11-14.
[4] 邢思思. 中国本土汽车企业国际市场营销研究[D]: [硕士学位论文]. 北京: 对外经济贸易大学, 2015.
[5] 王松桂, 史建红, 尹素菊, 吴密霞. 线性模型引论[M]. 北京: 科学出版社, 2004.