1. 引言
随着互联网的飞速发展和科技的不断进步,网购也因此而变得繁荣了起来,各电商企业为争夺客户资源以及培育流量增长点不断展开促销活动,有外国的“黑色星期五”、京东的“618品质狂欢节”、苏宁易购“818购物节”以及天猫“双十一购物狂欢节”等等,活动当天各平台将推行不同力度的优惠活动,其中尤以天猫“双十一”购物节的影响力最大。截至目前,“双十一”购物节已成为中国电子商务行业的年度盛事,逐渐影响到全球电子商务多行业,并对全球电子商务产生了潜移默化的影响。然而每一年的“双十一”购物节总是会出现有的店家商品早早告罄或者某些店铺的商品供过于求的情况,以致于在促销活动结束之后,还剩大量的货物。之所以会出现此种现象,就是因为有些商家没有制定合理的备货计划或者制定合理的定价水平,因此对天猫“双十一”的销售额进行预测显得尤为重要。国内有很多学者从影响商品销售的原因进行研究,但有关于“双十一”销售额预测的研究相对来说较少。有鉴于此,文章将利用python软件,借助网络平台收集及获取天猫近年来的销售数据,并选取相关的模型对其销售额进行预测。一方面有助于指导广大电商在购物节日中采取合理的备货及定价策略,做到既能吸引消费者下单,又能实现利润最大化。另一方面,在帮助各个店家获利的同时有利于拉动内需,从而促进我国经济的高效发展。
2. 文献综述
2.1. 预测技术理论
预测技术是一种根据现有的情况从而对未来的发展趋势进行预测的方法,对我们的生活具有一定的现实指导意义。20世纪40年代德国Afellay [1] 首次提出预测学科,促进了预测技术理论研究的发展。柴建、寇红红(2024) [2] 认为预测技术是根据历史及现在反映的信息,以调查研究或科学实验分析为基础,通过科学的运算和逻辑推理,对预测对象的未来发展趋势做出预计和推测,得到预测对象未来发展方向的一种方法。国内关于预测技术的研究方法主要分为两类:定性预测技术和定量预测技术。定性预测技术是指利用已有得知识水平以及生活阅历对未来的发展趋势进行预测的一种方法。杨兴雨(2018) [3] 从专家的谈判意见来形成投资组合的策略。定量预测技术是指对所观察到的对象进行量化,通过统计学知识以及相关的数学方法建立预测模型。现如今关于定量预测的方法种类越来越多,主要有:人工神经网络、BP神经网络、决策树模型、XGboost组合模型、GM (1, 1)模型、时间序列分析法、支持向量机等机器学习算法。总的来说,关于预测技术的研究方法已经从定性分析方法过渡到定量分析方法,定量分析方法相对于定性分析方法来说,预测的结果将更为准确,更能精确的预测出预测对象的未来发展趋势。并且,经过时间的沉淀,大量的研究学者们已经认识到单一的预测模型已经不能满足预测精度的需要,因此,现如今国内大量的学者已经将预测模型从单一预测模型转向组合模型,从而使得模型的预测精度有所提高。
2.2. 预测技术应用实例
国内外的大量研究学者不仅从理论层面研究预测技术的应用原理及方法,而且还将理论联系实际,将所研究的各种预测模型运用到实际中,现如今已在很多的领域进行了预测,并对现实生活产生了有利的影响。
周成骥(2018) [4] 从利用强大的机器学习算法来预测用户的购买情况的角度出发,借助消费者与商品的交互信息,基于Bagging策略的XGboost组合模型,通过预测未来哪些消费者会购买哪些商品,从而判断消费者对商品的喜好,决策者便可以以此为依据,建立一个消费者与商品之间的推荐系统。一方面,有益商家制定合理的售货计划;另一方面,有助于消费者可以快速便捷的找到想要的商品,而不用像以前那样花很长的时间区浏览海量的商品,才能选出心仪的产品,不仅便利了消费者,也对店铺的经营计划有着重要的指引作用。
赵万金等人(2014) [5] 通过对地震储层及含油气预测技术进行研究,指出裂缝是碳酸盐岩、火山岩中重要的油气储集空间,也是大部分非常规油气的重要储存地方,将理论模型与测井岩石物理分析进行结合的方法用于预测油气地震,同时对已有的模型进行改进进而克服了测井岩石物理直接应用带来的片面性,对非常规油气地震勘探技术的预测对现实生活具有重要的意义。
左宪章等人(2010) [6] 指出对军事装备进行有效的质量监控和故障预测是技术保障中一个尤为重要的部分。他们通过集成智能故障预测技术、智能BIT、基于支持向量机的故障预测技术、智能故障预测系统、基于无线传感网络的远程分布式智能故障预测系统等方法对军事故障进行预测,对提高部队的战斗力和保障效率至关重要,同时也可以避免因不足维修而导致的事故发生。
2.3. 销售预测
销售预测是指通过分析企业近些年来的销售数据,找出这些数据之间存在的关联、规律性以及未来的发展趋势,然后运用合适的数学方法以及逻辑推理建立相关的预测模型,从而对企业未来的销售情况进行预测。刘轶芳(2009) [7] 从品牌价值的角度来研究其对企业销售额的影响途径及影响力度。李晓敏等(2018) [8] 指出国内对销售预测的研究主要是在借鉴国外销售预测的方法的基础上做更进一步的探索和分析。近年来,关于销售预测方法的研究主要有两种趋势:一是采用传统的统计计量方法进行预测,二是采用人工神经网络等人工智能模拟手段进行预测。对企业的销售额进行预测,一方面,对企业的经营活动具有重要的指导意义,另一方面,有助于合理的使用货源,不致于存货过多。
杨道文等人(2014) [9] 通过提高预测模型的精确度的角度出发,采用了Elman神经网络对销售额进行预测分析,经过研究后,研究结果显示,基于Elman神经网络的商品销售额预测能够较好的反应商品销售额的变化趋势,且提高了预测精度,验证了该方法在商品销售额中的可行性。相比于BP神经网络,采用Elman神经网络对商品销售额建模和预测能很好地反应商品的销售额的变化趋势,并且还进一步提高了预测精度。
黄文明等人(2023) [10] 在对企业的销量预测方法进行研究,在销量预测研究的过程中,加入了销售产品的图片信息,研究图片信息的特征表示方法,利用包括图片特征在内的信息进行商品销量预测,目的在于销量预测的精度,从而为企业的管理决策提供支持,降低市场的不确定性。
钱永渭 [11] 等人(2011)采用神经网络理论对罐装饮料自动售货机销售额的预测进行了数学建模,采用BP神经网络实现了罐装饮料自动售货机销售额的预测,并通过隐层神经元和输入层神经元个数的确定以及训练算法性能对比验证了所设计模型和方法的可行性和有效性,为罐装饮料自动售货机的管理工作提供了一种新的方法。
2.4. 简单评述
从国内关于销售额预测的研究成果来看,模型的预测技术已经用于生活中的众多领域,例如对地震进行预测可以有效地减少危险伤害;对军事故障系统进行预测可以延长机器的使用寿命,同时还可以避免因维修不足而导致的故障的发生。再者,国内关于销售额预测的研究也并不少,主要集中在时间序列模型、支持向量机、机器学习法以及神经网络等预测模型。预测技术对社会生活来说是一项极为重要的方法,在大量的工程里面可以起到事半功倍的效果,并且通过对相关方面的预测,可以有效的预防即将会面临的危险,对我们的生活具有极为重要的意义。文章以天猫双十一的销售额为原始数据,对2024年天猫双十一的销售额进行预测,以期能够为电商销售额预测提供研究样本,同时可以帮助电商在2024年的双十一做出科学的决策,从而不仅使得消费者获得物美价廉的商品,而且有助于供应者做出科学的决策,获得可观的利润。
3. 相关理论和模型介绍
3.1. 数据预处理
数据预处理是将数据库中的数据进行简化,除去那些重复的数据,并运用一定的手段对数据进行处理,从而可以直接转化为我们需要的数据,是一种将所收集到的重复数据、残缺数据、错误数据等按照统计学的方法进行剔除或者修正的过程。
3.1.1. 缺失值的处理
对于所收集到的数据,总是会出现某一部分数据的缺失,这时我们就需要对缺失的数据进行处理。对于从数据源中取得的缺失值,可以利用该列的平均值、最大值、最小值、中位数或更为复杂的概念估计值等来填补缺失值,从而可以达到清理的目的。
3.1.2. 重复值的处理
在数据库中属性相同的数据称为重复记录,此种情况可以将相同的两个数据或者两个变量合并为一条记录。
3.1.3. 错误值处理
有些时候,我们所收集到的数据并不正确,可能会存在一些错误的数据,这时,我们就需要对这些错误值进行处理。可以运用所学的统计理论知识对这些异常值进行判断,可以通过偏差分析来看其偏度和峰度、描述性统计来看分位数和方差分析来看波动大小来识别数据的分布图或者回归方程的值。
3.2. 模型概况
选取好相关的数据之后,需要选择合适的模型来对其进行预测,一个拟合精确度高的模型将对预测的结果起到至关重要的影响。文章将选取线性回归模型、时间序列模型来进行预测。
3.2.1. 线性回归模型
线性回归是利用数理统计中回归分析,来确定两种或两种以上变量之间相互依懒的定量关系的一种统计分析方法。在线性回归中,数据使用线性预测函数来建模,并且这些未知的模型参数是通过数据来估计的 [12] 。
一般来说,线性回归模型都可以通过最小二乘法求出其方程,从而可以得到待估参数,可以根据解释变量的值来预测目标变量。它的一般形式为:
K是自变量的数量,
称为回归系数(
),
是除了自变量X对因变量Y影响之外的随机误差。
公式的矩阵形式为:
如果X是满秩矩阵,则可以用最小二乘法计算回归系数,公式为:
计算出回归系数之后,就得到了模型的参数,下一步就可以进行建模预测。
3.2.2. 时间序列模型
时间序列分析是指将原来的销售分解为四部分来看——趋势、周期、时期和不稳定因素,然后综合这些因素,提出销售预测。强调的是通过对一个区域进行一定时间段内的连续遥感观测,提取图像有关特征,并分析其变化过程与发展规模。文章使用整合移动平均自回归模型(ARIMA)对天猫双十一的销售额数据进行预测。
ARIMA模型在做时间序列分析时,根据历史数据的变动规律,找出数据变动模型(移动平均数、周期成分),从而实现对未来的预测。ARIMA模型问世于1960年代末,Box和Jenkins在1976年对该模型进行了系统阐述,所以这个模型也被称之为Box Jenkins模型。整合移动平均自回归模型(ARIMA)是一种预测精度较高的短时间序列模型,其原理是:将预测对象随时间变化形成的序列,看作是一串随时间变化而又相互关联的数字序列,就可以用适当的数学模型进行预测,是由自回归模型(AR模型)与滑动平均模型(MA模型)为基础“混合”而成,具有适用范围广,预测误差小的特点 [13] 。模型的一般表达式如下:
{
}:为白噪声
、
、…、
:为自回归模型的参数
、
、…、
:为滑动平均模型的参数
将{
}称为(p, q)阶移动平均自回归模型,记为ARMA (p, q),q = 0时为自回归模型AR (p),p = 0时为移动平均模型MA (q)。ARIMA模型建立的基础是平稳的时间序列,所以序列的平稳性是模型建立的前提 [14] 。
3.2.3. 支持向量机回归模型
支持向量机(support vector machine,简称SVM)是一种基于统计学习理论的新型学习机,是由前苏联教授Vapnik最早提出的,与传统的学习方法不同,支持向量机是结构风险最小化方法的近似实现。这是一类按监督学习方式对数据进行二元分类的广义线性分类器,在应用分类和回归分析中表现优异,特别是应用于样本数量小,非线性以及高维度的场景中。
支持向量机实现的思想是:通过某种事先选择的非线性映射将输入向量X映射到一个高维特征空间Z,在这个空间中构造最优分类超平面,从而使正例和反例样本之间的分离界限达到最大。从概念上说,支持向量是那些离决策平面最近的数据点,它们决定了最优分类超平面的位置。通常上来说,支持向量机的思想是建立在两个数学运算上:一是输入向量到高维特征空间的非线性映射,特征空间对输入和输出都是隐藏的;二是构造一个最优超平面用于分离在上一步中发现的特征 [15] 。
4. 预测模型实证分析
4.1. 实验环境
借助pyhton作为程序运行平台,并导入pyhton的分析数据库pandas、numpy,图形化工具matplotlib,作为数据导入、矩阵变换处理以及图形化显示的工具,利用sklearn库作为机器学习模型训练的算法库,对2024年天猫双十一的销售额进行预测。
4.2. 样本选取与数据来源
随着电子商务的不断发展,天猫双十一的销售额呈现出不同的态势,为了对2024年天猫双十一的销售额进行预测,文章就天猫近年来双十一的销售额进行选取,经过网络收集、整理,选取了2009年至2023年天猫双十一的销售额数据作为样本数据来进行预测,样本数据是经过仔细筛选出来的,包含了每一年的双十一销售额数据,因此可以保证了模型样本数据来源的准确性以及合理性,在样本上,可以不会影响到2024天猫双十一销售额的预测。
4.3. 模型构建
4.3.1. 线性回归模型
线性回归模型要求自变量与因变量之间线性相关,这样预测出来的结果才会比较好。在预测2024年天猫双十一的销售额中,分别利用了一元一次、二次、三次线性回归模型对2024年天猫双十一的销售额进行预测,预测结果显示,见图1,随着模型次数的增加,估计值逐渐贴近真实值,并且拟合的效果相对来说逐渐变好。
![](//html.hanspub.org/file/29-2310308x22_hanspub.png?20240510084419554)
Figure 1. Linear regression model prediction
图1. 线性回归模型预测
见表1,分析不同模型对2024年天猫双十一销售额的预测值可以得出,随着线性回归模型预测方程的次数增加,2024年天猫双十一的销售额的预测值逐渐趋向于7000亿元左右,因此可以由此判断2024年天猫双十一的销售额可能位于7000亿元左右。
![](Images/Table_Tmp.jpg)
Table 1. Predicted values of different models in linear regression
表1. 线性回归不同模型的预测值
4.3.2. 时间序列模型
时间序列模型适合用来预测短期内随时间变化的观测值。而天猫双十一的销售额数据并不平稳,不是平稳的时间序列,因此在使用整合移动平均自回归模型对其进行预测的时候,文章先将不平稳的天猫双十一销售额时间序列转换为平稳的时间序列,并对平稳后的时间序列进行检验,从而进行预测。
对2009年~2023年天猫双十一的销售额进行观测,见图2,时序图呈现出销售额随着时间的流逝,天猫双十一的销售额明显的呈现出上升的趋势,因此可以据此判断出,天猫双十一的销售额原始数据属于不平稳的序列。
![](//html.hanspub.org/file/29-2310308x23_hanspub.png?20240510084419554)
Figure 2. Time series chart of Tmall’s double eleven sales revenue
图2. 天猫双十一销售额时序图
见图3、图4,从自相关图和偏自相关图来看,自相关图呈现出三角对称的形式,自相关系数、偏自相关系数存在拖尾的情况,原始数据属于不平稳序列。
对原始数据进行平稳性检验可以得出,单位统计量对应的P值为0.998显著大于0.05,说明该序列可以判定为非平稳序列;因此文章对销售额数据进行一阶差分,以便满足时间序列模型的要求。
对模型进行定阶之后,BIC的最小P值和Q值分别为1、0。建立ARIMA模型对2024年天猫双十一的销售额进行预测,见表2,预测结果表明,2024年天猫双十一的销售额大概是6601.7亿元。
![](//html.hanspub.org/file/29-2310308x24_hanspub.png?20240510084419554)
Figure 3. Autocorrelation plot of Tmall’s double eleven sales revenue
图3. 天猫双十一销售额自相关图
![](//html.hanspub.org/file/29-2310308x25_hanspub.png?20240510084419554)
Figure 4. Partial autocorrelation plot of Tmall’s double eleven sales revenue
图4. 天猫双十一销售额偏相关图
![](Images/Table_Tmp.jpg)
Table 2. Forecast results of the ARIMA model
表2. ARIMA模型预测结果
4.4. 影响因素分析
就2009~2023年的销售额数据来看,销售额呈现出逐年递增的态势,并且就模型预测的未来三年数值来看,预测值亦是呈现增加的倾向。这主要源于不断增大的网购群体、陆续加强的促销力度、方便快捷的物流体系。
在网购群体上,科技和互联网的普及推动了网购群体的扩大。消费者越来越青睐网购的便捷性,可随时访问商品,实现高效购物。智能手机和网络速度的提升提供了流畅的购物体验,电子支付的安全性也增加了信心。不断增大的网购群体反映了数字化时代的生活方式变革,未来将继续受益于科技和社会的发展。
在促销力度上,众多商家于双十一采取了各种促销策略,通过降低商品价格、提供优惠券、增值服务等手段,激发消费者购买欲望。广告宣传、社交媒体营销等方式被用于推广促销活动,扩大其影响力。这种策略不仅为消费者提供更多实惠和福利,也促使市场活跃,推动经济增长。商家通过持续加强促销力度,实现了吸引顾客、提升销售额的双赢局面。
在物流体系上,随着发展完善的运输网络和仓储设施,包括航空、铁路、公路、海运等多种运输方式,以及现代化的仓储设施,先进的信息技术支持通过物流管理软件和智能设备,实现商品实时跟踪和管理,提高效率。灵活的配送服务如快递和同城配送,满足消费者对快速送达的需求,提升购物体验。这种物流体系不仅加速商品流通、降低成本,还提高库存周转率,减少积压,降低经营风险。总体而言,方便快捷的物流体系是现代商业运作的基础,对提升消费者体验和企业竞争力至关重要。
4.5. 发展趋势分析
随着互联网的飞速发展,人们购物的选择逐渐增多,就现如今的电商规模及购物群体的消费心理来看,未来双十一销售主要有以下三个发展趋势。
直播带货成为未来发展趋势。随着网络科技的不断发展,直播带货已成为未来商业发展的重要趋势。通过实时直播形式,商品展示更生动,消费者互动更密切,购买过程更直观。直播带货打破了传统零售模式的局限,使商品销售更具个性化和情感化,同时提高了销售转化率和用户粘性。
理性消费成为大趋势。在信息时代,消费者对产品和服务的选择更加理性和谨慎。理性消费强调价值观念、品质和实用性,而非盲目追求。消费者更注重产品的性价比、品牌背后的价值观、产品的环保性和社会责任等方面。这一趋势推动了企业提高产品质量、加强品牌建设和社会责任,形成了可持续发展的商业模式。
电商流量在分散。随着电商市场竞争的加剧,电商平台的流量已不再集中于少数头部平台,而是逐渐分散到多个垂直领域。这种分散的趋势使得更多的小型和中小型电商平台有机会崭露头角,提高了市场竞争度,促进了市场多元化和创新发展。同时,对于电商企业来说,拓展多渠道、多平台的销售渠道成为发展的必然选择。
5. 平稳性检验
5.1. 残差自相关图
对ARIMA模型所产生的残差做自相关图,见图5,残差的自相关图、偏相关图不存在截尾或拖尾,因此可以判断出该数据不平稳。
5.2. D-W检验
对做了差分之后的模型做D-W检验,自相关系数为2.08,位于2附近,据此可以判断出差分后的模型不存在自相关。
5.3. QQ图
对做了差分之后的模型做QQ图,见图6,几乎都位于一条线上,因此可以判断出这一组数据来自于正态分布。
6. 结论
文章在基于2009年~2023年天猫双十一销售额数据的基础之上,利用python软件对2024年双十一的销售额进行预测,由于样本数据数量的原因,在使用时间序列模型对销售额进行预测的时候,预测的结果并不精确,因此两者相比较而言,线性回归的预测结果要好一些,不过就观看数据来看,天猫双十一的销售额仍然是呈现上升的趋势。由此看来,随着现代电子科技的不断发展,电子商务的持续热潮,网购已经成为人们生活中的一个必备选择,而双十一作为一个电商促销节,在优惠力度以及折扣力度相对来说比较大的情况下,人们的购物消费必然会随之提升。随着每一年双十一的到来,天猫的销售额都在呈现出不断上升的趋势,并且未来的销售额还会继续提升,电商的未来发展情况表现出良好的态势。