1. 引言
随着互联网技术的迅速发展和普及,信息资源呈指数级增长。互联网的建设也迎来了电子商务的快速发展,电子商务已经成为现代商业活动的主要形式之一。电子商务平台如亚马逊、阿里巴巴等巨头已经成为全球消费者进行购物的首选平台,人们足不出户就可以浏览、挑选和购买各种商品 [1] [2] 。可以说,电子商务已经完全融入了人们的生活,成为生活中不可缺少的一部分。然而,随着电子商务的迅猛发展,电子商务数据呈指数级增长,其增长规模远远超出了人们所能接受的范围。
这个问题被称为“信息过载”。电子商务平台中海量的店铺和商品信息给用户的浏览、选择和决策带来了巨大的挑战。针对日益严重的信息过载问题,搜索引擎和推荐系统应运而生。搜索引擎更适合于人们需要的明确目的,通过将人们的信息需求转化为关键词,提交到后台进行搜索并返回结果信息。然而,搜索引擎有马太效应的问题 [3] 。返回的结果容易受到其他用户使用条件的影响,难以准确获取所需信息。而推荐系统更具个性化和主动性,会通过个人使用历史向消费者推送更多感兴趣的信息 [4] [5] ,个性化推荐系统可以帮助用户更快速地找到符合其兴趣和需求的商品,从而提高信息使用效率,提升用户体验,增加销售额。
2. 文献综述
用户喜欢有多种选择,同时,当选择的难度增加时,选择的满意度会降低。也就是说,为了增加用户对推荐系统服务的满意度,需要通过推荐模型向用户推荐各种商品,以拓宽用户的商品选择范围。在过去的几十年里,出现了许多解决方案来缓解“信息过载”的问题。Yu等 [6] 提出了一种概率矩阵分解模型,该模型仅基于现有的用户–物品矩阵评分数据来预测未知物品的用户评分;Liu等 [7] [8] [9] 提出了一种基于协同过滤的服装推荐算法,并将视觉注意模型引入到服装图像中,解决传统协同过滤算法中的冷启动问题。实验结果表明,该算法在服装推荐领域的表现优于传统的协同过滤算法 [10] 。Vellaichamy等 [11] [12] 提出的混合推荐方法是由不同类型的推荐方法组成的混合技术推荐。混合推荐是一种常见的基于内容的推荐与协同过滤推荐相结合形成的混合推荐算法,在电子商务推荐中缺乏针对性,难以满足用户需求。Gururaj等 [13] 基于知识的推荐算法是利用领域知识根据领域规则进行推理,然后推荐最终的推理结果,其核心在于领域规则的获取和知识库的构建。Belkhadir等 [14] 通过概率矩阵分解提出了一种通过共享的用户潜在特征空间将社交网络与用户–物品评分矩阵连接起来的推荐算法,并通过实验证明了该算法在用户评分很少或没有评分的情况下比流行的推荐算法效率更高。
在互联网上海量数据的基础上,将深度学习技术应用于电子商务推荐系统中,不仅能够提升推荐系统的性能,还能够推动推荐系统领域的研究和发展。深度学习模型在其他领域取得的成功经验和技术成果,为推荐系统的创新提供了新的思路和方法。对电子商务IRS的深入研究,相对于其他推荐系统,在保证算法模型预测精度的前提下,大大提高了算法模型计算的效率,不仅对用户和应用提供商意义重大,而且对后续推荐系统的研究也有很大的帮助。
3. 基于深度学习算法的电子商务IRS设计
3.1. 推荐系统总体设计
推荐系统通常采用两种体系结构,客户端–服务器和浏览器–服务器。互联网是未来的发展趋势,通过浏览器进行网站推荐可以提高安全性和操作便利性。本文采用浏览器–服务器(B/S)架构,可用于挖掘用户的历史行为信息和服务器后端数据库的数据信息,通过深度协同过滤推荐算法进行分析和预测,然后为用户推荐相关项目 [15] [16] 。
推荐系统的浏览器–服务器架构见图1所示:
![](//html.hanspub.org/file/334-2310673x7_hanspub.png?20240604101924087)
Figure 1. Overall design framework of recommendation system
图1. 推荐系统总体设计框架
推荐用户通过客户端浏览器进行浏览,系统自动根据用户注册并向服务器发送电子商务资源请求后,通过Web服务器对浏览信息进行计算分析后进行数据库查询,当从MySQL数据库查询到请求的电子商务资源时,将结果返回给Web服务器,经过计算分析提出了在服务器架构下的深度协同过滤推荐算法模型;将从数据库中提取的电子商务信息由高到低进行排序,并根据排序后的顺序进行相应的推荐,通过客户端浏览器的推荐系统呈现给用户,让用户选择自己更喜欢和需要的结果。
功能模块设计:主要包括用户推荐界面、管理员操作界面、用户与商品特征信息数据库、推荐算法实现流程。特征信息主要分为三个部分:用户信息、项目信息和浏览信息。数据特征信息主要由用户界面推荐和管理界面双拟合,该模块主要是根据这些信息进行数据预处理,预处理主要包括数据清洗、数据集成、数据转换和数据挖掘等步骤,为了给推荐算法提供准确的数据输入,数据预处理是关键步骤 [17] 。个性化推荐功能主要是针对每个用户,找到彼此接近(即相似)的用户,为他们推荐最喜欢的商品。这个功能主要是针对那些对商品的需求没有强烈的目的性,或者徘徊在什么是更好的选择,或者想知道大家最近在看什么等等。它可以通过深度协同过滤算法挖掘用户的兴趣和偏好,并通过相应的推荐算法分析和预测用户喜欢的物品。推荐符合用户喜好的项目信息供用户选择 [18] [19] 。
推荐系统架构设计:推荐系统架构主要由三部分组成:第一部分包括用户行为数据库、行为提取、行为特征转换和用户属性数据库。该部分负责从数据库或缓存中检索用户行为数据,生成当前用户的特征向量,并通过分析不同的行为输出。第二部分包括现有的相关数据表和与特征项相关的建议。该部分负责通过属性元素显示表将用户的属性向量转换为原始推荐列表。第三部分包括过滤、排名、推荐、解释和选择、用户行为反馈和项目属性。这个模块负责过滤和排序最初的推荐列表,以产生最终的组合。
3.2. 基于神经网络的电子商务推荐算法
(1) 卷积神经网络:它是深度学习中最成功的形式化算法之一,是一种人工神经网络。人工神经网络类似于生物神经网络,是由神经元连接起来的,每个神经元都可以进行计算 [20] 。网络后面的神经元从网络前面的神经元接收输入,执行计算并生成输出。在这样的计算之后,网络后面的神经元计算最后一层的结果。
CNN主要包括以下结构:输入层(Input layer):输入数据;卷积层(Convolution layer, CONV):使用卷积核进行特征提取和特征映射;激活层:非线性映射(ReLU)池化层(Pooling layer, POOL):进行下采样降维;光栅化(Rasterization):展开像素,与全连接层全连接,某些情况下这一层可以省去;全连接层(Fully Connected layer, FC):在尾部进行拟合,减少特征信息损失;激活层:非线性映射(ReLU);输出层(Output layer):输出结果 [21] [22] 。其中,卷积层、激活层和池化层可叠加重复使用。卷积神经网络的结构模式见图2。
![](//html.hanspub.org/file/334-2310673x8_hanspub.png?20240604101924087)
Figure 2. Structural mode of convolutional neural network
图2. 卷积神经网络的结构模式
(2) 基于卷积神经网络的电子商务推荐算法:本文提出了一种基于卷积神经网络的电子商务推荐方法,该方法利用微调后的VGG-19网络加快了网络图像处理的计算速度 [23] ,并引入空间金字塔池化策略,在不影响识别精度的前提下灵活处理任意大小和尺度的图像问题。结合网络和空间金字塔池策略的优点,在网络之后引入空间金字塔池层。为了使网络更适合电商推荐,在原有网络架构的基础上进行了以下改进:经计算,两个全键合层的参数总数占所有参数的85%以上,严重影响了网络的整体运行速度。在神经混淆网络中,混淆层主要负责提取图像特征,全连接层主要负责将混淆层中的局部信息与类别区分相结合,对网络没有明显影响。因此,两个完全键合层将被删除,只留下最后一个完全键合层。此外,减少全连接层的数量可以显著降低网络的一般参数,节省更多的计算机时间和内存空间。
修改最后一个完整连接层的神经元。虽然原始网络的目标是1000类ImageNet数据集,但本文推荐12类电子商务。因此,最后一个完整连接层中的神经元数量被修改为12。改进后的VGG-19网络见图3。
在VGG-19网络的最后一个卷积层和全连接层之间引入了空间金字塔池层。对输入图像不做固定大小的处理,直接使用原始图像作为输入,去除VGG-19网络的前两个完整连接层后,引入空间金字塔池层,将固定大小的输出作为连接层的输入,将最后整个连接层的神经元数量改为12个,得到基于卷积神经网络的推荐模型。整个网络的每个卷积层都使用相同的6 × 6卷积核(Conv3表示卷积核的大小为6 × 6,Conv6之后的数字表示卷积核的数量),池层使用Max Pooling方法添加8个池层进行8级卷积特征提取。FC代表全连接层,整个网络结构非常对称。
4. 推荐算法实验比较
4.1. 实验环境与评价指标
本文在一台Intel(R) Core(TM) i7-11700kF CPU、RTX 3080 GPU、Ubuntu18.0操作系统的计算机上进行实验。本文使用一个真实的数据集阿里巴巴数据集来测试模型的性能 [24] ,它记录了用户最近一个月的购物记录。每个用户还被划分到一个购物篮中,用于在一天中添加到购物车或单独放置的每种商品。对数据集进行预处理,过滤出购买次数少于10次的用户或购买次数少于4次的商品。
在实验中,我们使用召回率、NDCG和MAE指标来评价推荐效果 [25] 。召回率:所有推荐产品被成功推荐的百分比称为召回率,定义如下:
(1)
L给出了算法的长度,测试项目是正反馈测试集的用户列表,
表示测试集的大小,
代表测试集,建议测试集具有相同的项目集大小。
NDCG排序评价指标:归一化折损累计增益。这个指标通常是用来衡量和评价搜索结果算法。DCG的两个思想:高关联度的结果比一般关联度的结果更影响最终的指标得分;高关联度的结果出现在更靠前的位置,指标得分会更高。当用于推荐结果的评价时,可以将项目的推荐评分值作为相关水平,然后计算出NDCG的value。NDCG计算流程如下:
(1) 计算累计增益CG,即cumulative gain,是DCG的前身。只考虑了相关性的关联程度,没有考虑到位置前后顺序的因素。所以是一个与搜索结果或分类结果相关分数的总和,与排序无关。指定位置p上的CG为:
(2)
其中
代表i这个位置上的相关度。
(2) 计算折扣累计增益DCG,就是在每一个CG的结果上除以一个折损值discounted。目的是为了让排名越靠前的结果在最后结果得分上占的比重更大。假设排序越靠后,对最终结果的影响价值就越低。
公式中定义,到第i个位置时,它的价值是
,那么第i个结果产生的效益就是
。所
以:
(3)
(3) 计算归一折损累计增益NDCG,由于搜索结果随着检索词的不同,返回的数量是不一致的,而DCG是一个累加的值,没法针对两个不同的搜索结果进行比较,因此需要归一化处理,这里是除以IDCG:
(4)
其中IDCG为理想情况下最大的DCG值:
(5)
其中
表示结果按照相关性从大到小的顺序排列,取前p个结果组成的合集。也就是按照最优的方式对结果进行排序。
采用平均绝对偏差MAE衡量推荐准确率:
(6)
在公式6中
表示第i项的预测评分;
为第i项的实际评分,W是数据集中的评级数。MAE越小,推荐准确率越高。
当用召回率和NDCG来评价推荐系统的性能时,指标值越大,说明推荐系统的推荐性能越好。
4.2. 实验对比结果
在本文的实验中,将提出的算法与两种不同类型的推荐算法进行了比较:物品协同过滤推荐算法、贝叶斯个性化排序(BPR)。图4~7比较了不同算法在同一个数据集上的性能。
![](//html.hanspub.org/file/334-2310673x24_hanspub.png?20240604101924087)
Figure 4. MAEs of different algorithms on dataset
图4. 不同算法在数据集上的MAE值
由图4可知,Item method和BPR method的MAE值均高于0.8,而本文算法的MAE值大幅度低于这两种类型的算法,达到约0.78。结果表明,本算法在相同数据集上的推荐准确率高于其他两种类型的推荐算法。相比之下,基于神经网络的推荐算法优于其他类型的算法。
![](Images/Table_Tmp.jpg)
Table 1. Experimental results of recall rate of three algorithms
表1. 三种算法召回率实验结果
![](Images/Table_Tmp.jpg)
Table 2. Experimental results of three algorithms NDCG
表2. 三种算法NDCG实验结果
![](//html.hanspub.org/file/334-2310673x25_hanspub.png?20240604101924087)
Figure 5. Experimental results of Item
图5. Item的实验结果
![](//html.hanspub.org/file/334-2310673x27_hanspub.png?20240604101924087)
Figure 7. Experimental results of VGG-19
图7. VGG-19的实验结果
如表1、表2和三个折线图所示,随着推荐列表长度L的增加,三种推荐算法的召回率和归一折损累计增益都有一定程度的提高,其中BPR method召回率较低,在Recall@10到Recall@20之间增长较快,然后增长速度趋于平缓,Item method的召回率在不同的推荐列表长度下虽然稳步上升,但仍然很低,而本文提出的算法在Recall@40下能达到0.6以上;三种算法归一折损累计增益都能随推荐列表的增加而平稳增加,但明显本文提出的模型在归一折损累计增益的统计实验中表现更好。
从表中的实验结果对比可以看出,在相同的硬件条件下,Item method略优于BPR method,这可能是因为Item method在电子购物场景中更有效地检验商品的相似性,改进后的VGG-19推荐网络模型相比于以上两种方法召回率都有大幅的提升。由此可见,卷积神经网络模型对于挖掘用户会话序列中的兴趣和行为偏好是一种有价值的手段。
5. 总结
随着互联网应用的不断发展,人们接触到的数据越来越多。然而,面对大量的数据,人们不知所措,无法选择对自己真正有用的信息。推荐系统不仅要考虑电子商务网站中不同商品的搭配,还要考虑用户的整体偏好。结果应以多样性、新颖性和准确性为推荐标准。本文提出了一种基于深度学习的电子商务个性化推荐算法,通过在一个真实数据集上的实验,证明了该算法在大小数据集上都优于其他类型的推荐算法。虽然与传统算法相比,推荐结果有所提高,但算法的准确率仍然有待提高。如何调整算法结构以进一步提高结果的准确性仍然是一个有待研究的问题,在未来的研究中,将更加注重提高推荐的准确性和多样性。