作者:
史国强
关键词:
MIMLRBF神经网络;网页分类;不平衡样本集;奇异值分解;最速下降法
摘要:
随着Internet的普及,网络已经成为人们获取信息的主要途径,为了帮助人们从海量网页中获取有用的信息,网页自动分类技术应运而生,其可以快速有效地分析和组织海量网页信息,它是利用机器学习的方法对网页实现自动类别标注。在众多网页分类算法中,RBF神经网络因其出色的分类能力,成为机器学习的研究热点。介绍了网页分类的流程,分析了RBF神经网络技术发展、原理和相关技术,讨论了RBF神经网络在网页分类中的重要作用。阐述了目前RBF神经网络常用训练算法,研究了在多实例多标签框架下发展而来的MIMLRBF神经网络模型。针对MIMLRBF在不平衡样本下分类效果差的问题,提出了改进的训练算法,考虑了样本的整体分布情况,使各类上产生的隐含层神经元趋于平衡,减少了不平衡样本对网络模型的影响。针对SVD方法在含有噪声数据的样本集上会导致网络整体误差变大的问题,提出了基于最速下降法优化的权重训练算法,使用SVD方法初始化权值矩阵,采用最速下降法优化权值矩阵,并利用新权值矩阵的误差平方和函数计算学习率矩阵,提高了MIMLRBF神经网络在含有噪声数据的样本集上的分类精度。最后,将改进后的训练算法应用到网页分类系统中,并对改进算法进行了实验对比和性能分析。实验数据表明,本文算法具有更高的分类效率和准确率。
在线下载