1. 引言
网络舆情是在传统媒体舆论传播的基础上,以网络为载体,通过互联网的方式将舆论放大,来表达网民的观点、态度和情感 [1]。网络舆情是对社会舆情的反映,也是公众舆论在互联网上的映射 [2]。随着计算机和网络技术的快速发展,互联网日渐成为各种信息传递的载体。人们在上面主动的获取、发布、共享、传播各种观点性信息(包括新闻评论、产品评论、情感微博、网络社区等)。据2021年微博第二季度财报显示,截至2021年6月,微博月活跃用户规模已升至5.66亿,日活跃用户达到2.46亿。微博逐渐变成网络舆情的重要诞生地和发酵场。网络舆情信息挖掘是指借助相关信息处理技术,识别、提取舆情文本中的热点词汇、倾向性词汇,为舆情引导工作提供依据的信息挖掘活动 [3]。
文章选取微博2009年正式上线至2012年这四年的数据研究舆情传播的时序分析问题,对此问题构建模型开展研究,分析受众面窄时网络舆情传播的特点,为之后新平台的开发提供一定的理论基础。通常解决时序分析问题使用的时间序列模型有:自回归模型AR、移动平均模型MA、自回归移动平均模型ARMA、自回归差分移动平均模型ARIMA [4],这些模型均使用了Box-Jenkins算法,而其中的ARIMA模型只依赖数据本身,但需要时序数据具有稳定性,所以对于稳定的时序数据我们选择ARIMA模型来分析问题。
2. 数据预处理
现有脱敏处理的微博记录22+万条,分别放在22个TXT文件中,我们将其整合进一个CSV文件,并按不同问题所列要求进行数据处理,构建模型并分析所得结果(见图1),从而更好的挖掘舆情传播的特点和规律,为研究舆情热点传播提供一定的思路。
2.1. 数据提取
首先对提供的微博记录共22个数据文件进行数据提取,每条数据有person_id (所属人物的id)、id (文章编号)、article (正文)、discuss (评论数目)、insertTime (插入时间)、origin (来源)、time (正文发布时间)、transmit (转发)共8个属性(见表1),得到数据总量为227,566条。
![](Images/Table_Tmp.jpg)
Table 1. Preliminary extracted data (part)
表1. 初步提取出的数据(部分)
2.2. 数据统计
统计每个person_id的数据量,按数据量由大到小进行排序(表2)。其中person_id为1646051850的用户发布量最高有12,029条发布量。总共有44,177条数据代表44,177个person_id。
![](Images/Table_Tmp.jpg)
Table 2. person_id and its release statistics (part)
表2. person_id及其发布量统计(部分)
2.3. 数据去重
通过观察发现,同一个person_id存在多条属性相同的数据,将article、discuss、origin、time、transmit相同,insertTime、id不同的数据认为是重复数据(表3),该重复的数据量较大,故需对数据进行了去重处理。去重后共有124,137条数据(表4)。
再次按每个人发布的条数重新进行统计排序,其中person_id为0的用户发布量最高,发布了6571条数据,person_id为1641561812、1644114654、1646051850的用户依次有2970、2527、2224条发布量。统计共有44,177个person_id。
![](Images/Table_Tmp.jpg)
Table 4. Person_id and its publication statistics after the recallation (part)
表4. 去重后的person_id及其发布量统计(部分)
2.4. 数据预处理小结
1) 处理前共有数据227,566条,去重后数据共有124,137条。
2) 数据中共有44,177名用户(person_id为0的视为一名用户)。
3) 其中共有171名用户发布量大于10条,共有118名用户发布量大于100条,共有17名用户发布量大于1000条。
4) 使用时间进行排序可知,最早数据发布时间为2009/08/26,最晚数据发布时间为2012/02/09。其中2011/03/11之前数据量仅为5478条。
5) 其中,在person_id为0对应的数据中,discuss、transmit属性没有内容,猜测其为匿名用户发布,但仍将其视为一个用户。
以下所有数据基于本章预处理后的数据。
2.5. 数据处理
为了表示热点随时间的演化过程,我们将词频较高的关键词及其类别筛选出来并抽取其中9种,并按照热度–时间的关系作图,见图2。可知在2009年08月26日至2011年02月20日期间,微博纪录的信息近似于零,那时微博这个社交平台才刚推出,大家对它的认知度和熟悉度不高,因而历史纪录不多。2011年02月20日之后,随着一些事件的发生,人们发现在互联网上发声更有利于事件的传播和解决,微博纪录的数据逐渐增多。
通过查阅文献我们学习到,热点事件在社会化媒体中的话题演变有3级:话题传播初期酝酿阶段;社会网络的关键传播阶段;网络媒体传播的协同阶段 [5]。在图2所示的9种热点话题中,有持续性事件和突发性事件,这边我们取香港话题与交通话题进行话题传播分析。
首先,2011年03月01日至 2012年02月05日期间,香港问题热度一直在线(见图3,图4),我们认为这个话题是一个持续性事件。在图4中,我们发现加了“内地”“大陆”这两个关键词后,整体数据走向只有小小的波动,此类政治性话题的热度不会随着时间而冷却。
![](//html.hanspub.org/file/43-2622330x10_hanspub.png?20220525090003846)
Figure 4. Hong Kong topics + keywords
图4. 香港话题 + 关键词
其次,2011年7月25日,交通话题(见图5,图6)突然被网民热议,虽然之后也有过几次数据大爆发,不过随着时间的推移它的热度最后会趋于0,我们便将这个话题归为突发性事件。联系实际,交通安全类话题往往是在事件出现后,鉴于不同的成长背景及生活环境,来自四面八方的人们会激烈的表达自己的观点,在互联网的推动下,事件不断发酵至爆发,等热度一过,大家又回归平和的生活,直到同类事件的发生。
因此,通过简单的数据预处理,我们了解到,对于不同性质的事件,舆情传播的时效性也不同。持续性事件因为事件发生的频繁,舆情传播的战线拉长,传播面广,不太容易热度骤冷;而爆发性事件由于事件本身性质的恶劣和突然,舆情传播的速度特别快,从而战线较短,“速战速决”。
从所给数据来看,舆情传播的力量是无穷的,如果想要深入剖析舆情传播的规律还需要预测未来的数据。因而我们要借助数学模型来具体分析,同时微博数据存在缺失,缺失的数据不会对时序分析造成影响,因而假定以某一热点话题为例推出舆情传播的特点。
3. ARIMA模型
时间序列预测是通过观察分析历史数据来预测未来的值。ARIMA模型是时间序列预测分析方法之一,可以较好地预测以时间为基准的数据。它的基本思想是将预测对象随时间推移而形成的数据序列视为一个随机序列,用一定的数学模型来近似描述这个序列 [6]。
3.1. 公式
查阅资料,我们了解到ARIMA模型包含3个部分,即自回归(AR)、差分(I)和移动平均(MA)。ARIMA模型记作ARIMA(p, d, q),其中AR是“自回归”,p为自回归项数;MA为“滑动平均”,q为滑动平均项数,d为使之成为平稳序列所做的差分次数(阶数),L是滞后算子(Lag operator)。“差分”一词虽未出现在ARIMA的英文名称中,却是关键步骤。
ARIMA(p, d, q)模型是ARMA(p, q)模型的扩展 [7]。ARIMA(p, d, q)模型可以表示为:
(1)
3.2. 参数的确定
1) 参数p、q的确认
在时间序列分析中,通常采用自相关函数(ACF)、偏自相关函数(PACF)来判定ARMA(p,q)模型的系数和阶数。
自相关函数(ACF)描述时间序列观测值与其过去的观测值之间的线性相关性。偏自相关函数(PACF)描述在给定中间观测值的条件下时间序列观测值与其过去的观测值之间的线性相关性,简介见表5。
![](Images/Table_Tmp.jpg)
Table 5. Characteristic coefficient of stationary random time series model
表5. 平稳随机时间序列模型特征系数
p由显著不为0的偏自相关系数的数目决定,此时序列的偏自相关函数表现为拖尾性,即当k > p时,偏自相关系数的值都在置信区间以内;
q由显著不为0的自相关系数的数目决定,此时序列的自相关函数表现为截尾性,即当k > p时,自相关系数的值都在置信区间内。
这里的拖尾是指以指数率单调或振荡衰减,截尾是指从某个开始非常小(不显著非零)。
2) 参数d的确认
差分是求时间序列{rt}在t时刻和t − 1时刻的差值,把rt与t − 1时刻的值r(t − 1)的差值记做dt,则得到了一个新序列{dt},为一阶差分;对新序列{dt}再做同样的操作,则为二阶差分。
3.3. 模型求解
ARIMA模型解题具体分析步骤如下:
Step 1:求出数据序列的样本自相关系数(ACF)和样本偏自相关系数(PACF)的值。
Step 2:根据样本自相关系数和偏自相关系数的性质,选择适当的ARMA(p,q)模型进行拟合。
Step 3:估计模型中位置参数的值。
Step 4:检验模型的有效性。如果模型不通过检验,转向Step 2,重新选择模型再拟合。
Step 5:模型优化。如果拟合模型通过检验,仍然转向Step 2,充分考虑各种情况,建立多个拟合模型,从所有通过检验的拟合模型中选择最优模型。
以香港问题为例,选取“香港”、“内地”、“大陆”这三个关键词抽取数据作图(见图7~12)。
![](//html.hanspub.org/file/43-2622330x16_hanspub.png?20220525090003846)
Figure 8. Autocorrelation diagram (ACF diagram) and partial autocorrelation diagram (PACF diagram)
图8. 自相关图(ACF图)和偏自相关图(PACF图)
![](//html.hanspub.org/file/43-2622330x17_hanspub.png?20220525090003846)
Figure 9. Autocorrelation and partial autocorrelation diagrams of generated residuals
图9. 产生的残差的自相关和偏自相关图
![](//html.hanspub.org/file/43-2622330x18_hanspub.png?20220525090003846)
Figure 10. Scatter diagram of normal distribution
图10. 正态分布散点图
![](//html.hanspub.org/file/43-2622330x19_hanspub.png?20220525090003846)
Figure 11. Prediction sequence diagram of generated stationary series
图11. 生成的平稳序列的预测时序图
![](//html.hanspub.org/file/43-2622330x20_hanspub.png?20220525090003846)
Figure 12. Timing prediction diagram of original data
图12. 原始数据的时序预测图
从图11和图12可知,预测数据跟原始序列趋势基本一致,即在之后香港话题仍会是热点事件话题。
3.4. 小结
从所得结果来看,舆情的生命周期为产生–扩散–消减,因事件性质的不同,舆情生命周期的长短也不同。持续性事件舆情存活时间长,爆发性事件舆情存活时间短,但是它们都会在爆发期将舆情推到顶峰。信息总是在不断积累的过程中,从源头上讲,传统的新闻媒体在网络新闻平台和新媒体平台上采用不同的信息发布方式,个人用户的信息发布更加灵活。
分析不同层次的网络平台,关于各类事件的发酵与传播有着不同的特点,比如,作为一种“短频快”的媒体,微博日活用户量日益增多,它可轻易将两个甚至多个平台无缝连接,由此让事件迅速传播。而对于一些受众面较窄的网络平台,事件的传播时间较长,传播面也较窄,但是针对性可能较强。因而,通过研究舆情传播的规律和特点,新闻类机构可合理借助这些平台,更好地控制和指导非常规突发事件网络舆论的传播,正确引导社会的舆论风向。
4. 模型评价与改进
4.1. 模型优缺点
4.1.1. 优点
文章选用的ARIMA模型,它是时间序列预测分析方法之一,模型构建简单,只需要内生变量而不需要借助其他外生变量。
4.1.2. 缺点
文章选用ARIMA模型,它要求时序数据是稳定的,或者通过差分化之后是稳定的;本质上只能捕捉线性关系,不能捕捉非线性关系。因此我们实验结果的准确度有待提高。
4.2. 模型的改进与推广
可增加灰色关联度分析,得出各个属性与时间变化的关系,增加组合优化模型,防止模型过拟合。后续研究可以选择其它受众面广的平台,选取一定量的有效数据开展比较分析,为舆情传播的研究提供强有力的依据。