1. 引言
1.1. 社交平台与用户影响力
纵观社交平台发展的近二十年,可以发现信息的流动性和复杂性在呈指数型上升,信息的呈现方式日新月异,但含金量却参差不齐。1999年诞生的腾讯QQ着眼于即时通讯领域,而后在该平台上的QQ空间成为信息发布和交流最为密集的网络。2005~2010年,新浪微博、人人网、开心网等社交网站上线,以博文、帖子等方式呈现的网络信息开始爆发。2010年后,现象级社交应用微信的诞生,标志着移动端社交成为主流阶段,各类的公众号推送令人眼花缭乱。垂直社交领域也同样面临信息过于冗杂、妨碍用户正常使用平台的问题。在最为讲求信息对称性的投资社交领域,鱼龙混杂的投资信息将显著降低平台的有效性。而信息的有效性由发布该信息的用户决定,通过判别和筛选更有影响力的用户,可以帮助社交平台推荐有效信息,过滤无效信息。
用户影响力评价在目前的各类社交平台上应用甚广,体现形式多样。以国内一些热门的社交平台或带有社交功能的平台为例:微博的实时影响力评价指标有昨日阅读微博数和昨日互动数(转发微博、评论微博、赞微博、回复评论、赞评论的数量);知乎的影响力评价包括了赞同数、感谢数、收藏数;抖音则包括了获赞数、关注数、粉丝数;而36氪只包括了关注数。在垂直社交领域也比较类似:专业IT技术社区CSDN以访客人数为指标,对所有用户进行排名作为影响力评估方式;职场社交平台LinkedIn以好友数和关注者人数为评估指标;而创业服务社交平台36氪只包括了关注数。国外软件的影响力评估也主要以关注数、点赞数、转发数等指标反映。Twitter使用正在关注人数和已关注人数衡量,Facebook使用点赞数和超级粉丝拥有数衡量,Instagram则是纳入了帖子数、粉丝数、关注数等指标。通过评估用户的影响力,平台可以清晰地发掘社交网络中的意见领袖,准确的把握舆论导向,提取实时热点,并激励用户发布优质内容;用户可以便捷地发现高质量用户发布的内容,减少信息筛选的时间,提升浏览效率。社交网络的用户影响力对信息的传播也有显著影响 [1],高影响力的用户的产出内容往往更易传播。
1.2. 研究意义
纵览各平台的影响力评估方式,独立的单指标影响力评价体系目前是主流。但这种评估方法不具备综合评估的能力,难以结合各个方面合理的进行影响力评估,故而学术界一直致力于研究社交平台的用户影响力评估新方法。目前来看,大部分研究模型都针对微博、Twitter等大型热门社交平台,例如TwitterRank,WBRank,DomainRank等。此类模型适应主题繁多、集群复杂的社交平台。但相比之下,针对垂直领域社交平台的模型研究几乎是一片空白。近年来新兴的专业领域社交平台异军突起,成为了分割市场的有力力量,在投资领域最有代表性的雪球网就是一个很好的例子。从2011年的300万美元红杉资本的A轮到2018年蚂蚁金服1.2亿元的D轮,这家融合社交和交易的投资平台成功获得了广大投资者的青睐,有效的UGC (User Generate Content)机制让越来越多的投资者在该平台分享、讨论投资信息。这便要求该平台拥有良好的用户影响力评价体系,以降低用户的信息筛选成本,减少多余的信息噪音,鼓励创造优质内容,营造一个良好向上的平台环境。本文通过分析雪球网8937条用户数据,为以投资领域为代表的垂直领域社交平台提供了一种评价用户影响力的方法和模型,帮助垂直社交平台营造一个低成本、高效率的信息筛选环境,同时也丰富了用户影响力相关的学术研究,为该领域的探索前行提供新鲜力量。
2. 文献综述
2.1. 影响力有关的研究
影响力传播模型最早可追溯到1927年由生物学家Kermack和Mckendrick提出的传染病模型,该模型最初用来对人群中疾病的传播过程进行建模 [2]。针对社交网络影响力的研究则始于1984年,被誉为“影响力教父”的Robert Cialdini发表了《Influence: The Psychology of Persuasion》一书,提出了决定影响力的六大原则:互惠性,承诺和一致性,社会证明,权威性,偏好,稀缺性 [3]。进入互联网时代后,在社交网络节点影响力的评估方法主要可以分为两类:基于指标权重的影响力分析和基于关系网络的影响力分析。
根据《辞海》,影响力是指一方发生一种动作而引起他方发生变化或行动的力量。在社交网络的研究中,影响力一般指在线社交网络中的用户影响网络中的其他用户改变自己的行为和思想的能力。在现有的研究中,影响力一般被分为两种:个人影响力和群体影响力。个人影响力以社交网络上某一个节点为中心,探讨其对周围节点的影响。而群体影响力需集合多个相关节点,探讨该集群的行为活动对集群周边的节点和其他集群的影响力。本文以雪球网上的单个节点为主作分析,故在分析中以个人影响力为基准。
2.2. 基于指标权重的影响力分析
基于指标权重是指以网络中单个节点为中心,对其静态的属性特征赋予权重,进而计算其影响力。如度中心性,认为一个节点的邻居节点越多,影响力越大,在网络中就越重要。在有权网络中,节点的度可以看作强度,即边的权重之和。度中心性刻画了节点的直接影响力 [4],在粉丝数这一指标下,一个粉丝就是该节点一个邻居节点,该节点的度即为总粉丝数。当点赞数、评论数、转发数等同时纳入指标时,一个节点就有了多重身份(指标),每一指标的权重乘以该指标下的度决定了节点的强度,即影响力。
指标的确定由影响力形成的过程决定。在这方面,McGuire (1989)提出的12个步骤得到了广泛的认可,并在后续逐步简化归纳为“接触–认知–说服–二次传播”四个环节。许多指标可以对应这四个环节,比如关注数(接触)、点赞数和评论数(认知)、收藏数(说服)、转发数(二次传播)等。
明确各指标后,则需确定权重。常用的方法分主观和客观两类。主观分为Delphi专家调查法,AHP层次分析法、二项系数法、环比评分法等;客观分为PCA主成分分析法、熵值法、均方差法等。刘海涛(2017)利用层次分析法构建了新的综合排序方法 [5]。魏杰明(2019)即基于主成分分析算法,系统研究了社交网络中用户行为和贴文特征,将各组成因素进行相关性研究,得到了社交网络节点影响力函数表达式 [6]。李晓(2016)采用熵值法和综合指数模型测算出了十七地市公安微博的受众影响力综合指数,提出了提升其受众影响力的对策建议 [7]。
可以看出,基于指标权重的算法特点是直观、计算复杂度低,模型相对静态。在主题垂直、集群鲜明、指标明确的社交网络区域应用效果较好。
2.3. 基于关系网络的影响力分析
基于关系网络的影响力算法关注节点在整个网络中的重要性。经典的算法是90年代末期提出的PageRank [8] 和HITS算法(Hyperlink-Induced Topic Search) [9]。这两种算法原本应用在万维网中用来评估网页的流行性,而社交平台中的关注和粉丝关系与网页的链入与链出十分相似,因此它们也被应用在了社交网络中节点影响力的评估中。PageRank算法模型,是Google在搜索引擎结果中对网站排名的核心算法,核心思想是通过计算页面链接的数量和质量,来估计网站的重要性,HITS算法模型中,有两类节点:权威节点和枢纽节点。权威节点在网络中具有高权威性,枢纽节点具有很个指向边的节点。通过计算网络中每个节点的权威值(Authority)和枢纽值(Hub)来寻找高权威性的节点。即求值过程是在迭代中计算Authority和Hub值,直到收敛状态。郭博等(2018)即通过提出改进的PageRank算法和HITS算法,分别基于知乎用户社交网络、问答网络构建用户影响力挖掘模型 [10]。黄贤英等(2019)也基于PageRank算法引入了用户博文的传播率来挖掘用户的潜在影响力 [11]。
除了上述经典的算法,越来越多的创新算法被提出。陈志云(2013)借用学术论文评价中的H-Index来评价微博中用户的影响力。即一名微博用户的h指数是指他至多有h个粉丝数超过h的粉丝。王仁武等(2018)利用领域字典和话题识别模型将目标用户的主题范围进行限定,同时结合社交网络用户中的个人信息综合指标,基于用户关注关系建立链路网络,并充分纳入用户评论的情感评分,提出了针对专业影响力节点挖掘的DomainRank算法 [12]。刘威等(2019)提出了一种面向微博话题的用户影响力分析算法——基于话题和传播能力的用户排序TSRank算法 [13]。
可以看到,以上算法基于动态的用户关系网络提出,关注节点在整个网络中的动态强度,比基于权重指标的算法更加灵活,但在算力的需求远大于后者。适用于集群复杂、主题丰富的社交网络。
结合两种方式的优劣、现有的数据和雪球网平台垂直领域的特性,本文选取了第一种方式中的主成分分析法作分析。
3. 数据的收集与分析
3.1. 数据概况
本文选取了雪球网8937条清洗后的用户数据。识别码为用户编号(user ID)根据“接触–认知–说服–二次传播”四个环节,分别抽取了粉丝数、关注数、微博数、关注股票数、投资组合数、认证、投资组合关注数、评论数、转发数、收藏数十个指标作为变量,见表1。除了认证指标为布尔值(已认证为1,未认证为0),其他变量均为正整数。其中,关注数和粉丝数属于“接触”环节,最直接的体现了该节点的度。微博数、关注股票数、投资组合数代表了该用户在平台上展现的内容数量,属于“认知”环节。认证和投资组合关注数体现了平台和社会证明给该用户的背书,归为“说服”环节。最后,评论数、转发数、收藏数属于“二次传播”环节,因为评论、转发和收藏都起到了创造社会证明、扩大影响力的作用。
3.2. 数据有效性分析
通过SPSS软件,我们可以轻松的得到各主成分的得分,但第一步需要检验数据是否具有一定的相关性,即是否通过KMO检验。标准规定0.6以上即可通过检验。
检验结果得出KMO值为0.628,表明数据可使用主成分分析法求权重。
从表2可知,前4个主成分对应的特征根 > 1,提取前4个主成分的累计方差贡献率达到66.109%,超过60%。因此前4个主成分基本反映了指标的信息,可以代替原来的10个指标,见表3。
从表4可知第一主成分与第二主成分对原来指标的载荷数。例如,第一主成分对认证指标的载荷数为0.008。
4. 影响力计算
4.1. 确定指标权重
用主成分分析确定权重的方法是:指标权重等于以主成分的方差贡献率为权重,对该指标在各主成分线性组合中的系数的加权平均的归一化。
![](Images/Table_Tmp.jpg)
Table 3. Total variance interpretation
表3. 总方差解释
提取方法:主成分分析法。
因此,要确定指标权重需要明确三点:指标在各主成分线性组合中的系数、主成分的方差贡献率以及指标权重的归一化。
(1) 指标在不同主成分线性组合中的系数,见表5。
用表4中的载荷数除以表2中第1列对应的特征根的开方,即可求出指标在不同主成分线性组合中的系数。
例如,在第一主成分F1的线性组合中,认证变量V (X1)的系数为:
按此方法,基于表2和表4的数据,可在Excel中分别计算出各指标在两个主成分线性组合中的系数,见表6:
![](Images/Table_Tmp.jpg)
Table 5. The number of loads of the indicator and the characteristic root of the principal component
表5. 指标的载荷数与主成分的特征根
![](Images/Table_Tmp.jpg)
Table 6. Coefficients of each indicator in the linear combination of principal components
表6. 各指标在主成分线性组合中的系数
由此可得各主成分关于十个指标的线性组合:
如主成分F1的表达式为:
根据先前的输出结果,各主成分的方差贡献率如下表所示,见表7:
![](Images/Table_Tmp.jpg)
Table 7. Variance contribution rate of each principal component
表7. 各主成分的方差贡献率
根据方差贡献率的加权平均各系数,见表8,可得:
![](Images/Table_Tmp.jpg)
Table 8. Weighted averaged coefficients based on principal component contribution rate
表8. 根据主成分贡献率加权平均后的系数
由于权重相加总和应为1,因而对各系数进行归一化处理,见表9:
![](Images/Table_Tmp.jpg)
Table 9. Normalized indicator weights
表9. 归一化后的指标权重
由此得到的综合得分模型为:
4.2. 计算影响力
将原始数据套入上述模型计算可得样本中所有用户的影响力结果,以下是进行降序排序后得到的前20名影响力最大的用户,见表10。
5. 对比验证
为了验证本文所得模型的准确性,本节根据数据的特征选取了确定权重的另外两种方法——层次分析法与熵权法,推演出用户影响力排名结果,与之前所得结果进行比较。
![](Images/Table_Tmp.jpg)
Table 10. Influence calculation results after principal component analysis to determine weights
表10. 主成分分析确定权重后的影响力计算结果
5.1. 使用层次分析法计算影响力
层次分析法(Analytic hierarchy process,简称AHP)法是美国运筹学家T.L.Saaty等人在20世纪70年代中期提出了一种定性和定量相结合的,系统性、层次化的多目标决策分析方法。AHP法的核心是将决策者的经验判断定量化,增强了决策依据的准确性,在目标结构较为复杂且缺乏统计数据的情况下更为实用。应用AHP法确定评价指标的权重,就是在建立有序递阶的指标体系的基础上,通过比较同一层次各指标的相对重要性来综合计算指标的权重系数。具体步骤如下:
1) 构造判断矩阵
构造判断矩阵首先要确定判断的标度。本文的标度定义如下,见表11:
![](Images/Table_Tmp.jpg)
Table 11. Scale definition of analytic hierarchy process
表11. 层次分析法的标度定义
确定标度后,本文构建了如下判断矩阵,并邀请了20位专家对四个环节和各指标两两比较评分,见表12。
2) 判断矩阵一致性的检验
为了度量不同阶数判断矩阵是否具有满意的一致性,需引入判断矩阵的平均随机一致性指标RI值。
当n = 9时,RI = 1.46。一致性指标
。当阶数大于2,判断矩阵的一致性比率CR = CI/RI < 0.10
时,即认为判断矩阵具有满意的一致性,否则需要调整判断矩阵,以使之具有满意的一致性。本方法中所有专家给出的判断矩阵的CR值均通过了一致性检验。
![](Images/Table_Tmp.jpg)
Table 12. Judgment matrix of analytic hierarchy process
表12. 层次分析法的判断矩阵
3. 计算权重
在一致性检验后,本方法对20名专家打分矩阵得出的结果进行了加权平均。得出了最终的权重系数,见表13。
![](Images/Table_Tmp.jpg)
Table 13. Indicator weights under the analytic hierarchy process
表13. 层次分析法下的指标权重
根据本方法求出的影响力排名,见表14,为:
![](Images/Table_Tmp.jpg)
Table 14. Ranking of influence under analytic hierarchy
表14. 层次分析法下的影响力排名
5.2. 验证分析
将本文中方法的结果与层次分析法结果进行比较发现前7名都是同一组用户,重合率达到100%,其中用户“1744347952”、“4047266173”的排名完全相同。同时,在PCA排名中的前20名有13位仍然保持在AHP排名前20名的榜单中。可以看出本文中的排序方法与AHP算法能够很大程度上接近,有效性通过了验证,见表15。
![](Images/Table_Tmp.jpg)
Table 15. Sorting comparison between AHP and PCA
表15. AHP与PCA两种方法的排序对比
6. 总结与启示
6.1. 主要结论
通过借鉴、分析不同平台的影响力模型,结合数据特征,本文选择了主成分分析法,以确定转发数、粉丝数、投资组合关注数等10个指标的权重。在KMO检验确定数据相关性适合分析后,选取了4个特征根大于1的主成分,其方差贡献率总和达到了66.11%。通过各主成分及方差贡献率,计算各指标在主成分线性组合中的系数,再进行加权平均和归一化计算,得到了最终的影响力模型:
为了验证其有效性,本文采取了层次分析法,再次计算了影响力并进行了对比。实验结果显示,本文所提出的用户影响力评估方法,能够有效地适用于投资领域的社交平台,准确呈现其中不同用户的影响力。
6.2. 创新点
本文为垂直型社交平台的用户影响力评价提供了一种方案。在实践中具有计算复杂度低、结果准确、易于调整的优势。通过分析雪球网8937条用户数据,本文为以投资领域为代表的垂直领域社交平台提供了一种评价用户影响力的方法和模型,帮助垂直社交平台营造一个低成本、高效率的信息筛选环境,同时也丰富了用户影响力相关的学术研究,为该领域的探索前行提供新鲜力量。
6.3. 不足之处
在主成分分析中,本文提取出的四个主成分的累计贡献率不是非常理想,仅有66.11%,如果达到80%以上甚至更高的水平,即变量降维后的信息量保持在一个更高的水平,模型的结果可能会更加具有实践意义。
另外,在验证方法层次分析法中,由于专家打分具有一定的主观性,不同的专家组会给出不同的打分矩阵,在对比时可能存在相对的偏差。下一步的工作是探究能够综合主观和客观的建模方法。
参考文献