1. 引言
Alan Cooper首次提出用户画像的概念,最初可理解为用户信息的标签化。用户画像的建立,需结合实际数据,制定符合实际数据情况的标签数据集,再针对数据进行分析。互联网的快速发展带来大量数据,这些数据中蕴含着无限商业价值。通过收集用户的行为数据,将行为数据可视化,关联用户的使用习惯以及兴趣偏好等,可以帮助美颜相机企业开发更舒适的APP使用体验,进而改进APP运营机制,向用户提供更优质的服务。陈志明等构建多属性用户画像模型,充分利用知乎网站后台用户行为数据,包含用户的兴趣爱好、知识能力等 [1]。在此基础上,王乐等提出利用多类型特征算法排除网络行为数据复杂性因素,解决了特征选择不确定问题 [2];李军政利用VSM模型,根据检索数据提取特征词,关联用户基本属性,由此建立用户画像模型 [3]。以上模型建立虽能得出相应的用户画像,但是因为短文本识别精准度不高以及检索词关联度高等问题 [4]。VSM模型在建立用户画像模型上存在着一定的缺陷,无法有效表示用户特征 [5]。因此,本文提出利用LDA模型,利用美颜相机APP历史搜索记录数据,通过提取短文本主题,并扩充语义特征,建立精度更高的用户画像。基于精准的用户画像,帮助互联网企业建立精准的营销对策。
2. 基础模型
2.1. LDA模型
本文先利用LDA模型进行短文本分类,将已经清洗完成的美颜相机用户搜索记录文本进行语义分类。LDA 模型一般在识别不明显语义文本信息中广泛使用,是无监督模型的一种。它的作用体现在将文档分为多个主题分布 [6]。LDA模型中文本主题分布为
,其中,
为超参数,通常
。主题词也服从Dirichlet分布,可表示为
,其中
为超参数,通常
[7]。
模型中
和
常使用近似估计技术进行估计,如EM算法、Gibbs采样算法。
以Gibbs采样算法为例,估计流程为:
1) 随机分配文本主题。
2) 计算主题概率。
3) 重复采样,直到结果收敛。
4) 得到文本主题分布
,主题词分布
。
采样公式为:
其中,
表示文本
分到s的频次,
表示词
分到s的频次。
采样后,文本主题分布为
,主题词分布
可进行估算。
2.2. SVM分类模型
利用LDA模型进行文本语义分类之后,为提高语义分类的精确度,本文利用SVM模型进行特征扩展。SVM模型是根据样本数据建立超平面,并区分样本 [8]。计算样本与超平面之间的距离,距离最近的样本会影响分类的广泛度,扩大广泛度可提高模型的精准度,因此要尽可能让样本到超平面的距离变大。超平面公式为:
,可以推出参数
和b影响超平面,距离公式为:
所有样本当中对广泛度影响力最大的是支持向量,不同支持向量的距离公式可以表示为
,求得最优向量坐标
即可使得
最大,即广泛度最大 [9]。
3. 用户画像构建
3.1. 获取数据
数据主要分为静态信息数据、动态信息数据两类 [10]。静态信息数据是指在一段时间内保持稳定不变的用户信息内容,它也可作为用户基础属性数据,如性别、年龄等基本属性。而动态信息数据则是指正在变化的信息内容,包括当前用户的访问情况、浏览行为、应用偏好等,在一定程度上也体现了使用者的软件应用习惯、兴趣等属性。
3.1.1. 用户属性数据获取
美颜相机用户属性数据属于静态信息数据,包含基础属性、生活状况、社会标签、心理情况等。在相当一段时间中一般不会产生变化,比如性别、社会阶层、薪资条件等。通过APP后台发放调查问卷即可获得详细数据。
3.1.2. 用户行为数据获取
美颜相机用户行为数据属于动态信息数据,是建立用户画像的重要数据。需要通过APP后台搜集用户在使用软件时的流程数据。包括用户访问轨迹,历史搜索,ICON点击量等,并对相关数据进行分析。
3.2. 模型构建
为还原用户信息,根据用户行为信息,标准化标签构建用户画像,主要分为如下三个阶段:一、对用户基础信息、检索数据,APP内行为数据等基本数据进行预处理。二、建立合适的用户标签。三、构建用户画像并绘制可视化标签云。
以用户搜索记录数据为例,先依靠建立的LDA模型进行文本主题的提取,获得主题词之后,对照用户的特征进行拓展,接着在SVM模型基础上区分用户的基本属性,进行用户画像的构建,模型框架如图1所示。
![](//html.hanspub.org/file/13-2580849x32_hanspub.png?20220215082542837)
Figure 1. User portrait model framework
图1. 用户画像模型框架
3.2.1. 数据预处理
先将获得的数据中不具备完整属性的数据记录进行清洗。再进行分词处理,将短文本转化成主题词短语,获得关键文本内容,一般可采用jieba分词方法,过滤无意义词汇,降低特征词的词性维度,去除已停用的词汇,其结果如表1所示。
3.2.2. 建立用户标签
先建立多维属性标签,再利用文本文义提取来抽象用户信息,对应建立的标签属性进行用户画像的构建。以用户行为属性为例,美颜相机用户行为属性框架如图2。
3.2.3. 构建用户画像
用户通过检索ICON可直接获得满足自身需求的贴纸、滤镜,搜索词条与用户需求关联度高,用户需求则与用户兴趣爱好、基本属性关联度高。例如高收入人群对奢侈品图标贴纸使用频次更高;学生群体更偏向于使用可爱粉紫色贴纸滤镜;日活活跃的用户对新功能ICON点击率更高;男性相比女性来说,则更倾向于搜索运动风格、二次元贴纸,因此通过检索内容建立模型来描述用户属性标签能够构建相对精准的用户行为画像。在将长文本转化为短文本的方面,VSM模型无法有效联系上下文,精准把握语义,并且无法针对短文本提取主题词,因此建立的用户画像的精确度会大大降低。本文在建立用户画像过程中融入LDA模型中。举例来说,对于“复古感调色”和“复古滤镜”,VSM无法区分两个文本语义的相似性,然而实际上这两个短文本之间差异不大,LDA模型则可以关联两个短文本,从而解决特征稀疏问题。根据LDA模型将文本语义精简为主题词分布,利用向量表示短文本,基于用户检索内容主题词差异相对较大,若检索词主题公共部分不重叠,即查询词主题之间相似度为0,那么主题分类则不符合要求。由此延申,通过对主题文本特征扩展,关联潜在语义主题文本,全面表达文本特征。流程如下:
1) 以向量形式表达检索文本,特征值归一。
2) 特征选择提取的特征向量,把有意义的特征词看作原始特征词。
3) 针对用户检索数据集,得出检索词的主题分布
,及主题词分布
。
4) 计算主题概率,概率最大主题为s,s的主题词即为用户的扩展特征,词
属于这个主题的概率就是s的特征值。此外,若s在最初的特征词集合中,则不重复添加。
5) 将扩展后的特征词的属性标签通过建立SVM模型进行分类。
判断拓展分类词分类结果,本文采取的评价标准为查准率P、查全率R和F1值 [11],计算性别、年龄、学历属性的分类精确率、召回率和F1值,计算公式如下:
混淆矩阵是用来总结一个分类器结果的矩阵 [12]。对于k元分类,即绘制
的表格,用来记录分类器的预测结果。对于最常见的二元分类来说,其混淆矩阵是
的,如表2所示:
将基于LDA模型提取关键词方法与在LDA模型基础上进行特征扩展的方法提取用户基础信息,如性别、年龄、学历属性评价结果进行比对,如表3所示:
实验结果可知,LDA特征扩展对文本关键词提取准确度更高,相比LDA模型准确率、召回率、F1值均提高2%左右,由于美颜相机用户检索短语的主题不密集,用户特征显现不明显,在此基础上,LDA模型经过特征扩展之后,可以相对全面表达短语特征,缓解美颜相机类软件中短文本特征稀疏问题,较好解决LDA模型在提取关键词过程中的一部分缺陷。
4. 研究结果
4.1. 美颜相机用户整体画像
用户画像可以刻画美颜相机整体用户特征。美颜相机的用户多为14~20岁学生群体,女性占比88.08%,选择的滤镜风格以复古风居多,贴纸风格以可爱风居多,拍摄内容主要以人物居多,对于会员的购买情况,购买会员的用户占比不到20%,对软件的评分平均为2.873。由网络分析图3可知,用户对软件内贴纸滤镜的选择主要依靠以下五个角度:风格、效果、顺序、流行热词、清晰度。
4.2. 美颜相机用户特征画像
为精细化美颜相机用户画像,将用户所在城市划分为七个城市等级,分别为一线城市、准一线城市、二线城市、三线城市、四线城市、五线城市、其他城市。
由图4可知,美颜相机用户主要聚集在一线、准一线城市,城市越发达,用户量越大。以一线城市用户为例,可刻画具体用户画像如图5,一线城市用户主要以普通用户和VIP用户为主,女性,年龄在14~28岁之间,学历在高中以及本科人数居多,除学生群体外,企业就业人员收入水平在8000元以上,用户将美颜相机作为主要拍摄软件,使用设备为摄影类手机为主,其中手机品牌以苹果、华为、小米居多。在广告推送方面,用户接受度偏高,可接受每天2条推送左右,开屏广告对用户体验影响度不高。在滤镜、贴纸选择方面,主要选择类型为ins风、复古风、可爱风,在拍摄内容方面,主要以美食、人像
![](//html.hanspub.org/file/13-2580849x42_hanspub.png?20220215082542837)
Figure 3. Network analysis of user portrait search words
图3. 用户画像搜索词网络分析图
![](//html.hanspub.org/file/13-2580849x43_hanspub.png?20220215082542837)
Figure 4. Distribution of beauty camera users in cities of each line
图4. 各线城市美颜相机用户分布情况
![](//html.hanspub.org/file/13-2580849x45_hanspub.png?20220215082542837)
Figure 5. Specific user portraits in first tier cities
图5. 一线城市具体用户画像
内容为主,在妆容选择方面,通常默认模板自带妆容,主动更换妆容频次不高,对于DIY等新功能入口点击率,用户点击率为40%左右,调整入口位置,点击率变化不大,由此用户对于软件的使用更偏向惯性使用,对新功能探知欲不强。创作者专区模板情况数据情况为依据,使用模板具有特定风格、类型、时代的模板使用频次较高,用户自己做创作者的人数比例极低。新用户对于新功能入口、创作者专区等点击率较高,但保存率偏低,留存用户使用软件时间在1~5年之间,使用频次较稳定,点击率和保存率也保持稳定,一般拍摄时间为10点~13点、19点~23点,经常出现反复性使用同一贴纸、滤镜的行为。软件内交流、分享、评论等行为参与度不高,模板收藏低于100,创作者收藏低于50。VIP用户占比在30%左右,其中其他平台关联VIP比例高达70%以上,VIP用户相较于普通用户,更愿意探索软件新功能,重视使用体验,针对软件的需求有明确的想法,以及对付费滤镜更新期待值也会更高,因此,提升VIP用户使用体验可以大幅提升付费型用户占比,对软件的盈利及营销都有至关重要的价值。
5. 基于美颜相机用户画像的精准营销对策
5.1. 建立完善的精准营销体系
精准营销策略的建立需要依靠真实数据,建立可靠用户画像,把握用户需求,为用户提供个性化服务,准确的内容推荐以及舒适的APP使用体验,在提高现有用户忠诚度基础上吸引新用户。在此基础上可以看出软件运营过程当中关键数据埋点的重要性,比如,新功能开放时ICON的点击率、保存率等等关键数据,在硬件设备发展逐渐扩大的现实条件下,软件的应用也应随硬件进行调试,比如智能手表,智能电视等设备的适配也在吸引新用户方面有很大的帮助。
5.2. 基于用户行为数据实施精准营销
用户画像是软件目标用户群体的整体体现,了解用户画像的根本目的就是根据用户群体的情况调整软件的运营决策,美颜相机在软件运营过程中,完善功能性APP使用流程,优化用户的使用体验,增大用户体量尤为重要。根据获得的用户画像信息,精准定位目标用户,不同用户群体采用不同的渠道进行内容、广告投放,在不改变用户软件使用舒适度的情况下,利益最大化,以用户喜爱的交互行为进行广告营销,以实现稳定用户群体的同时获得收益。例如,服饰类广告可以设计服饰品牌贴纸特效等,不同类型用户进入拍摄的ICON位置不同,从而使得广告投放点击率提升。
5.3. 即时更新数据,追踪用户画像变化情况
互联网数据时代催生用户使用软件情况变化迅速,流行风格以及软件受众都可能瞬息发生变化,此刻的需求并不是一成不变的,而是呈现变化的动态图谱,因此,要即使掌握用户的使用数据,实时有效分析。建立的标签具有一定的生命周期,不进行追踪就难以抓住用户的真实需求,因此标签必须实时更新。建立标签规则,如更新维度、更新权限等关键要素。增加新产生的标签,去除已经被淘汰的标签;调整触发机制以更新标签,设立更新条件。以此获得更为准确的用户画像信息。在完成拍摄、P图等动作之后,还需定期发放问卷以调研用户的满意度,为软件提供下一步的产品、内容、服务等方面的策略调整。减少显性且频繁的广告营销,尤其是软件之间的跳转类型营销,频繁的软件切换会引起用户反感,影响使用体验。
6. 总结
本文主要介绍了如何根据用户检索内容建立精准用户画像,以帮助美颜相机互联网企业精细化定位人群,挖掘潜在用户。利用大数据建立模型的最终目的是服务于公司基于主体用户画像进行精细的营销决策,以获得最大收益。用户画像连结互联网企业与用户,利用大数据建立模型,挖掘潜在用户并留住潜在用户,帮助互联网企业更加有针对性进行用户增长工作,是让互联网企业获得利益最大化的营销手段。