1. 引言
随着大数据和人工智能时代的到来,数据已经渗透到各行各业,并逐渐成为核心的生产要素。我们对于数据的运用将预示着新一轮生产效率的提高和消费者盈余浪潮的到来。但海量数据的出现,人工处理效率低下,想要充分挖掘数据信息之间的关系,就需要对数据进行抽象并构建可视化,以充分挖掘数据的使用价值。
信息可视化从属于数据可视化,并侧重于研究抽象的、非结构化的数据 [1] 。优秀的信息可视化设计可以化繁为简,达到“读图致知”。在国家和社会层面,政治经济数据的可视化正不断面向政府的重大需求,为政府决策提供便利。同时,信息可视化的运用也促使政府和社会运行更加透明。在行业和企业层面,诸多领域对信息可视化的需求尤为突出,如金融,物流,人力资源,市场营销等。这些领域的数据概念非常适合用可视化图形呈现,直观地为企业管理层提供高效的决策支持。
随着近几年社会数字化转型,信息可视化因其广泛的实用性得到了学术界、产业界的关注,相关的研究文献也不断增长。每年可视化领域都有大量的技术和应用发布,Geisler等人根据数据类型(如时间,空间,层次等)综述讨论了信息可视化技术和应用。Zudalova等人综述讨论了交互式可视化中的主题,如数据表示,新颖的界面等。Cook,Dianne等人综述讨论了大数据分析中的数据可视化和统计图形。其他论文调查也侧重于可视化的特定领域和方向,如图形可视化、可视化工具、可视化素养等。可以看到大多数文献研究侧重于深入某个方向的技术与应用,缺少从更加宏观的角度对整个可视化领域进行论述。与聚焦某个方向的技术与应用不同,本论文更加关注的是整个信息可视化领域的研究格局。利用知识图谱对该领域相关文献进行梳理分析,可以让研究者从宏观角度明晰当下国际信息可视化的研究热点、未来趋势,为后续的相关研究夯实基础。
本文筛选2007~2022年Web of Science (WOS)核心合集数据库中信息可视化/数据可视化领域相关的文献,利用CiteSpace软件,首先从时间分布,空间分布两个维度进行分析,然后从研究热点角度对文献进行图谱共现分析,并对未来该领域的研究趋势做出预判,希望能给相关领域的研究者提供参考。
2. 研究方案和数据来源
论文采用CiteSpace对文献数据进行可视化分析。文献数据来源于Web Of Science (WOS)核心数据集,设置搜索主题关键词公式为“Information visualization” or “Data visualization”,搜索文献类型为Article,时间跨度不限。搜索得到文献6672篇,检查发现最早文献为2003年,并且是仅为1篇的弱相关文献,其次是2007年出现的相关文献,并考虑到2023年文献数据还不完整,最终确定分析的文献时间跨度为2007~2022年,通过文献摘要阅读,排除重复项,精得文献6628篇。
3. 时空知识图谱及其结果分析
3.1. 信息可视化领域研究时间分布图谱
阶段时间段内论文发文量走势可以直观的反映该研究领域的发展概况,也有助于分析该领域的发展趋势和前沿动态。论文统计了2007~2022年有关信息可视化/数据可视化研究的文献,绘制了该领域的年度文献量变化趋势图,如下图1。
Figure 1. Annual literature volume change trend in the research field of information visualization/data visualization
图1. 信息可视化/数据可视化研究领域年度文献量变化趋势
从图1中可以发现,整体的曲线走向可以分为两个阶段,2007~2017年阶段每年的发文量逐年上升,但曲线整体趋势比较平稳。从2018年开始文献的发布数量出现了大幅上升,2018~2021年阶段曲线呈陡峭上升趋势。分析认为,2017年被认为是从IT时代进入DT时代的转折点,2017年以前随着互联网技术的普及,社会的互联网素养基本形成。2017年后,随着计算机算力进一步提高,物联网技术,平价传感器技术,5G技术的逐步成熟,大数据时代进一步催生民众对于大数据洞察的需求,2018年开始各国对于信息可视化的研究重视程度逐步加强。在2020年,疫情加速了社会数字化,全社会通过多种形式的信息可视化手段发布疫情进展,防护知识,资源调配等信息,需求又进一步推动了技术的发展与应用创意的涌现。
3.2. 信息可视化领域研究空间分布图谱
3.2.1. 国家分布
图2是2007~2022年信息可视化/数据可视化国家知识图谱,图中节点的年轮大小代表该国家发文量,年轮越大发文量越多。年轮最外圈表示中心性,最外圈呈紫色表示该节点与其他节点存在广泛联系,紫色越宽,表示中心性越高。表1统计了该领域发文量前10位的国家,其中发文前3位的国家是美国(2481篇),中国(1082篇),德国(533篇),具有紫色外圈高中心性的国家分别是法国(0.21),美国(0.20),英国(0.16),加拿大(0.15),西班牙(0.13),瑞士(0.11)。其中,中国在该领域的发文量处于第2位,但中心性(0.02)排名较低,表明中国在该领域研究热度较高,但与国际间的研究合作还有提升空间。
Figure 2. Knowledge map of countries in the research field of information visualization/data visualization
图2. 信息可视化/数据可视化研究领域国家知识图谱
Table 1. Top 10 countries in the field of information visualization/data visualization
表1. 信息可视化/数据可视化研究领域国家发文量前十位
3.2.2. 研究机构分布
图3为2007~2022年信息可视化/数据可视化领域科研机构知识图谱。设置阈值84篇及以上,图谱呈现共有10家机构,其中中国机构2家,美国机构6家,法国机构2家。结合图3和表2可知,该领域主要的科研机构为高校,且已经初步形成以中国高校群和美国高校群为代表的科研群体,机构与机构之间已经有初步的国际间合作。从中心性来看,加州大学系统和中国科学院中心性最高,分别是0.12和0.11,说明该两所机构在信息可视化领域已形成了一定的影响力。
Figure 3. Knowledge map of research institutions in the research field of information visualization/data visualization
图3. 信息可视化/数据可视化研究领域研究机构知识图谱
Table 2. Top 10 scientific research institutions in the field of information visualization/data visualization
表2. 信息可视化/数据可视化研究领域科研机构发文量前十位
3.2.3. 作者分布
在CiteSpace软件Node Types面板中选择“Author”,其他参数保持不变,运行得到以下作者分布知识图谱,如图4。根据普赖斯公式(N = 0.749
,max代表最高发文量作者的发文数)计算得到该领域发文数4篇以上的为核心作者。统计得到2007~2022年该领域满足公式的核心作者有71位,发文较多的作者有陈为(34篇),屈华民(26篇),Carpendate. Sheelagh (17篇),巫英才(16篇)。从图4中可以看到,该领域已经初步围绕一些作者形成合作网络,如陈为,屈华民,Keim. Daniel A,Sedmair. Michael等,但高中心性的节点还尚未形成,即核心作者还未形成。
Figure 4. Knowledge map of authors in the research field of information visualization/data visualization
图4. 信息可视化/数据可视化研究领域作者知识图谱
4. 研究内容知识图谱及其结果分析
4.1. 学科研究方向分析
信息可视化(Information visualization)是将数据映射为可感知的视觉图形,来增强数据的被认知效率,传递数据背后隐藏的有效信息 [1] ,即读图致知。(图5)
Figure 5. The essence of information visualization
图5. 信息可视化的本质
现代意义上的“信息可视化”一词最早出现于1989年Robertson发表的《用于交互性用户界面的认知协处理器》的文章中。他将信息可视化定义成为:能够强化使用者感知力与接受力的,由计算机支持的用于表示抽象信息的互动式可视化图像 [2] 。
大数据时代,信息可视化学科结合了计算机学,计算机图形学,设计学等众多学科,并被广泛应用于各个领域。图6是2007~2022年信息可视化/数据可视化的学科分布,从图中可以看出,计算机科学软件工程,计算机科学信息系统,计算机科学跨学科应用是该类研究的主要学科。
Figure 6. Subject discipline distribution of information visualization/data visualization
图6. 信息可视化/数据可视化学科分布
4.2. 研究主题结构分析
文献关键词通常凝聚了文章的核心内容,对关键词进行共现分析可以帮助研究者进一步掌握信息可视化/数据可视化领域的研究热点。在CiteSpace软件Node Types面板中选择“Keyword”,其他参数保持不变,运行得到以下关键词共现知识图谱,如图7。图谱结果显示:N = 460,E = 1685,Density = 0.016,表示图谱中产生了460个关键词节点,节点与节点之间共产生了1685条连线。关键词的词频越高,表示被研究涉及的次数越多,中心性越高,表示跟其他关键词的联系越多。本文选取词频超过80次的关键词形成表3。其中出现频率最高的关键词是“data visualization (数据可视化)”和“information visualization (信息可视化)”,但中心性值不高,表明目前该领域正呈现散点状研究。
Table 3. Frequency and centrality of keywords in the research field ofinformation visualization/data visualization
表3. 信息可视化/数据可视化研究领域关键词词频和中心性
Figure 7. Keyword knowledge map in the research field of information visualization/data visualization
图7. 信息可视化/数据可视化研究领域关键词知识图谱
基于关键词知识图谱,借助知识图谱的节点查询功能梳理相关文献,并结合关键词词频表得到五个当前主要的研究热点:
1) 面向非专家用户的信息可视化设计研究
以往,信息可视化通常侧重于为专家用户提供洞察和见解。随着移动互联网技术,物联网技术,低成本传感器应用的普及,非专家用户可以轻松获取自身相关的数据。可视化作为一种工具,允许人们自己主动探索数据。由于非专家用户拥有更广泛多源的数据和可视化素养,以及更多样的使用环境和目标,他们为可视化研究带来了更多新的议题 [3] 。该方向涉及到的关键词有“社交网络”,“影响”,“信息”,“公共卫生”等。
Zachary Pousman等人 [4] 定义了“休闲信息可视化”(Casual Infovis),即使用计算机工具以视觉方式描绘个人有意义的信息,以支持日常工作和非工作情况。并归纳了休闲信息可视化与传统信息可视化的四个区别:
用户群:用户群体扩大到包括从专家到新手的广泛用户。用户不一定是分析思维方面的专家,也不需要是阅读可视化的专家;
使用模式:使用扩展了过去的工作,专注于生活的其他部分。系统旨在用于瞬时和重复(数周和数月)或沉思(在艺术画廊的长时间)的使用;
数据类型:数据通常是个人重要和相关的数据,不一定出于工作动机。这意味着用户与数据的关系通常是更紧密耦合的关系;
洞察力:休闲信息可视化支持的洞察类型不同于传统的系统。建议开发人员提供关于数据的见解,这些数据不是分析性的,而是不同种类的。
Amit jena等人 [5] 认为可视化技术的下一个十亿用户大多数将来自世界上人口众多但之前被可视化研究界忽视的地区-发展中国家和地区。他们的需求可能与研究人员过去针对的用户类型不同,但在访问可能影响其生活质量的数据方面,他们可能获得更多收益。针对大众相关的可视化,Amit jena等人提出了四点建议:
识别机会和用例:确保将代表性不足的少数群体和“非专家”都包括在内,需要重点关注他们可能依赖可视化的场景和目的;
制定和证明通用设计原则:通用设计是为了确保系统可供各种人群使用,包括残疾人和紧急用户。这些原则尤其需要解决许多社区缺乏识字和算术的问题,并确保不做出不适当的文化假设(例如,颜色编码在不同的社会中可能有不同的解释);
提出正确的问题(并进行正确的评估):可视化研究在很大程度上是基于一个理想化的“专家”用户的假设,它隐含地偏向于少数专家用户,而不是普通人群。这意味着随着时间的推移建立的许多假设和原则不太可能推广到大多数用户,甚至可能导致有偏见的系统;
更广泛地参与:确保最终用户参与进来,并为新兴用户提供全方位的机会成为利益相关者。
2) 将信息可视化融入社会基础设施建设
信息可视化手段逐渐应用于社会基础设施领域,用于解决政府管理,公共医疗,防灾减灾等领域的问题。涉及到的关键词有“数据可视化”,“管理”,“影响”,“公共卫生”等。
在COVID-19全球爆发期间,信息可视化已被证明对于政府、卫生机构和媒体告知公众相关信息至关重要。社交媒体已成为公众表达情感和意见的主流平台。因此,在平台上的情绪分析可以发现并提供公众态度的宝贵证据,帮助政府制定措施和政策。Xuemin Yu等人 [6] 开发的Senti-COVID19交互式可视化分析系统,用于调查公众的主导情绪并检测社交媒体中与COVID-19事件相关的触发因素。Senti-COVID19采用VADER词典对社交媒体文本进行情感分析,并使用NTLK库进行关键字提取。Senti-COVID19结合了不同的可视化效果,允许对整体情绪趋势进行研究,以确定公众对COVID-19事件的主导情绪并检测波动触发因素。Senti-COVID19中实施的多种可视化使非专家和专家用户能够跟踪公众舆论并从数据中直观地发现见解。
近年来,肥胖、癌症和糖尿病等慢性疾病的人数激增,为了向慢性病患者提供适当的治疗,医疗系统必须支持在疾病出现之前改善个人与健康有关的做法,确保一系列从业人员能够在疾病发作期间提供高质量的临床护理,并在疾病后健康护理期间促进患者-提供者-家庭伙伴关系 [7] 。Antonino Galletta等人 [8] 提出了一种新的图形工具,用于健康数据的可视化,医生可以用于远程监测患者的健康状况。该工具允许医生通过查看彩色圆圈来快速了解用户的当前状态。相较于以前的解决方案,AntoninoGalletta等人的远程医疗数据可视化方案解决了以下三个问题:1) 高度可扩展性,能够使用不同的服务资源(硬件和软件);2) 能够操作和交叉关联历史数据和实时采集;3) 使用新工具的友好性。医生可以监控患者的治疗,在显示的地图上绘制多边形,可视化该特定区域中包含的标记。每个标记都可以运行显示不同参数的圆形视图,以监控患者的健康状况。
3) 新体验,新交互研究
随着计算机渲染性能的逐渐增强、VR低成本化的成熟,极大地促进了可视化技术层面的发展,为可视化创造了更优质的交互模式和沉浸感。VR的交互式和沉浸式体验提供了一种观察数据的新方法。VR在可视化科学数据方面的主要优势在于它允许用户直观地探索环境并与之交互 [9] 。用户可以从任意的角度和有利位置观察物体,就像我们在现实世界中观察它们一样,并使用VR控制器以毫米级精度进行交互 [10] 。Chng Wei Lau等人 [11] 提出了一种新颖的沉浸式分析工具,用于虚拟现实环境中的癌症患者队列,虚拟现实观察肿瘤学数据模型。他们利用沉浸式技术来分析一组癌症患者的基因表达和临床数据,VR中还部署了机器学习算法和可视化方法,以增强数据查询过程。他们的方法允许临床医生询问有意义的信息,同时为他们提供身临其境的分析功能,以对个性化医疗有新的发现。
VR的真实感会促进用户自然流畅的体验,并允许用户快速执行复杂的空间任务。与传统的键盘,鼠标,显示器配置相比,VR场景中的执行效率通常会领先几个数量级。此外,VR场景中的体验会驱动好奇心并鼓励探索,从而促进新的科学发现。
Ji Soo Yi等人 [12] 在对信息可视化系统及其交互功能进行了广泛的审查之后,提出了信息可视化中广泛使用的七大类交互技术:1) 选择;2) 探索;3) 重新配置;4) 编码;5) 抽象/阐述;6) 过滤;7) 连接。这些类别是围绕用户在与系统交互时的意图进行组织的。这些类别可以作为一个框架来帮助讨论和评估交互技巧。
以往,信息可视化系统遵循一刀切的模型,即向每个用户显示相同的可视化,而不考虑单个用户的偏好、能力或上下文。鉴于使用信息可视化涉及相当大的认知工作,Ben Steichen等人 [13] 研究了单个用户的认知风格对信息可视化性能的影响。此外,他们还研究了几种交互式“可视化辅助工具”(即可以帮助可视化理解的交互式叠加),以及认知风格对辅助选择和偏好的影响。用户研究的结果表明,认知风格在执行信息可视化任务时起着重要作用,并且在个人辅助选择和偏好方面存在明显差异。这些发现也为开发自适应和个性化的信息可视化系统提供了动力。
4) 涉及信息可视化的教育培养
信息可视化素养越来越被认可为是一项基本能力,正如计算机素养被认为是一种必备技能。Andy Kirk等人 [14] 提出了一个框架,概述了构成信息可视化专业知识的不同能力“成分”范围,该范围被描述成人们在进行数据可视化时扮演的七种角色。框架可以作为信息可视化所需能力的清单,帮助个人评估自己并确定自己的优劣势所在,也可以被视为在团队或协作小组中所需的多学科能力的清单。对于数据可视化或信息设计等相关领域的大学部门来说,它提供了教学分支范围的参考。
Lynette M. Hudiburgh等人 [15] 在统计学入门课程中引入信息可视化教学。信息可视化教学的设计依赖于统计教育评估和指导指南(GAISE)大学报告2016的建议,该指南由美国统计协会(ASA)制定,以指导大学教师进行课程开发。整个可视化课程中交织了以下六项GAISE建议:
GAISE 1-教授统计思维;GAISE 2-注重概念理解;GAISE 3-将真实数据与背景和目的相结合;GAISE 4-培养主动学习;GAISE 5-使用技术探索概念和分析数据;GAISE 6-使用评估来改善和评估学生的学习情况。
课程要求学生找到至少一个与感兴趣主题相关的数据集(GAISE 3),创建几个不同的显示器来讲述数据背后的故事(GAISE 4, 5),说明数据的显着特征(GAISE 1, 2, 3, 4, 5),与来自不同背景的人一起工作(GAISE 4),最后介绍他们的工作(GAISE 6)。
5) 针对信息可视化效能的评价
眼见是否一定为实?这是一个民众可能天真地认为这种可视化是世界上“那里”某些数据的准确表示,而没有框架来批评或解构此类数据解释 [16] 。Hannah等人 [17] 分析了轰动美国的QAnon (匿名者Q)运动。QAnon是一种极端在线的阴谋论,它完全依靠信息可视化来传达其信息。QAnon正是对不良信息的可视化,人为造成随机事件或数据点之间联系形成“数据阴谋”,并对美国国内的政治事件产生影响。人们经常先验地将视觉等同于权威,当与在线提供的大量数据相结合时,可视化会产生一种真实感。
信息可视化在社会中的扩展需要一种新的素养,才能使民众能够以知情和批判性的方式采取行动。Laurie H. Rubel等人 [18] 提出了一种在数学教育背景下批判性地阅读数据可视化的方法,该方法借鉴了三个相互关联的概念:数学格式(量化、测量的内容以及如何量化)、框架(变量如何相关以及通过哪种数据可视化)和叙述(数据可视化讲述了哪些故事,其潜在影响和限制)。这种读取数据可视化的方法包括通过重新格式化、重构和重新叙述来重新构想的过程。
视觉显著性地图可以在评估数据可视化中发挥作用,允许设计人员确定可视化是否按预期吸引了用户的注意力。Laura E. Matzen等人 [19] 针对Itti模型在数据可视化方面表现不佳的问题进行了研究,并使用CIE LAB色彩空间,和增加文本显著性的模型来对其进行优化。并验证优化后模型的性能与原始Itti模型在线条绘制和分形刺激方面的性能相当,并且在数据可视化方面的表现明显更加优良。优化后的模型可以是一个简单而有用的评估工具,可视化设计师可以使用它来定性或定量的方式比较候选设计。
我们生活在一个比以往任何时候都更容易可视化和传播有关对人们的生活、家庭、健康和社区福祉至关重要的问题的技术和科学数据的时代。这种可视化实践容易受到绘图和可视化错误的影响,或者更糟糕的是,开发人员会主动尝试误导 [20] 。因此,研究人员必须继续研究数据可视化在多大程度上有可能采用欺骗性策略来影响用户的感知和理解。
5. 国际信息可视化研究趋势
关键词时间线图谱(Timeline View)一方面在时间维度上呈现知识演进变化的趋势,另一方面又能够直观地呈现出各个研究阶段关键词的布局特征,帮助总结出研究主题在时间维度上的影响和演变的过程。运行CiteSpace得到信息可视化领域关键词时间线图谱,如图8。
Figure 8. Information visualization/data visualization timeline map
图8. 信息可视化/数据可视化时间线图谱
结合图8和上文年度文献量变化趋势(图1),可以将2017~2022年信息可视化研究领域的演化划分为三个阶段:第一阶段是2007~2013年的基础研究阶段,“design”(设计),“framework”(框架),“pattern”(形式)等关键词凸显。第二阶段是2014~2017年的实证研究阶段。研究者对可视化的初步应用进行了探究,涉及地关键词有“visual analysis”(可视分析),“prediction”(预测),“health”(健康)等。第三阶段是2018至今的深化应用阶段,拓展了可视化的应用范畴,涉及的关键词有“deep learning”(深度学习),“task analysis”(任务分析),“Artificial Intelligence”(人工智能)等。
为了进一步探究2018年以来信息可视化的发展方向,对图8中2018~2022年出现的高频关键词进行整理,得到表4。
Table 4. High frequency keyword classification of information visualization/data visualization research from 2018 to 2022
表4. 2018-2022年信息可视化/数据可视化研究高频关键词分类
基于表4并结合相关文献分析可知,信息可视化与人工智能的互相促进、融合运用将会是未来的趋势之一。面向人工智能的可视化和人工智能驱动的可视化将会受到相关研究领域的关注。
面向人工智能的可视化,即可视化技术在提高训练数据质量和机器可解释性方面促进人工智能的发展。通过可视化技术提高人工智能训练数据,辅助数据处理与决策,增强机器学习。另外,可视化技术可以将机器学习的中间数据,模型结构,输入输出等以视觉图形呈现,提升机器学习的透明度,帮助专家诊断调试,增强对复杂机制的认知。
人工智能驱动的可视化,即人工智能的进步为可视化发展提供技术支持。人工智能将会在智能特征提取、可视化自动布局与生成、智能交互、智能故事叙述 [21] 等等方面促进可视化的进一步发展和应用。
当下,可视化与人工智能的融合发展与交叉研究已经展现出巨大潜力,同时也促进了可视化与人工智能各自领域核心技术的发展。
6. 结语
本文借助CiteSpace软件,对国际信息可视化领域的研究文献进行可视化分析,分析其时空特征和研究内容,探究了可视化领域研究热点。研究发现:
从信息可视化的历程来看,2007~2022年信息可视化研究重要性逐渐得到学术界和产业界的认可,目前在政府、商业、健康医疗等各个领域应用广泛,展现出巨大的潜力。将发展历程分为三个时期,2013年前是信息可视化的基础研究期;2014~2017年是信息可视化实证研究发展期;而2018年至今是该领域交融新兴技术的快速螺旋上升期。
从信息可视化领域当前的研究热点来看,有以下几个方面,面向非专家用户的信息可视化研究;将信息可视化融入社会基础设施建设的研究;信息可视化新体验,新交互研究;关于信息可视化领域的教育培养研究;针对信息可视化效能的评价研究。
从信息可视化的未来发展趋势来看,信息可视化与人工智能的融合发展与交叉研究已经展现出巨大潜力。面向人工智能的可视化和人工智能驱动的可视化将会是受到高度关注的趋势。
致谢
感谢浙江理工大学吴群教授对论文写作期间的耐心指导,让我对于论文的写作方法、写作技巧、写作内容等有了深入的了解。
感谢浙江理工大学通用设计工作室的同学们对我写作期间提供的无私帮助。
感谢我的家人对于我学术研究的支持。