1. 引言
数字信息的产生、传播和分析是技术革命的重要驱动力和结果。为学术研究和工业需要的数据提供组织、架构、保存并从不断增长的、新出现的数字化数据量中获取数据将成为研究型图书馆的一个重要功能。作为科研界和学术界的合作伙伴,研究型图书馆也认识到并努力适应学术实践和学术交流中因技术变革而产生的一系列后果。为了研究新兴技术在研究型图书馆在科研和学习方面的应用及未来的影响,作者通过网络调研近十年来国外关于新兴技术在图书馆的应用案例及系列文章、报告等,对国外研究型图书馆采用新型技术的实践从研究型图书馆的价值和专业知识如何影响并塑造参与方式、对图书馆和图书馆员角色的概念重建以及一系列新兴技术对图书馆如何完成其使命的影响等六个方面进行了研究总结。
2. 跨领域的机遇
2.1. 参与机器学习,改进研究、学习以及学术交流
机器学习(ML)是研究型图书馆最需要关注的新兴技术。“使用示例集合训练软件用以识别模式并根据识别结果采取行动” [1],机器学习在某些约束良好但又复杂的任务上,展现出了一种与人的工作效率相匹敌或超出的非凡能力,并且已经被整合在一系列常见的系统和设备中。人工智能(AI)一词横空出世,经常被用作机器学习、自然语言处理(NLP)、专家系统以及接近人类认知的相关技术的概括性术语。但需要注意的是,人工智能一词的随意使用往往会抹去实质性应用(如模式与图像识别)与推测性和未经证实的应用(如预测推理、阐述原始想法)之间的区别 [2]。
随着近期机器学习及其相关技术的应用,学者们创造和利用信息、学生学习和研究、业界和环境互动等多种方式形成,图书馆作为信息的创造者、信息来源、信息管理者和教育者的角色将受到深刻影响。图书馆可通过更好地理解机器学习的功能、局限性和风险,并将机器学习和相关技术的真实作用与AI宣传区分开来,从而在战略上与机器学习接轨。机器学习在分类、预测、模式识别和生成等任务中的应用,使其与信息发现有着密切的联系。图书馆对信息检索和发现人机交互的长期兴趣以及最近对图书馆用户体验设计的重视,为图书馆参与以人为本的ML工具的研究提供了基础。许多研究型图书馆正在采取措施将机器学习、计算机视觉、自然语言处理等技术应用于图书馆大规模数字馆藏的自动描述,并用于增强图书馆的挖掘、获取和分析系统 [3]。部分馆还在校园里围绕机器学习的含义、伦理和未来进行批判性的讨论和教育尝试 [4]。但目前,研究图书馆对于机器学习的关注还只是临时过渡性接触,尚未到战略接触的层面。美国国家人工智能战略列举的内容中有几个是图书馆可以重点参与的,比如:理解和解决人工智能的伦理、法律和社会影响;开发用于人工智能训练和测试共享的公共数据集和环境;通过标准和基准来衡量和评估人工智能技术 [5]。
2.2. 支持识别研究企业数据中心的服务
研究图书馆应该认识到“数据是科学的货币”,“能够交换数据、交流数据、挖掘数据、重用数据和审查数据,对科学生产力、协作和发现本身至关重要” [6]。研究图书馆的应对措施是为研究发放数据集许可证,提供对公开可用数据的管理访问,提供与数据使用和重用相关的知识产权法指导,并为使用和重用驱动的数据仓储提供基础设施。图书馆已认识到,数据管理越来越需要访问用于生成或分析数据的代码和计算环境,并正在开发解决方案,以确保在这种关键环境下保存数据。研究图书馆在数据生成、传播、发现、分析、管理和应用方面发挥着关键的作用,它有助于实现促进开放式研究的可查找、可访问、可互操作和可重复利用(FAIR)的数据环境 [7]。未来十年,推进FAIR数据将需要巨大的投入,这为图书馆创造了大量的机会。研究型图书馆可从以下几个方面对FAIR数据做出贡献:描述结构化数据;建立并提供对机器可操作且支持机器学习的数据集的访问,以促进计算驱动的研究;与领域专家合作开发描述性标准和本体,以支持人类和机器的学科和多学科研究;维护重用驱动的仓储基础架构 [8]。研究型图书馆正在开发符合学者们需求的服务,学者们通常需要大型数据集以及那些较小的、异构的、独特的长尾数据集,通常是那些支持跨学科研究的劳动密集型数据集。图书馆员作为教育者的角色,在培养数据使用的流畅性和以数据为中心的研究方法所需的技能方面具有很强的优势 [9]。
2.3. 将图书馆的服务和馆藏与网络环境相结合
当前,研究者们在地理上分散的、跨学科、网络化的环境中工作,学术交流也变得多元化和条块化。图书馆在信息管理中的角色正在被重新定位:图书馆不再仅仅是一个统一地方研究馆藏的管理者,而是一个由开放、可扩展的工具、资源和服务组成的网络信息集成的促进者。建立地方研究馆藏的重要性最终会降低,而信息的管理和便利的访问获取将变得至关重要。研究型图书馆正在利用新兴技术使其服务和馆藏具有互操作性,并更无缝地融入其成员的生活和工作中。例如研究型图书馆正在通过创建可收割的、机器可读的元数据,并把它们与持久的标识符关联起来,从而确保他们特有的数字馆藏(包括数字化专题馆藏、机构出版的内容、专家简介)能够与网络规模和联合挖掘工具实现互操作。由于研究实践通常会跨越机构和地理边界,研究型图书馆也有机会采取联合行动或是在当地合作框架之外采取行动,从而最大化其影响。例如,图书馆可以开发研究数据管理的协作模型,在这个模型中,各个机构根据本地的优势和能力负责一部分数据(如按地域或类型定义的数据) [10]。或者,图书馆可以利用自己的专业知识参与那些不隶属于校园的或不由校园管理的其他机构(如专门的“数据社区”)的相关方案 [11]。
2.4. 培养隐私意识和隐私服务
新兴技术正在重新定义人们对隐私的期望,并制造了围绕个人数据伦理使用上的矛盾。物联网技术可以在物理空间中收集连续的数据流,也可以在虚拟空间中通过收集校园及第三方系统的数字形成持续性监控。机器学习工具能以惊人的速度和精度处理这些数据,使得真正的数据的“去识别化”几乎不可能。学生和学者们期待数据驱动的个性化数据服务,学校也期待从大规模数据分析中获益,图书馆在隐私保护方面将面临至关重要的选择。研究型图书馆在帮助校园团体发展物理和数字空间、隐私的细微理解方面发挥关键性作用。图书馆可以在自己的工作中致力于对透明数据收集保留并使用的策略,以及有意识、周到的管理和控制个人信息。这包括:就保护读者隐私在与供应商的协议中进行谈判、在隐私和个性化之间寻找权衡点;围绕图书馆参与校园范围内的数据收集工作建立界限。对隐私的真正承诺可能会成为图书馆的基本特征之一,许多图书馆正在努力提供物理和虚拟空间,有意识地将跟踪用户或收集用户数据的方式最小化并使之公开透明。图书馆有机会在隐私教育、个性化和学习分析以及校园跟踪技术的运用中隐私意识方法等方面,将自己定位为领导者。以用户为中心的图书馆服务,其中一个核心组成部分就是持续关注用户隐私问题,关注的内容包括:用户数据合乎道德的使用、跟踪设备的实施、算法决策工具以及图书馆需要注意的其他潜在的入侵技术。
3. 促进信息发现和使用
3.1. 致力于以用户为中心的发现工具
网络规模挖掘工具的广泛应用,再加上大量的信息过剩,颠覆了“图书馆试图授权或提供所有已出版资料获取的观念”,并进而促使图书馆去专注于创建和授权那些能够导航并管理内容的挖掘工具和服务 [12]。图书馆搜索界面主要依靠关键词与出版物全文(或其元数据记录)相匹配的方法对用户来说非常不便,他们必须尝试不同的搜索词组合,处理不完整的元数据,并从大量的搜索结果中进行筛选。一系列新的搜索和发现工具正在挑战简单关键词搜索的中心地位,通过机器学习增强其能力。图书馆员在控制词表和本体映射方面的专业知识可有效地应用于机器学习模型的训练,从而促进跨学科搜索。图书馆可以关注学术研究过程中透明度和完整性的价值,提供透明的检索接口,允许用户清楚地知道他们为什么看到某一组搜索结果,并能“调整应用于集合或馆藏的算法的参数”。以用户为中心的发现工具需要将功能扩展到“搜索和检索”之外,包括在已知项目和探索性搜索可以辅之以“当前意识”工具,帮助学者跟上其领域发展的机制;提供即时文章摘要的自动化文本处理工具;可视化不同资源之间的联系;创建和管理包括图书馆馆藏和外部资源在内的个性化收藏的能力;展示科研人员工作的学术简介,并允许他们根据自己的兴趣为新发表的研究建立一个个性化的信息源。信息技术将“信息挖掘”扩展到了简单的搜索和检索之外,这将重新定义检索和参与网络信息的过程。
3.2. 通过增强说明揭示隐藏的数字馆藏
数字化的加速及原生数字内容的创作,使得图书馆对于支持传统馆藏挖掘和导航的工具及方法在资源描述过程中面临增加越来越多的说明内容。随着图书馆越来越重视其特有的本地馆藏,他们需要新的方法使这些馆藏能够被内部和外部的读者(包括人和机器)发现和导航。自动元数据生成的机器学习方法为大规模描述文本、音频、静态和动态图像的数字化馆藏开辟了新的可能性。图书馆为了向数字化文本的大型语料库提供大规模的结构化元数据也正转而采用自然语言处理和命名实体识别(NER)工具。同时,机器学习对于处理静止和运动的图像及音频也有重要的意义。许多学术图书馆正在实验一些诸如机器学习算法(包括面部识别和图像识别分类)和自然语言处理技术,从而实现自动化元数据创建、提高可视化信息的挖掘,并对他们丰富的数字文化及原生数字化馆藏提供前所未有地访问获取。短期内,机器辅助编目可能是这个领域一个富有成效的中间地带。
3.3. 图书馆系统之外公开图书馆馆藏
随着信息变得越来越分散、多元化和开放,研究者们更喜欢网络规模的挖掘工具,这些工具能从一系列孤立的图书馆、目录和数字资产管理系统中聚合资源 [13]。研究型图书馆有许多战略机遇,它可以将图书馆的馆藏与其他一系列开放的数字资源整合在一起,丰富开放网络上用户可获得的信息。研究型图书馆正在从以下几个方面满足用户的需求:实施搜索引擎优化技术、通过聚合器揭示元数据以便于收割(如美国公共数字图书馆)、提供允许与馆藏进行新形式计算约定的应用程序编程接口、采用交互操作标准(如国际图像交互操作框架) [14] 以促进,挖掘和再利用;参与连接开放数据倡议。这种向外部读者揭示本地馆藏的转变,被Lorcan Dempsey称之为“由内而外的图书馆” [15] 趋势,其他作者称之为“作为平台的图书馆” [16] 的一个组成部分,是开放、过度饱和以及信息环境网络化的自然结果。图书馆在内容管理中的角色正在重新定位:它不再是统一馆藏的管理者,而是成为一套开放的并可扩展的工具、资源和服务的网络集成的促进者。研究图书馆的便利服务和互动可能会取代他作为本地内容收集者的角色,这个角色的核心功能之一是促进互操作性。
4. 管理学术和文化记录
4.1. 推进开放研究和出版实践
通过支持开放研究实践——包括采用开放元数据标准、创建机读出版物以及将输出(包括底层数据和代码)存储于开放仓储中,图书馆使研究更易于发现、可重复利用、可复制和更持久。这些实践既提高了学术本身的质量,也提高了学术记录的质量和可使用性。图书馆通过其管理、教育和保存活动,在实现研究数据的FAIR (可发现、可获取、可互操作、可重复利用)方面发挥着关键作用,实现FAIR学术的愿景将是未来十年研究界面临的主要挑战 [17]。出版数字内容的便利性已经导致了一种转变,即不再使用由知名期刊和专著出版商出版并由图书馆发行的统一学术记录。学术记录被分散成各种各样的机构知识库、学科知识库、社会共享网站、小型纯网络出版物、个人博客等,这就需要创造一种更以资源为中心的方法来传播、发现、评估和保存学术研究。研究型图书馆在倡导和促进使用唯一的、持久的标识符方面应该继续做出更大贡献。凭借他们在标准和发现系统方面的专业知识,以及他们与科研界的关系,研究型图书馆员完全有能力与身份注册合作促进互操作,鼓励共同实践,向更网络化的学术交流系统迈进。
4.2. 加强学术和文化记录中的诚信和信任
图书馆作为记忆机构是建立在大众对其信任基础之上:他们管理下的材料是真实的、不变的,并通过一个透明的和被充分理解的过程被予以保存。新兴技术出现对图书馆受信任的管家角色提出了新的挑战,信息真实性的保证受到数字媒介易操作性和易修改性以及不确定数字材料来源复杂性的威胁。深度造假(伪造的视频、音频、静态图像、使用机器学习创建的文本内容)是一个特殊的挑战。研究型图书馆有各种数字取证工具,用于验证数字藏品和馆藏在收录时及它们整个生命周期的真实性。他们也正在识别安全路径——可能涉及分布式记账技术(如区块链)以及公开密码匙基础设施(PKI)——从他们信任的来源中获取数字化研究对象的副本,记录并证明保管链以及在此过程中对其所作的任何更改 [18]。加入后,固定性检查持续证明:无论是内容退化还是有意或意外的操作,研究对象和馆藏不会随着时间的推移而变化。面对网络攻击和自然灾害,所有这些过程的基础是维护计算和存储操作的安全性和完整性。最后,图书馆员也帮助他们的成员发展评估和批判性参与信息的完整性和可靠性所需要的技能。
4.3. 保存不断发展的学术和文化记录
不断增加的学术和文化记录扩大了实现大规模数字化保存的技术障碍和社会障碍。技术方面,新兴技术需要新方法数字化保存以前所未有创作速度创作的新类型研究和创新成果。软件、3D数据、动态网络内容、机器学习的输入和输出以及其他媒体共同推动了既定的数字化保存实践的极限。数字化和文化活动中产生了大量的数字图像、视频、新闻、社交媒体帖子和其他网络内容,这些内容构成了现在和未来学术研究的重要证据,但按照其规模和复杂性,现在还无法系统和很好地保存 [19]。这意味着将来需要深入的跨机构协调与合作方能解决什么样的文化和记录可以而且应该长期保存的棘手问题 [20]。在社会方面,数字学术和文化内容的分布式和授权性质带来了法律、行政和财务障碍。新兴技术破坏了数字保存环境的稳定,需要保存的文件类型和格式范围不断扩大,从软件和代码到三维数据再到动态网站,都是一个令人望而生畏的挑战,需要保存的资产数据呈指数级增长。但新兴技术也提供了新的解决方案和机会。一些图书馆和他们在计算机科学和信息技术部门的合作者正在利用集装箱化、分布式记账技术(如区块链)、新存储媒体、以及通过机器学习实现数字保存实践的自动化,以确保扩展后的学术记录在未来仍然可以很好地访问。
5. 推进数字学术研究
5.1. 开展跨学科的大数据和小数据的数据服务
学术和研究图书馆与其他参与数据管理活动的机构是天然的合作伙伴,许多图书馆保持着强大的、积极的研究数据管理服务。图书馆员拥有数据整个生命周期中管理数据所需的学科、信息管理及技术专业知识。图书馆数据服务的形象正受到许多因素的影响,这些因素包括:人文和社科领域数据驱动研究的扩展,以及将数据作为活的资产而需要的基础设施和服务。当学者们处理复杂、异构和可变的数据集时,他们需要有助于分析、共享和保存的工具和教育。强调数据的使用和重用对仓储基础设施有深远的影响,这意味着图书馆要从为存储和检索优化的基础设施向为分析和共享优化的基础设施的转变 [21]。尽管有一些图书馆在这方面取得了长足的进步,但大多数数据仓储服务仍然专注于帮助学者满足统一检索和出资人围绕数据存储的要求。新兴技术为研究型图书馆扩大和发展数据服务创造了三个相互关联的机会;为学术分析收集和许可数据集、开发支持重用的数据仓储基础施、支持可重复的科学。由于发现和分析方法因学科而异,研究图书馆在设计对发现和分析方法敏感的数据服务和基础架构时也面临挑战,挑战之一就是数据安全,特别是以云存储方式存储数据。未来,对数据密集型研究和数据管理的支持将要求图书馆超越机构界限开展工作,除了或代替以机构为单位组织数据仓储之外,研究图书馆还可以通过基础设施、策展指导、知识产权专业知识和社区建设等方式,致力支持与学科有关或与研究兴趣有关的跨机构科研团队。
5.2. 提供和保持机器可操作的馆藏
数据科学家、人文学家和社会科学家越来越多地将图书馆馆藏作为创造和发现新知识的数据来源,图书馆馆藏用于计算研究的潜在优势是多方面的:它们通常包含高质量的人工生成的元数据,一些是开放获取的,对用于数据挖掘有较少的限制,许多已经使用机器可读的标准进行了精心的组织。一些最具创新性的数字学术工作利用计算过程,从图书馆收藏的大量数字和数字化内容中获得新的见解。一系列学科的许多学者寻求更微妙的发现和分析方法时,文本和数据挖掘已经获得了他们的青睐 [22]。机器可操作的馆藏使研究人员能够超出简单的信息检索,将馆藏(包括他们的元数据、全文及关系)作为强大计算过程输入。数据即馆藏项目等举措鼓励文化遗产机构深思熟虑地开发数字收藏和联合服务(例如,研讨会、咨询、数字平台),以支持“计算驱动的研究和教学” [23]。这意味着不仅要让数字收藏在网上可用,还要提供结构化的、机器可操作的数据集。机器可操作的数据集合对于人类驱动的计算研究以及新机器学习工具(依赖于大量的结构化数据来精通一项任务)的开发都是必不可少的。图书馆可以运用他们“在创建和管理分类系统中的专业知识和实践知识”来开发服务于文化遗产机构需要的机器学习训练集。
5.3. 提供数据科学教育和咨询
大数据时代给各个学科的科研人员带来了新的挑战,他们“通过电子科学实验生成的或操纵数据的能力远远超过了他们管理、组织或方便获取数据的能力” [24]。由于多数学科的学者们在研究和学习中通常依赖于计算数据分析,数据科学能力迅速成为研究人员和学生的一种核心竞争力,研究型图书馆能够培养数据科学技能以维持和扩展这些做法。许多图书馆已经启动了支持数据科学工具的教育和咨询项目,包括主办一次性研讨会、系列研讨会、兴趣小组、长达一学期的合作计划、会议等活动。一些研究型图书馆已经确定了定位:为STEM领域以外的教师和学生提供量身定制的教育服务。这些非正式的教育项目能够帮助所有学科的本科生和研究生都精通常用的数据科学工具(如电子实验笔记本)、技术(如网页抓取)、研究数据管理实践、遵守政策以及开放科学原则等。
6. 促进学习和学生成功
6.1. 建立数字技术精通和数字化研究技能集
研究图书馆提供了一系列非正式的教育和咨询课程用于教授数字化技能。这些技能有助于本科生研究生及早期职业研究人员在学术上和专业上取得成功,其中包括教授具体数字化学术研究和编码技能(如编程语言,软件木工、数据可视化)的研讨会;研究数据管理和开放科学实践的研讨会;学术交流主题(如,版权、身份管理和学术出版导航)研讨会。面向特定群体的长期教育项目也很受欢迎。这些项目通常鼓励跨学科在一个学期或更长的时间内参与新兴技术应用,一些研究型图书馆也推出了填补学术课程空白的正式项目,如美国坦普尔大学图书馆推出的跨学科文化分析证书。除数字学术研究技能外,研究型图书馆还有机会帮助学生重点参与并优化新一代生产力工具的使用,许多工具由机器学习提供支持并能在一系列与学习和研究相关的任务中向用户提供帮助。网络上信息发布的便捷性和误导性、假冒内容的日益复杂性、利用黑盒算法生成和显示信息,这些都意味着,数字技术的精通要求学生能够解读并评估这些前所未有的新媒体格式和新信息来源。学生不仅需要了解文本媒体的可靠性和可信度,还需要有数据和算法素养技能、区分真实的和被操纵的或伪造的数字内容的策略、以及对在线数据隐私的理解。图书馆在与教师、校园IT及其他合作者的合作中提供扩展的数字精通课程。
6.2. 促进所有学生对新兴技术的重点参与和利用
图书馆作为独立的第三空间已经成为所有专业学生获取技术的中心,如今在图书馆中随处可见技术丰富的学习和信息共享空间、协作工作室、创客空间、实验室等。在图书馆内设立数字学术研究中心有助于实现对尖端技术的大众化和非封闭式的访问,鼓励跨学科协作和发现。这些空间为用户提供了专用的软件和硬件(如3D打印机、计算机辅助设计和绘图)、可视化(如高分辨率显示器)、沉浸式现实感(如VR耳机)以及其他数字研究和创作方法。当作为教育者的图书馆将其现有的专业知识用于新的知识生产形式时,他们可以帮助他们的团体深思熟虑并高效的参与到这些空间的技术中。图书馆员也同样有能力与教师合作,将沉浸式真实感和课堂信息可视化等技术与教学方法相融合。
7. 创建并管理学习和协作空间
7.1. 创建动态的网络化空间,促进新的探索形式
虽然新兴技术通常在创客空间和实验室中最为突出,但其最具变革潜力的部分还在于将新兴技术无缝的(通常是无形的)整合到图书馆利用的完整体验中。物联网技术的使用为图书馆空间和服务动态地适应用户行为提供了一个特别引人注目的机会。传感器和网络技术无处不在地集成到图书馆的物理空间中,可以将其转变成“一个感知和研究人类动力学、人机交互以及人类建筑交互的活体学习实验室” [25]。图书馆有机会开创一种包容的、隐私意识强的方法从而将传感技术融入公共领域。创建网络化图书馆空间补充了图书馆作为数据的提供者和管理者、数字化信息发现的节点、与新兴技术和研究与信息行为变化本质的关键参与的推动者的角色。
7.2. 提升图书馆空间的用户体验
新兴技术提供了使图书馆空间变得更受欢迎、可导航、可互动、舒适、高效的一系列机会。图书馆正在尝试用物联网尤其是无线信标技术实现下列活动:创建自助图书馆游览和导航设备、建立增强现实(AR)展览、提供特定位置的移动提醒、帮助用户定位图书馆书库中的资料、方便访问可预订的或受限的空间或项目。新兴技术也可以用来增强图书馆空间的共享意识。一些预测性的应用程序可以帮助用户在图书馆空间中定位并联系与他们有共同兴趣的人,允许他们即时形成学习或协作小组。图书馆在使用信标、便携式设备和基于位置的应用程序时认识到隐私和知识自由的含义,并且正在开发基于隐私感知的物联网技术在图书馆空间实施的最佳实践。
8. 启示
1) 研究型图书馆在采用和试验新兴技术的方法中找到了敏捷性和可持续性、便利性和隐私性、转变和持久之间的平衡,从而做出符合价值需求的决策。机器学习、沉浸现实、物联网等新兴技术的出现,也改变了研究人员和学生参与信息的方式,图书馆有机会推进对科研学习事业的贡献。作为这些技术的采用者,研究型图书馆可以使信息更易于发现、可重复利用和更持久。作为教育工作者,图书馆工作人员则可以帮助他们用户群体批判性的、高效的参与为研究和学习服务的技术。
2) 数字化变革越来越与管理变革有关——采用或参与新兴技术必须是图书馆组织变革更广泛战略的一部分。将新兴工作从外围转移到核心,图书馆及其服务将面临更广泛的概念化转变。图书馆正在从新兴技术为用户提供服务的方式中受益,并从一种集中的、孤立的服务模式转变为嵌入式服务模式。
3) 图书馆发展每一步都离不开新兴技术的推广应用,用户的需求也越来越与技术息息相关。我国高校图书馆新兴技术支持服务无论是理论方面,还是实践探索方面都处于起步阶段,如何把新兴技术有效的利用到图书馆的每一个方面,国外的一些案例及实践做法值得我们借鉴。