湖南大学

海量数据小文件分布式存储系统的设计与实现

作者:
刘伯睿

关键词:
海量小文件 文件系统 分布式 文件块 一致性

摘要:
近年,由于互联网的发展,导致海量信息的传输和存储的场景日益增多,在这种背景下,数据存储技术也得到了快速发展。由于互联网的信息以海量小文件居多,所以作为海量小文件存储技术的一个重要研究方向,分布式文件系统是当今的研究热点。目前,在分布式文件系统中存储海量小文件时,还普遍存在着存储性能不高、存储空间利用率低、性能瓶颈及单点故障等问题,因此,如何解决目前海量小文件数据的存储和传输中存在的诸多实际问题,是当前计算机存储技术研究领域中非常重要的工作。首先,针对上述问题,本文提出了一种在单个数据节点中存储海量小文件的数据分块方案。在该方案中,对小文件的概念及算法进行了描述,并定义了文件块的块内利用率,块内相关率及块间相关率三个指标,根据这三个指标,可以对每个文件块中小文件分布的情况进行量化的考核,再衡量文件块对于查询数据的影响,最后可以有针对性的进行优化。其次,提出了一种给予小文件存储的数据副本数确定算法。这种算法以小文件副本所在的数据节点可靠性为参数,该参数能够快速确定小文件的可靠性,系统可以根据此可靠性来决定当前的小文件副本数量是否满足要求。在此基础上,提出了一种灵活的小文件副本弱一致性维护方案。第三,在分析海量小文件分布式存储系统的功能和性能需求的基础上,提出了整个小文件存储及管理系统的框架,该框架主要从数据节点DataNode、数据管理服务器DataServer、文件块倒排表、文件倒排表与目录的管理、相应的API函数等四个主要方面对海量小文件分布式存储进行了设计和实现。最后,为了评估系统的整体性能,对系统进行了测试。通过分析与测试一些关键性指标与性能,得出整个系统的性能基本达到设计要求,能够满足实际环境的要求的结论。

在线下载

相关文章:
在线客服:
对外合作:
联系方式:400-6379-560
投诉建议:feedback@hanspub.org
客服号

人工客服,优惠资讯,稿件咨询
公众号

科技前沿与学术知识分享