研究人员对重复数据删除系统进行调查_电子与半导体

data servers

发表在《国际网格与效用计算杂志》上的一篇评论研究了解决计算机存储系统中不断增加的重复数据问题的方法。解决这个问题可以提高存储效率和系统性能，并减少对资源的总体需求。

印度泰伦加纳邦瓦朗加尔国立理工学院计算机科学与工程系的Amdewar Godavari和Chapram Sudhakar解释了物联网(IoT)的出现以及科学、工程、医疗和许多其他领域大数据的出现如何导致计算机存储需求的大幅增长。

一些研究人员认为，到2025年，存储的数据量将达到175泽字节(175万亿太字节)左右。其他研究提供了重复数据的估计，并表明大约四分之三(75%)是完全多余的。这种冗余将导致存储利用率低下，存储系统性能下降。识别可能从系统中删除的重复内容并不是一件简单的事情。

为了应对这一挑战，研究人员指出有两种一般的方法。首先是数据压缩，它将基于重复项的识别来比较文件和压缩文件大小。但是，完全的数据重复删除可以为更大的数据块计算唯一的“哈希值”，比较这些哈希值以找到包含相同数据的块，并标记它们以便适当地删除。后一种方法可用于减少停机时间或延迟，否则会影响性能和访问。

该团队建议，可以使用各种分块算法和基于机器学习的技术来识别冗余的数据块。他们的测试表明，与固定大小的分块相比，可变大小的分块提供了更好的重复数据删除比率，尽管这种方法较慢。然而，算法方法可以允许冗余分类使用机器学习来进一步提高效率。

更多信息:Amdewar Godavari等人，关于重复数据删除系统的调查，国际网格和效用计算杂志(2024)。DOI: 10.1504/IJGUC.2024.137902由Inderscience提供引文:研究人员对重复数据删除系统进行调查(2024,5月1日)检索于2024年5月6日https://techxplore.com/news/2024-05-survey-deduplication.html本文受版权保护。除为私人学习或研究目的而进行的任何公平交易外，未经书面许可，不得转载任何部分。内容仅供参考之用。