当前位置:首页 > 申请书大全 > 缩减存储空间多管齐下 缩减文件的存储路径
 

缩减存储空间多管齐下 缩减文件的存储路径

发布时间:2019-03-03 04:22:52 影响了:

  面对急剧增长的存储需求与紧缩的IT预算,最有效的解决办法是缩减需要存储的数据量,这样不但能削减硬件、软件、电力和数据中心场地的成本,还能减轻网络和备份窗口的负担。现在,几乎每家存储厂商都声称自己有相应的解决方案。那么,缩减数据占用空间应该使用哪些技术?
  首先我们要了解自己企业如何存储和使用数据,并确定什么时候需要通过数据缩减来节省成本,即使性能因此而下降也是值得的。最适合自己企业的技术并不取决于所在行业,而是取决于所存储数据的类型,如对于X光片、工程测试数据、视频或音乐来说,由于其中相同的数据相对少,所以,应用重复数据删除技术常常无法大幅节省空间,不过,重复数据删除技术却能对虚拟服务器大施功夫,降低成本。
  
  重复数据删除技术
  
  重复数据删除技术是指查找并删除存储在不同数据集里面的重复数据,它可将存储需求最多缩减90%。比如,通过重复数据删除技术,可以使同时发送给数百名员工的邮件的相同附件只保存一个副本。对于缩减数据占用空间比读取速度更重要的各种二级存储来说,重复数据删除几乎已变得必不可少。
  从事医疗广告和营销的Grey Healthcare Group的IT主管Chris Watkis发现,备份数据的缩减比可以高达72:1,而这要归功于使用了飞康软件公司的虚拟磁带库存储设备的重复数据删除方法。云存储服务提供商i365的首席技术官David Allen则表示,在微软Exchange、SharePoint、SQL Server和VMware虚拟机文件组成的混合环境下,数据缩减比可达到30:1至50:1。
  数据可以在文件或块层面进行重复数据删除处理,不同产品能够深入分析不同大小的块。在大多数情况下,系统进行重复数据比较的粒度越细,所节省的存储空间越大。不过,粒度越细,其重复数据删除要花的时间越长,因而降低了数据访问的速度。
  重复数据删除可以在数据写入到存储目标前进行操作,称为预处理(Preprocessing)或在线处理(Inline);也可以在数据存储到目标设备后进行操作,称为后处理(Postprocessing)。从事技术调研和咨询的Server and StorageIO Group的高级分析师Greg Schulz表示,如果希望数据快速备份,更关注缩小备份窗口,那么,后处理方案比较合适;但如果你“有的是时间”,又需要节省备份磁盘,降低成本,则不妨考虑预处理方案。
  批评人士称,虽然inline方式重复数据删除技术在缩减存储的数据量时,其缩减比可达到约20:1,但它不具有扩展性,还会降低性能,迫使用户购买更多的服务器来执行重复数据删除。另外,后处理重复数据删除则需要更多的存储空间作为缓冲区,而使这部分空间无法用于其他需要。
  对于拥有多台服务器或多个存储平台的客户来说,全企业实行重复数据删除可消除存储在各平台上的重复数据副本,从而节省费用。基于磁盘的存储厂商Nexsan公司战略副总裁Randy Chalfant认为这很重要,因为大多数企业为同一数据生成的副本多达15个,以供数据挖掘、企业资源规划和客户关系管理等应用系统使用。用户可能还需要考虑使用单一重复数据删除系统,以便任何应用或用户更容易根据需要“还原”数据(让数据恢复原来形状),并且避免多个系统不兼容问题。
  高级分析师Greg Schulz则表示,主要的重复数据删除产品可在预处理模式下进行操作,直到遇到一定的性能阈值,之后再改用后处理模式。
  另外还有一种方案,即基于策略的重复数据删除,它允许存储管理人员根据文件的大小、重要性或其他标准,选择哪些文件进行重复数据删除处理。
  SFL Data专门为要打官司的公司企业和律师事务所收集、存储、检索、搜索及提供数据,它在性能与数据缩减之间找到了平衡点。该公司正在部署Ocarina Networks的2400存储优化器,以便以“近在线(near-online)”的方式将经过压缩和重复数据删除处理的文件存储在BlueArc Mercury 50集群上,该集群的可用容量最多可以扩展到2PB。当用户需要时,还可以还原那些文件。
  SFL公司的技术主管Ruth Townsend说:“还原文件导致访问时间有点减慢,但比告诉客户必须等两天才能访问那些文件要好多了。”他指出,该公司借助重复数据删除和文件压缩技术,省下了多达50%的存储空间。
  
  数据压缩
  
  压缩大概是最有名的数据缩减技术了,它是指查找并删除重复字节。它非常适用于数据库、电子邮件和文件,但是对图片来说效果则不太好。压缩技术内置在一些存储系统中,但也有独立的压缩软件或压缩设备。
  高级分析师Greg Schulz表示,实时压缩技术不需要数据在改动或读取之前先解压,所以不会导致访问延迟或性能降低,很适合像数据库和联机事务处理这些联机应用。现代多核处理器具有的计算能力也让基于服务器的压缩成为有些环境的一种选择。
  i365公司的Allen说,压缩效果好坏不一。针对SQL数据库,数据缩减比至少可以达到6:1;但针对文件服务器,缩减比则接近2:1。据飞康公司营销副总裁Fadi Albatal声称,压缩技术对备份、二级存储或三级存储最有效,针对“高度活跃”的数据库或电子邮件应用,可以把存储需求缩减到1/2或1/4。
  信息管理服务公司Iron Mountain的首席营销官T.M. Ravi表示,该公司对应用进行归档时,压缩和重复数据删除这两项技术可将存储空间最多缩减80%。
  IBM收购的Storwize公司主要是为了对主存储进行压缩。该公司的设备可将压缩文件写回到生成这些文件的NAS(网络附加存储)设备上,或写到另一个存储层上。IBM存储部门副总裁Doug Balog说,Storwize正在测试一款基于块的设备。
  由微软Office应用软件压缩的文件或JPEG等流行的图片格式无法用许多常用的压缩技术来缩减,压缩后文件大小甚至可能变大。Neuxpower Solutions公司声称,其软件可以删除不必要的信息,如元数据或只有图片放大后才看得清的细节,从而把Office和JPEG文件的大小最多缩减95%,图片质量并不下降。被戴尔收购的Ocarina公司则称,其产品提供了类似功能,因为所用的多种优化算法已针对不同类型的内容进行了调整,还能够测试多种压缩方法,并选择一种合适的方法,确保运行时效率最高。
  重复数据删除和压缩是互为补充的。Greg Schulz说:“如果关注的重点是速度、性能和传输速度,那就使用压缩技术;如果存在大量的冗余数据,又希望节省更多的存储空间,那就使用重复数据删除技术。”
  
  基于策略的分层
  
  基于策略的分层是指,根据数据年限、访问频繁程度或提取速度等制定相应的标准,把数据转移到不同类别的存储介质上。除非策略要求完全删除不需要的数据,否则这项技术不会降低总体存储需求,但由于把部分数据转移到成本较低但速度较慢的介质上了,所以能够削减成本。
  这个市场得到了一些厂商的关注,如惠普和DataGlobal公司。惠普在其StorageWorks X9000中提供了内置的策略管理和自动化文件迁移功能;DataGlobal则声称,其统一存储和信息管理软件让客户能够分析及管理非结构化文件及其他信息,因而能够将电子邮件的存储需求减少60%至70%,将文件服务器的存储需求减少约20%。
  具有分层功能的其他产品包括:Compellent Technologies公司的Storage Center 5、飞康的HotZone和SafeCache、3Par公司的Policy Advisor、EMC的FAST和F5 Networks公司的ARX系列文件虚拟化设备。
  
  存储虚拟化
  
  与服务器虚拟化一样,存储虚拟化指把多个存储设备“抽象”成单一存储池,以便管理员可根据需要,在各存储层之间转移数据。许多专家认为,存储虚拟化是一项支持性技术,而其本身并不是一种数据缩减技术;但也有另一些专家认为,它与数据缩减有着更直接的关系。
  Actifio公司的数据管理系统使用了虚拟化,以便使备份和灾难恢复等操作不需要多个应用程序。其设备让客户可以选择合适的服务级别协议,以便通过一系列模板来管理众多的数据集。借助这个方法,适当的管理策略随后可运用到数据的惟一副本上,比如定义数据副本存储在何处、在备份和复制等操作期间如何进行重复数据删除处理。该公司的联合创办人兼首席执行官Ash Ashutosh声称,Actifio可将存储需求缩减75%至90%。
  
  自动精简配置
  
  自动精简配置是指对于一项应用,系统会在磁盘上为该应用分配一定量的空间,但实际上只有应用需要时,才真正使用这部分空间。与基于策略的存储一样,这项技术并不缩减总的数据占用空间,但可以推迟购买更多磁盘的需要,只有绝对必要时才购买。
  i365公司的Allen表示,如果存储需求迅速增长,你必须“非常迅速地响应”,确保有足够的物理存储空间。你的需求越难预测,就越需要好的衡量和管理工具,如果采用自动精简配置的话。高级分析师Greg Schulz建议,应该寻求这样一种产品:可确认用户需要跟踪了解的数据和应用程序;不但能监测存储空间的使用情况,还能监测读写操作,以防出现瓶颈。
  IBM是这个市场的代表厂商,它将自动精简配置技术运用到了其所有存储控制器中。惠普在其P4000 SAN上也提供了自动精简配置技术,它收购的3Par可确保其Utility Storage产品会将客户的存储需求缩减50%。Nexsan公司的SATABeast阵列也提供了自动精简配置。
  在选择一项数据缩减策略之前,要制定好策略,以便有助于选择何时投入成本,以提升性能;何时通过缩减数据占用空间来省钱。切忌一味关注缩减比,而是要牢记:如果缩减比比较小,但数据集比较大,则有望节省更多空间。
  另外,不要被厂商的术语搞得一头雾水。压缩、重复数据删除、变更数据备份(change-only backups)和单实例存储都是缩减冗余数据的不同方式而已。如果有疑虑,应根据给业务带来的成效,详细分析数据结果,以选择合适的存储缩减工具。
  
  链接
  In-line重复数据删除
  
  inline deduplication,也称preprocessing(预处理),即在数据备份到备份设备的过程中执行重复数据删除。这种方法的好处在于不需要额外的备份空间。此外,当数据被去重并存储后,备份过程就结束了,备份数据可能就已经到了离线存储设备上了。而在postprocessing重复数据删除方法中,数据必须先写入备份设备,再执行重复数据删除,然后才能拷贝到离线存储设备上。所以,整个备份所需时间(从拷贝到离线存储)会比在线(inline)重复数据删除要长。
  Postprocessing重复数据删除
  对备份/恢复管理员来说,缩短数据备份时间的最佳办法是采用postprocessing重复数据删除。这个方法的好处是备份速度更快,减少了备份窗口。它的缺点在于需要额外的存储空间。在postprocessing方法中,为了加速备份过程,备份数据会先备份到一个暂时的存储区域。这个过程结束后,才检查并删除重复数据。有些postprocessing重复数据删除系统在备份过程结束之前就开始去重,所以需要的存储空间会小一些。
  
  链接一
  重复数据删除与压缩:
  合伙还是单干?
  一些厂商已经或将会同时提供重复数据删除和压缩技术,而另一些厂商,如Ocarina等,则先解读已经过压缩的文件,然后再进行优化。Nexsan的战略副总裁Randy Chalfant认为,数据应该在文件或操作系统层面进行压缩,在存储目标层面进行重复数据删除处理。基于云的重复数据删除和压缩技术厂商Asigra公司就是先压缩数据,然后再进行重复数据删除处理,只存储变更的那部分数据。
  选择要不要搭配使用压缩和重复数据删除技术、何时使用、按什么顺序来使用,则取决于诸多因素:比如,压缩使重复数据删除软件查找冗余数据更容易还是更困难?你准备优化哪个存储层(主存储还是二级存储)?产品在需要时让数据恢复可用形式有多迅速?
  
  链接二
  哪种重复数据删除系统适合你?
  市面上的重复数据删除系统可满足许多不同要求,这取决于企业的缩减目标和系统架构。下面简要介绍几款:
  Nexsan的Assureon系统,为主数据和归档数据提供了后处理重复数据删除功能,其DeDupe SG系统为备份数据提供了后处理重复数据删除功能。DeDupe SG基于飞康的重复数据删除软件引擎,即文件接口重复数据删除系统(FDS)。Nexsan主管战略的副总裁Randy Chalfant表示,该系统结合单实例存储技术,通常可以提供5∶1至15∶1的缩减比。
  EMC Data Domain重复数据删除存储系统,面向希望保留现有备份软件,但将数据从磁带转移到磁盘以便备份的客户。EMC备份恢复系统部门的产品营销高级主管Shane Jackson说,Data Domain支持结构化数据和非结构化数据,可对长度不一的数据块进行重复数据删除处理,可达到10∶1至30∶1的缩减比。EMC备份恢复系统部门的营销经理Philip Fote表示,EMC旗下的Avamar公司提供的基于数据源的备份软件具有全局重复数据删除功能,提供了30∶1至40∶1的缩减比。
  Ocarina提供了对非结构化数据在子文件层面进行重复数据删除和压缩处理的功能。其存储优化器读取来自NAS的数据后,对它先后进行重复数据删除和压缩处理;然后把经过优化的文件写到原始NAS设备或不同的存储层上。Server and StorageIO Group的分析师Greg Schulz说,Ocarina系统可根据块大小等特点优化布局,并优化缓存策略和每个存储平台的元数据布局。Ocarina很适合处理“仅由重复数据删除处理可能不是很高效”的非结构化数据。Ocarina还将其技术转售给了BlueArc公司等厂商。
  惠普的StoreOnce重复数据删除软件,目前运行在惠普StorageWorks D2D备份系统上。它先对数据进行压缩,然后进行重复数据删除处理,缩减比可高达20∶1。惠普StorageWorks部门的统一存储产品营销主管Lee Johns说,将来,如果在更多平台上部署该软件,就能避免使用多个重复数据删除产品引起的问题。他表示,惠普还计划使用StoreOnce来缩减高可用性服务器集群中的主存储。
  赛门铁克公司即将推出的VirtualStore解决方案,旨在将虚拟机及相关数据的存储需求缩减80%,尤其是针对实施的虚拟桌面环境。除了其他功能外,它还能只更新“宿主”虚拟机与任何克隆机之间出现变化的那部分数据,并提供自动精简配置和分层功能。VirtualStore将于今年11月份上市。赛门铁克公司声称,将来的版本会有重复数据删除功能。

猜你想看
相关文章

Copyright © 2008 - 2022 版权所有 职场范文网

工业和信息化部 备案号:沪ICP备18009755号-3