当前位置:首页 > 思想汇报 > CAS――归档应用的最佳选择|手机应用软件大全
 

CAS――归档应用的最佳选择|手机应用软件大全

发布时间:2019-03-15 04:11:32 影响了:

  存储百家谈      内容寻址存储(CAS)技术的魅力就在于,以用户保存的每一份数据“内容”为依据,生成唯一一个内容地址,并在此基础之上可为数据增添其他属性,实现对数据的保护、检索、查重等各种操作。与传统的位置寻址存储技术相比,它更能满足固定内容的主动归档与长期保存的需求。
  内容寻址存储(CAS)技术声名显赫,众多存储巨头纷纷推出各自的策略与方案。EMC有Centera,惠普有信息参考存储系统(Reference Information Storage System ,RISS),谷数科技有D-Mesh,Sun有IntelliStore,HDS收购Archivas……
  CAS魅力何在?本报记者独家采访了专门从事存储技术研究与推广的留美学者、谷数科技公司CEO周涛先生,请他给我们谈谈内容寻址存储技术的发展脉络。
  
  “车”与“车位”统一
  
  CAS(Content Addressed Storage)技术最早源于比利时一家存储公司FilePool。EMC于2001年收购了这家公司,并随后推出了基于CAS技术的存储产品Centera。
  在传统的存储中,用户在保存数据的时候,存储系统会产生一个元数据,这个元数据就是记录用户数据在物理存储设备中的一个物理地址。采用这种方式,用户的数据与元数据是分离的。打个比方来说,你去一个停车场停车,这个车就好比是你的一组数据,而车位相当于数据存储的地址,当你把车停在某个车位时,必须牢记这个车位的位置,这样才能正确取回你的车。这时,车位与车本身其实是没有任何联系的。
  而内容寻址的出现彻底改变了这一做法。当用户利用CAS存储一个数据对象时,存储系统会对所存储的内容片断执行一个特定算法(哈希加密算法),从而得到一个数据单元的唯一ID(也称数字签名),作为所访问数据的实际有效地址。仍然以停车来说明,当你把车开到一个车库的门口时,车库的工作人员会替你去停车并给你一个ID号,取车时你只需提供这个ID号,工作人员便自动将你的车取来。其实你并不知到你的车到底被停在了哪里,但是,由于这个ID号只与你的车相关,并且是唯一的,所以你总是能取回你的车,而不是别人的车。
  由此可见,内容寻址(Content Addressing)与其他基于位置寻址(Location Addressing)的网络存储技术(SAN、NAS等)最本质的区别就在于寻址方式的不同,这是CAS发展的基础。
  
  修“路”行“车”
  
  在信息社会,数据量一直呈现爆炸性增长态势,而固定内容占有很大的比重。现有技术在应对迅猛增长的固定内容时往往表现出存储效率低下,因此促生了新型的内容寻址存储(CAS)技术。
  固定内容的定义是不发生改变的信息。它有多种形式,包括数字媒体(图像、音频、视频等)、法律和参考文档、医疗影像、电子邮件、银行票据、卫星图片等。固定内容,即非结构化数据是近年来全球数据爆炸的主要因素,占企业和机构在线存储数据量的70%~80%,
  从下表可知,与需要不断改变和更新的数据库或文件不同,固定内容的价值源自真实性、长久性、大容量以及可存取性这几种特性的结合。现有的存储体系构架包括SAN、NAS、DAS、磁带库和光盘库等,都未能针对固定内容存储需求进行优化。如何对如此庞大的固定内容信息进行高效地存储、管理、检索,既是存储系统发展的一个机遇,也是存储行业发展必须面对的一个挑战。
  CAS就是为了解决这些问题而诞生的。
  
  优势逐渐显现
  
  现在来看,CAS存储技术的优点主要包括以下几点:
  首先就是确保内容的可靠性和安全性。通常的网络存储技术如SAN、NAS等都是基于位置寻址(Location Addressing)的,利用数据对象在某个物理位置的文件名来存取该对象。而内容寻址(Content Addressing)在存储一个数据对象时,系统首先根据所存储数据的二进制内容,按照特定算法计算出一个128比特的GUID。接着,系统把这一比特序列转换成一个独特的标识符,叫做内容地址。这个内容地址源自所存储数据片断的内容本身,同样对于数据片断而言也是唯一的标志或称做数字标签、数字指纹。
  CAS所实现的内容寻址技术可以有效地隔离对存储数据的非法访问。所存储数据的内容地址并不是对该数据的目录、文件名或数据类型的简单映像。客户端上的用户不具有系统上的任何账号,更不可能对系统进行浏览或管理。客户端用户存取系统上的数据的唯一途径是通过存储系统的应用软件来进行,由该应用软件通过内容描述符文件的标识符内容地址来完成存取动作。
  第二,可以消除重复数据。现在很多企业采用了重复数据删除技术。为什么要消重呢?因为数据在迁移、备份等过程中会产生很多复制的副本。如果副本很多,那么用户很难管理,同时又会占用大量存储资源。例如,对于一个已经保存的文件,你可能又用E-mail发给了你的同事,你的同事利用文件又把它保存起来,那么这两个文件的内容是相同。在企业的存储资源中,存储系统并不知道这两个文件内容是相同的。但是, CAS系统就有辨别重复数据的智能,因为同样的内容只能产生同一个内容地址,因此只要是相同的内容被上传,即使它属性如文件名、保存时间等不同,系统也只存一份数据,这就避免了同样数据的重复存储,非常节省空间。CAS的这一特别之处对于存在大量复制副本的固定内容而言其重要性不言而喻。
  第三,提供了全局唯一、位置独立的标识符,便于对系统进行管理和各种操作。CAS所保存的数据与其ID号是结合在一起的,所以,ID号是作为一种对象被存储的。因此,CAS存储技术比基于文件系统的存储技术具有更多的智能,它保存的数据与其地址信息以及属性是联系在一起的,这样你只要知道存储信息的ID号,数据不管在存储系统中的任何一个地方,你都能够非常容易地快速地通过找到地址找到相关的数据。而且这个地址信息非常简单,就是一个ID号,而不像传统的地址,即所谓的元数据,是一个很复杂的目录结构记录信息。
  通过内容地址对所存储的内容进行寻址,就可以建立一个与存储内容相独立的内容索引,并且这个内容地址也与操作系统、文件系统和应用软件相独立,降低了整个存储系统理解、管理、操纵存储介质上的信息的物理或逻辑位置的难度。
  另外,你也可以为存储的数据添加任何其他的属性,以实现其他的功能。如你可以给数据定义一个属性,数据只能读,不能写,这样即可变成了一种所谓的WORM存储(多次读,而不能写),相当于实现了以前用软件很难实现的WORM存储。更高级的CAS产品(谷数科技的D-Mesh)在数据里嵌入搜索引擎,把已定义数据的属性提取出来并建立索引,如关键字、名称、标签等,那么就可以对这种大量的数据进行快速检索,起到类似于Google的搜索功能。
  
  海量数据归档最适合
  
  CAS的应用非常广泛,但是最核心的应用仍在归档,特别是在海量数据的归档方面。
  数据备份和数据归档应用非常类似,但是又有区别。备份和归档是数据存储与保护中的两种形式,应用目的通常是不同的。备份通常把数据复制到在线或离线设备中,以确保在出现数据丢失或系统灾难时,能将复制的数据恢复回来;归档是针对海量数据的在线访问应用,将海量数据有计划地迁移到二级存储中。但两者又互相联系,只要涉及到数据归档,必然会有数据保护的需求。
  归档是长期存储原始文档,它能检索或管理数据,并保护公司数据安全,是对历史数据的保存。在许多国家,法律规定金融机构必须保存至少七年的所有的交易数据记录;政府机关和律师事务所需要保存大量的法律、法规文档,供给所服务的客户查阅;客服中心和呼叫中心需要不经常地近线接入客户数据以缩短电话的等待时间;医疗和保险行业能通过个人健康记录长期归档,给病人提供最好的服务等等。
  目前,归档应用的市场主要包括保险、银行及金融机构、政府机关、健康中心、客服中心、电信等;未来的潜在市场包括电子记录的管理、e-Mail的管理以及WWW内容管理等。企业需要从数据的保存策略、需要的寿命、法律原则以及保存文档流程等几个方面来考虑归档的应用。
  如前所述,采用CAS完成海量数据归档,具有许多优势,如可以保证数据的安全,可以消除重复数据等。在CAS中保存的每个数据只是一连串的ID号,你看不到它的格式,也不知道它的文件名,这些都隐藏在属性里面,并被包围起来,这样就可以保证数据的安全。即使黑客侵入,或者内部人员入侵了系统,得到了数据,但是却不知道这些数据的内容。病毒即使进入了系统,只能当做一个对象被保存了,并不能在系统里面运行。
  CAS对于长期归档来说是一个非常自然的一种应用。
  
  产品厚积薄发
  
  五年前,EMC公司率先推出了业内第一款固定内容寻址系统――Centera,抢得了先机。今天,EMC Centera系统已拥有数千位用户。Sun公司下的StorageTek推出了自己的CAS产品IntelliStore,惠普则推出了自己的参考信息存储系统(RISS),谷数科技推出了国内首款CAS产品,HDS则收购了拥有CAS产品的创业公司Archivas。现在,用户在选择CAS系统时有了更多的选择。
  EMC公司的Centera是世界上第一款针对固定内容的CAS网络存储解决方案。Centera网络存储系统实现了软硬件的结合,在当时解决了固定内容存储需求。当存储一个数据对象时,Centera首先根据所存储数据的二进制内容,按照特定算法计算出一个128比特的奇偶校验,接着,Centera把这一比特序列转换成一个独特的27个字符的标识符,叫做内容地址。这个内容地址源自所存储数据片断的内容本身,同样对于数据片断而言也是惟一的标志。Centera的CentraStar软件操作环境采用了一种内容寻址系统来简化存储管理,确保存储内容的惟一性,提供了固定内容存储需求从TB级至PB级的可扩展性,通过丰富的API,用户可以非常容易地实现对整个网络存储系统的使用和管理,降低了管理整个存储系统的开销。
  谷数科技是推出CAS产品的惟一一个民族企业,其D-Mesh固定内容存储集群在世界上第一次内嵌搜索引擎,集合了内容寻址存储CAS、分布式文件系统、RAIN+P2P架构、网络负载均衡、PB级在线五峰扩容等创新技术,服务于爆炸式增长的多媒体内容存储、归档、查询、管理和长期保护的需求。海量数据管理过程中,迁移、复制和恢复产生的大量重复数据对存储空间的浪费是巨大的。D-Mesh通过内容寻址存储CAS技术却轻松杜绝了任何重复数据的产生,即使相同的内容被冠以不同的命名和属性,也能被D-Mesh识别并保存惟一的一份数据,降低了存储扩容投资,以及容量增长带来的系统维护和数据管理方面的成本。而非结构化数据的迅速增长使传统的结构化数据库如Oracle和SQL Server在性能和可靠性方面越来越力不从心。作为世界上第一款内嵌搜索引擎的存储系统,D-Mesh帮助客户充分挖掘数据的价值。
  
  LSI合并之后露新容
  
  4月2日,LSI Logic公司宣布完成了与杰尔系统公司(Agere)的合并,该合并从4月2日起生效,新的公司被命名为LSI,同时产生了新公司的新Logo。4月6日,新的LSI在策略与市场营销高级副总裁Phil Brace在北京介绍了新LSI的策略。
  去年12月,LSI和杰尔宣布了一个最终的合并协议,杰尔股东所拥有的每一股杰尔股票可以换得2.16股LSI的股票,在今年3月29日两个公司分别举行的股东大会上批准了这一合并。截止到去年年底,前12个月两个公司合并后的销售额为35亿美元。
  通过两家公司的创新渠道以及所提供的具有竞争力的产品和解决方案,新的LSI被定位于一个领先的半导体和存储厂商。以往已经在存储、网络和消费电子市场的良好表现,使新的LSI能够通过加强它的平台以及扩展其现有的客户和渠道关系,来实现长期的增长。Phil Brace介绍说,自从LSI和Agere宣布合并以来,新的公司已经制定了详细的整合计划,新的公司将作为一个单一的组织,具有明确的领导团队和目标,新公司融合了LSI和杰尔公司独有的优势,下设移动产品部、消费电子产品部、存储外设产品部、网络和存储产品部以及Engenio存储产品部。在存储方面,LSI成为提供从芯片到系统以及增值软件的存储产品OEM提供商。(郭平)
  
  用好虚拟磁带库是第一步
  
  虚拟磁带库(VTL)的概念已经推出好几年了,但一直没有得到真正的应用。近两年来,由于磁盘价格的迅速下降,VTL这种基于磁盘的备份开始引起业界广泛的关注,并成为一种新的存储门类而开始走红。迄今为止,许多存储厂商都推出了VTL产品,这其中包括磁带厂商,也包括磁盘厂商,当然更有专攻VTL的厂商,SEPATON公司便是其中之一。
  对于SEPATON公司,其实只要将它的名称倒过来看就不难猜出它是做什么的――“NOTAPES”,取代磁带之意已经不用言表。不过,SEPATON公司CEO Michael Worhach先生认为,磁带不会因此而被取代。至于什么时候磁带将退出市场,这要由用户来决定。
  目前VTL在美国市场已经广为用户接受和认可,分析师都改变了过去“VTL是一个技术转型产品”的看法。不过,在中国,VTL的发展刚刚起步。此前,SEPATON公司与其在中国的总代理冠融科技合作,在中国已有25家大的客户。同时,SEPATON公司正式成立了北京代表处。Michael Worhach先生认为,中国用户不仅需要VTL产品,更需要高水平的服务和技术支持。
  SEPATON公司是目前持有重复数据删除技术的几家公司之一。重复数据删除技术的出现,为VTL注入了新的活力,SEPATON具有这一功能的产品去年第四季度在美国发布,目前已有10个用户在使用。Michael Worhach先生认为,目前中国用户首先第一步是用好VTL,当容量增加了,再考虑重复数据删除。(郭平)

猜你想看
相关文章

Copyright © 2008 - 2022 版权所有 职场范文网

工业和信息化部 备案号:沪ICP备18009755号-3