当前位置:首页 > 申请书大全 > 信息检索报告范文【网格技术在信息检索中的应用前景分析】
 

信息检索报告范文【网格技术在信息检索中的应用前景分析】

发布时间:2019-02-21 04:03:23 影响了:

  摘要:本文概述了网格的定义以及网格技术带来的好处,论述了网格技术发展的现状和在信息检索中的应用前景,并就应用中可能出现的问题提出了对策。   关键词:网格 信息检索 应用分析
  
  1 网格的定义
   网格(Grid)概念最早于20世纪90年代中期提出,是从电力网(Power Grid)概念借鉴过来的。其主要特点是把整个因特网集成为一台巨大的超级计算机,以实现全球范围的计算资源、存储资源、数据资源、信息资源、知识资源、专家资源、设备资源的全面共享。美国阿岗(Argonne)国家实验室的资深科学家、美国Globus项目的领导人I.Foster多次撰文探讨网格的定义,他认为网格必须同时满足3个条件:①在非集中控制的环境中协同使用资源;②使用标准的、开放的和通用的协议和接口;③提供非平凡的服务。
   互联网实现了计算机硬件的连通,Web实现了网页的连通,而网格试图实现互联网上所有资源的全面连通,在动态的、异构的虚拟组织间实现协同的资源共享以及协同解决问题。共享是网格强调的重点,但是这种共享又必须是高度可控的,需要在资源提供者和消费者之间详细定义哪些部分是可以被共享的,在什么条件下可以共享以及相应的管理机制、付费机制。因此,网格要解决的主要问题与开展电子商务有一定的相似性,即整合所有信息服务环节和相关技术需要建立统一的服务标准协议。尽管目前大多数的网格还处于试验阶段,但网格所追求的一步到位的服务理念是未来信息检索的目标和方向。
  
  2 网格的好处
   在未来的发展中,网格可能不是单一的依靠服务器模式,或单一的依靠网络协议模式。而是二种模式的相互结合―在有共同认可的协议基础上实现服务器之问的相互连通。网格技术的实现极大地开拓了未来数字图书馆信息检索服务领域的前景。
  2.1网格技术实现了检索语言简洁
   传统的检索语言中有人工语言和自然语言的划分。人工语言叉分为关键词、主题词、叙词等。同时检索语言还必须排除一词多义、一义多词和词义模糊等现象。对于一个成熟的信息检索员。要准确掌握信息检索语言,还需进行相当系统的学习.而一个普通的用户则很难区分这些词对于计算机检索的不同。网格技术应用的语义网技术可以使得检索变得如同上网浏览一样轻车熟路,它会根据输入的检索词自动查对语义相关的词语。并对知识挖掘、过滤、推荐,一次搜索到全球范围内可用的,可映射到的最小、最完备的知识集合。
   对传统的信息检索对于检索者来说。数据资源存在的地址也是十分重要的。如果信息资源的URL发生改变,我们将无从查找。由于网格技术将现在资源整合成一个最大的复用资源。用户无需知道URL,一次登录就可进行全球分布式的信息访问。 网格技术减轻了检索人员的工作负担,表现在以下二个方面:
   第一、网格技术简化了传统的检索语言.可以使用户直接进行信息检索;与此同时,即便是检索人员进行信息检索,也省略了确定复杂多种检索语言的麻烦。
   第二、由于网格技术省略了URL的记忆。检索人员不必记忆某一资源的地址,也不必记忆查找专利要用专利数据库,查找标准要用万方数据库,查找期刊论文和学位论文的数据库有所区别这些繁锁的事情。
  2.2利用网格技术统一管理使用信息资源,促进资源共用共享
   现有的Web信息服务器就好像Internet上一个个孤立的小岛。虽然这些“小岛” 暂时还有充足的带宽资源可用,但大量的信息还是被“锁” 在自己内部的数据库里,各“孤岛” 之间并不能按照用户的指令进行有意义的交流。缺乏一个统一的网络管理神经中枢,信息资源零散分布处于无序状态。而网格技术能够使广泛的网络资源共享和协作。网格将分布在不同地理位置的计算资源,通过高速的互联网组成充分共享的资源集成,从而提供一种高性能计算、管理及服务的资源能力。它将因特网中各站点上零散分布的信息资源,进行统一管理和使用,利用数据挖掘、信息融合和资源引擎等技术完成网络资源的搜集与共享,并利用单一系统映像技术完成信息的单一映像和有效融合,保证逻辑资源的物理可用性,便于用网格引擎实现资源的获取。用户可以通过网格门户,看到若干与自己相关的主题,而不必在无数个网站中大海捞针般地搜索信息。许多平台和资源都可以共享,这样可大大降低网站创建及提供服务的成本。从而提高信息检索的效率,促进信息资源共用共享。
  2.3跨平台联合检索,追求一步到位的服务理念
   展望未来,网格作为Internet的第三次浪潮,对于全面解决网格的资源共享、人机结合和信息安全等问题将有重大的指导意义,也将为解决复杂系统问题的综合集成技术打下坚实的技术基础。基于网格的信息检索正是充分利用网格的特性减少对网络带宽的依赖,它的集群性极大地提高了服务器性能,它的开放性又不必深究信息的来源。网格所带来的不仅仅是一种崭新的理念、一项新的技术方案,同时它也给信息的检索利用带来了更为广阔的发展空间。
   尽管目前大多数的网格还处于试验阶段,但网格所追求的一步到位的服务理念是未来信息检索的目标和方向。当前,异地资源提供服务多采用导航方式向读者提供异地资源的链接,由读者那一端按照所提供的链接自行索取异地资源,就如同目前网上的搜索引擎所做的那样。但这种做法受到一些条件的限制比如网络带宽、异地资源的统计结算,与异地服务机构是否达成合作协议。网格打破了“到资源所在位置使用资源” 的限制,用户可以对资源进行直接操控。网格技术中有一重要组成部分中间件技术,它将不同数据库、异构的网络环境结合成一个有机的协同工作整体。通过建立跨越Web的信息分布和集成应用程序逻辑,利用现有的网络基础设施、协议规范、Web和数据库技术,为用户提供一体化的智能信息平台,其目标是创建一种架构在操作系统和Web之上的,基于Internet的新一代信息平台和软件基础设施。在这个平台上,信息的处理是分布式、协作和智能化的,无缝组成统一的信息服务视图,提供跨平台联合检索服务,实现全面的信息资源共享。
  
  3 目前的国内外研究现状
  3.1国外研究现状
   目前,国外的网格研究主要集中在美国和欧洲等发达国家。这些国家在网格研究阶段度投入了大量的财力、物力和人力,并取得了一些初步成果。最“正统”的网格研究来源于美国联邦政府过去10年来资助的高性能计算项目。这方面的代表性研究工作包括美国国家科学基金会资助的NPACI、“国家技术网格”(NTG) 、分布万亿次级计算设施(DTF) 、美国宇航总署的IDG、美国能源部的ASCIGrid 以及欧盟的Data Grid 等。其中最著名、最具代表性的网格计算研究是美国的Globus 项目。
   Globus是美国Argonne 国家实验室的研发项目,全美有12所大学和研究机构参与了该项目。Globus 对资源管理、安全、信息服务及数据管理等网格计算的关键理论进行研究,开发能在各种平台上运行的网格计算工具软件(Toolkit) ,帮助规划和组建大型的网格试验平台,开发适合大型网格系统运行的大型应用程序。Globus 的技术已在NASA 网格(NASA IPG) 、欧洲数据网格(Data Grid) 、美国国家技术网格(NTG) 等8 个项目中得到应用。
   英国目前也已投资1亿英镑用来研制“英国国家网格(UKNational Grid) ”。美国军方正规划实施一个宏大的网格计划,叫做“全球信息网格( Global Information Grid) ”,预计在2020 年完成。
   目前,网格技术虽主要为学术机构所控制,但企业也在陆续跟进。众多IT 跨国巨头跃跃欲试,纷纷公布自己以研究网格相关商业产品为核心的网格计划。2001年8月,IBM 开始构筑其旨在通过因特网充分利用相互间闲置的电脑能源,向每一台个人电脑提供超级的处理能力Grid Computing 计划。2002年1 月和5 月, IBM 又分别发布了全面支持网格计算的eServer p690 和p670 两款超级服务器。另外,IBM还发布了WebSphere 平台和一系列中间件来支持网格计算。
   在日本,NTT Data 计划与Intel 和SGI 联合进行一项为期三个月的网格计算试验,届时将有包括家庭、企业和学术机构在内的100 万台计算机相联,其总处理能力将比现有的最快超级计算机还要快5倍。惠普、IBM、微软、Sun等公司也达成取得共识,支持XML、SOAP、UDDI 等万维网标准,从而更有利于开发新一代的网络应用。不仅如此,Microsoft , Intel 等企业还以投资形式扶持了一批面向第三代互联网的新企业,而更多的新兴企业正以一种前所未有的创新热情积极地投入到第三代互联网的发展。
  3.2国内研究现状
   面对网格所带来的创新机遇,中国的研发机构和相关企业也在把握时机。从1995 年开始,中国科学院计算所就建立了专门的网格研究队伍开始研究与网格相关的技术。但是国内的网格计算尚处于研究阶段,主要集中于中科院计算所、国防科大、江南计算所、清华大学等几家在高性能计算方面有较强实力的研究单位,并把研发重点放在同时具有下述三个特点的领域:大量中国用户迫切需要;国外研究还比较薄弱;技术上可能产生突破性创新。
   在我国,已经完成的网格研究项目主要有:清华大学的先进计算基础设施ACI (Advanced Computa2tional Infrastructure) 和以中科院计算为主的国家高性能计算环境NHPCE(National High Performance Com2puting Environment)。
   (1)“先进计算基础设施北京上海试点工程(简称‘清华ACI系统’) ”由清华大学计算机系承担的。在清华ACI 系统中,清华大学研制的高性能计算机“THNPSC - 2”与上海大学研制的高性能计算机“自强2000”通过高速网络连接在一起,此外,还连接了4个应用结点。这6 个地理位置不同的网格节点可以同时召开网络会议。除此之外,还开发了相应的中间件,可以构成跨地区、跨学科的“虚拟实验室”研究环境。清华ACI 系统具有一套健全的资源管理系统、任务管理系统、用户管理系统及安全服务与监控系统。已经于2001 年6 月通过了由著名计算机院士和专家组成的鉴定委员会的鉴定和验收[2]。
   (2) 国家高性能计算环境(National High Perfor2mance Computing Environment ,简称NHPCE ,亦称国家计算网格) 是国家级高性能计算和信息服务的战略性基础设施,由国家863 计划资助,投入的研究经费超过5 千万元人民币。它侧重于研究面向科学研究的计算网格, 由教育网(CERNET) 和科技网(CST2NET) 上的9个不同的站点组成,提供超级计算机的共享操作。中国科学院的国家高性能计算环境和清华ACI系统,两个项目已经创造了在网上“大合作”与“大会战”的条件和环境。目前,分布在全国五个城市的国家高性能计算中心的超级计算机,已经初步实现统一的资源目录管理。中国目前在研的主要有五个网格项目:国家网格(科技部) CNGrid、中国教育科研网格计划China2Grid(教育部)、E - Science 网格研究计划(国家基金委) 、上海交通信息网格、中国空间信息网格。其中, 国家网格(CNGrid)是国家863 计划重大专项。
  
  4 推广应用存在的问题解决问题的对策
  4.1网格结构体系问题
   国外数字图书馆网格项目在结构体系上各有特色,同时也有一些共同之处。对这些项目的结构体系进行分析比较。可以归纳出当前数字图书馆结构体系研究的主要趋势:第一,分布式的、多样化的数字信息资源以及支持分布式的数字图书馆管理系统之间的互操作,支持这些系统间无缝交换和共享信息资源与服务,并由此构造一个逻辑的集成信息服务机制,从而形成基于集成信息和服务的数字图书馆。第二,用户需要灵活地处理信息、提炼知识和交流协作,要求数字图书馆(或者其他信息系统)能够围绕其信息活动来组织、集成、嵌入数字信息资源和信息服务,从而使其能够更自然、深入、有效地利用信息和知识来解决问题。信息网格的结构体系是基于网格的数字图书馆应用研究的重点,包括底层信息存储、表示、发布;各层应用程序逻辑具体分层、实现和集成,以及各中间层的数据存储、接口、通信机制等。有学者认为,在建设我国基于网格的数字图书馆项目的结构体系中,整合P2P结构体系、网格结构体系以及面向服务的结构体系,在此基础上构建数字图书馆合理的体系结构,是一个必然的发展趋势。
  4.2 标准化问题
   网格应用也需要标准协议对服务进行定义。目前,在网格计算方面还没有正式的标准,全球网络论坛、对象管理组织OMG、W"3C、Global Grid Forum,以及Globus联盟等都在致力于网格标准协议的研究和制定工作。但是,越来越多的计算机和软件厂商等都已经把Globus Toolkit当成实际上的网格应用标准,许多重大的网格项目都是基于Globus Toolkit提供的协议与服务的。Entropia、"IBM、Micros~、Compaq、Cray、sgi、Sun、Vexidian、Fujitsu、Hitachi、NEC等厂商都宣布采用Globus Toolkit。Globus Toolkit 1.0版于1998年发布。该软件包的源代码开放。任何用户都可以从Globus的专题网站上下载获得。Globus Toolkit包括一系列软件服务和支持资源监视、资源发现、资源管理、安全控制、文件管理的函数库,能够使用户在保持本地相对独立性的同时获得计算能力、数据库以及其他资源的共享。2OO4年3月31日,Gloims Toolkit 3.0版发布。数字图书馆标准应与GlobusToolkit结合起来,使相互之间得到统一,这样可以提高网格在图书馆应用的效果。
  4.3 数字版权问题
   网格数字图书馆因其能够提供全球范围的图书资料的在线、高效、多媒体、信息流量大的阅读、检索与复制服务。从而突破了图书馆传统概念。但是在将网格技术与图书馆结合起来的时候,版权成为了关注的焦点。一方面;网格中信息的复制性、传播性和变幻莫测的交互性给版权保护带来空前的震撼;另一方面,如果由于网格技术的特点引发大量网络侵权,就会使社会陷入无尽的版权诉讼之中。此外,庞大的网格系统可以包容、连通世界上的每个国家,网格系统无国界。这会对版权的地域性、时间性、专有性、可复制性形成冲击。解决网格技术涉及的版权问题应采取综合措施。首先应对版权法进行调整,使其能适应新技术条件下利益制衡的需要,特别是要综合运用合理使用、法定许可、“避风港”等权利限制对策,还可以建立数字版权补偿金制度、数字公共借阅权制度等。第二,对版权采取技术保护措施,开展数字版权管理(Digital RightManagement,缩写DRM),以在开放的数字环境中对数字内容的生产、传播、销售、使用的全过程提供有效的版权保护。第三,完善版权许可机制,特别是加强版权集体管理制度的构建。
  4.4 网格安全问题
   数字图书馆的网格环境对安全的要求比万维网的安全要求更为复杂。第一,数字化信息有共享和易于扩散的特性,它在处理、存储、传输和使用上十分脆弱,很容易被干扰、滥用、遗漏和丢失,甚至被泄露、窃取、篡改、冒充和破坏,还有可能受到计算机病毒的感染。第二,网格环境中的用户和资源数量都很大且动态可变,并且由于基于已有网络环境建立网格,因此一个应用过程中的多个进程间存在不同的通信机制,资源支持不同的认证和授权机制且可以属于多个组织。第三,传统的安全技术主要考虑客户和服务器之间交互的安全性。在这种交互中,用户和服务器需要共同认证(即校验)彼此身份,同时服务器还要决定是否授权给提出请求的用户。成熟的安全技术在这些操作的基础上有了发展,并且可以探测并防止各种形式的攻击。在网格环境中,情况发生了变化,由于用户和服务器之间的区别消失了,这时单个资源既可以作为服务器(当它接受请求时),同时也可以作为别人的用户(当它向其他资源提交请求时)。所以,网格安全体系面对极大的挑战,安全要求较高。
  
  5 结语
   目前的网格技术尚未成熟,一些关键的技术问题仍有待解决,如网格资源共享的知识产权问题,实现资源无障碍流通的语义网问题。以及网格资源的安全问题等,但它在信息检索中的应用前景广阔,这需要数字图书馆的同仁们进一步的研究。
  
  参考文献
   [1] Foster I.What Is the Grid?A ThreePoint checklisthttps://www.省略/02/0722/l00l36. html.
  [2] 高凡.网络信息检索的发展方向.情报理论与实践,2004(2)202-205.
  [3] 王博,徐宽.网格技术在信息检索中的应用前景分析 图书馆学研究2006(5)63-65.
   [4] 刘波.网格技术在数字图书馆信息检索服务中的应用.内蒙古科技与经济2006(10)131-133.
  [5] 张丽萍.网格技术在图书馆应用要解决的主要问题分析现代情报,2007(3)22-24.

猜你想看
相关文章

Copyright © 2008 - 2022 版权所有 职场范文网

工业和信息化部 备案号:沪ICP备18009755号-3