当前位置:首页 > 读后感 > 森林资源清查_国家森林资源连续清查信息数据采集系统基于IPAD的构建和应用
 

森林资源清查_国家森林资源连续清查信息数据采集系统基于IPAD的构建和应用

发布时间:2019-06-11 10:55:39 影响了:

  【摘 要】国家森林资源信息数据基于iPad2是为林业考察做出了很多贡献,用处是“林天时用规划”。因为iPad2是由于“轻巧,好携带,而且待机时光长,在野外用来传输数据,本文就是基于ipad森林资源数据的分析。
  【关键字】森林资源;信息数据;IPAD 网络;应用
  前言
  国家森林资源连续清查的系统从目的任务要求、技术标准、固定样地调查、固定样地调查质量管理、样地调查内业工作、遥感图像目视判读等层面都有严格的要求,其中就包含GPS和软件使用、下面主要论述了国家森林资源连续清查信息数据采集系统基于IPAD的应用。运用此技术既是完成国家森林资源清查任务的需要,也是掌握我区森林资源状况。它对正确评价我区林业发展和生态建设成果,把握全区生态环境承载能力和林产品供应能力,推动生态新区建设都具有重要意义。
  一、IPAD系统体系结构
  森林资源信息多数据源信息检索系统分为数据采集层和信息检索层两层体系架构,数据采集层以Oracle全局数据库为核心向下通过ODI集成各异构数据库数据,并通过网络爬虫和非结构化文本数据解析来实现多数据源数据采集,向上通过数据库接口为上层应用提供数据:信息检索层采用以Lueene为基础的Nutch搜索引擎实现信息索引和检索。系统共包括异构数据库集成、异构文档解析、信息分类模块、信息索引模块、信息检索模块和系统管理模块六部分。
  森林资源信息数据基于IPAD的应用信息检索技术并不是简单地将开源搜索引擎技术应用于IPAD,而是针对森林资源信息数据内部数据特点设计相应的解决方案。异构数据库集成模块从系统底层做好结构化数据库数据的高效获取和有效组织。森林资源信内信息发布以Web网站为主要方式,对其进行信息检索一是采用网络爬虫方式进行数据采集:二是通过Lucene数据库接口与各异构数据库相连采集数据,第一种方式虽然操作简单,但在数据采集质量和深度上都有所不足,并没有充分利用森林信息数据存储的特点:第二种方式虽然在数据来源上有所改进,但在系统的稳定性、耦合程度和可扩展性上都存在不足,从各异构数据库中获取的数据无法进一步加工处理,从而导致对上层应用的支持有限。通过获取对各业务异构数据库的查询管理权限,,通过插件机制提取各种格式化文档的文本信息进行处理。信息分类模块按照信息来源的部门、发布时间等提供分类信息检索,实现信息的高级检索功能。信息索引模块对多种数据源数据建立索引,并进行索引优化以减少索引文件的数量,可以快速定位用户所需资源,及时有效地获取信息。系统管理模块针对不同资源,设置不同的访问权限,按照用户权限决定可以访问的资源。
  二、基于IPAD系统主要功能模块
  ODI(Oracle Data Integrator)是Oracle公司采用ELT理念进行数据抽取、加载、转换的数据集成中间件工具,其最大特点是提出了知识模块的概念。ODI将一些场景(如文件加载到数据库,从MySQL数据库抓取数据到Oracle数据库等)的详细实现步骤使用Jvthon脚本语言结合数据库SQL语句录制成详细的步骤记录下来,形成知识模块,ODI中共有超过100种主流数据库引擎和应用系统的知识模块,森林资源信息数据基于IPAD的应用基本上包含了普通应用所涉及的所有场景,因此ODI可以实现对森林资源信息数据内多种异构数据库的支持。在一个数据集成任务中,ODI通过声明设计运用接口和关系图等概念声明数据集成规则,使集成的逻辑和技术层面分离,底层的技术方面由知识模块描述和定义,系统只需要把森林资源信息数据重点放在集成任务规则的制定上面。
  三、森林资源信息数据基于IPAD的信息索引与检索
  IPAD的应用为满足用户全网检索和分类分部门检索信息的需要,并提高检索效率,信息索引模块首先对每个数据源建立索引文件提供给分类检索森林资源数据,然后通过优化索引提供给全网检索用户。优化索引就是将多个索引文件合并成单个文件的过程,目的是为了减少索引文件的数量,并且能在搜索时减少读取索引文件的时间。Nutch中的IndexWrite类提供了optimize方法实现该优化操作。利用Nutch中的MultiSearcher类可实现对优化后索引的全网检索功能,检索结果会以一种指定的顺序合并起来。
  针对森林资源信息数据信息检索的特点。综合考虑信息相关度、时效性和访问量等因素后,系统采用了自定义的排序机制,系统通过Lucene的激励因子boost值来改变文档得分,从而调整文档的出现顺序。系统为森林资源信息数据用户提供了通用检索和高级检索功能,通用检索在用户输入检索信息的关键字后可检索出所需信息:高级检索功能为用户提供了更为详细的检索条件,用户可根据需要对信息进行更加精细的检索。系统管理功能除对用户权限进行管理外还对信息检索结果进行屏蔽和进一步处理。
  四、IPAD的系统运行环境
  考虑到开发调试和维护的方便性,系统在测试运行期间采用了Windows平台。上层在开源Nutch搜索引擎的基础上进行开发,采用MyEclipse作为开发平台,用Java语言实现,因此具有跨平台特性。但由于运行Nutch自带的脚本命令需要Linux环境,所以必须首先安装Cygwin来模拟这种环境。为了确保Nutch1.0版本能够正确运行,Java虚拟机需采用JDK1.6以上的版本,运用WebSphere6.0作为检索平台的容器。系统底层采用Oracle 10g作为全局数据库。数据集成工具ODI版本为10.1.3,与数据库安装在同一台服务器上。
  五、信息采集系统的构建
  IPAD的信息采集是网络信息价值体现的主要方法之一。主要功能为:根据森林的自定义的任务配置,批量而精确地抽取因特网目标网页中的半结构化与非结构化数据,转化为结构化的记录,保存在本地森林资源的数据库中,用于内部使用或外网发布,快速实现外部信息的获取。 IPAD信息采集系统除了可以处理远程网页外,还可以处理本地网页,远程的文本文件或者本地的文本文件。
  六、信息采集系统的应用
  IPAD的信息采集系统应用是根据林业资源调查因子自定义采集任务,需要的林业资源调查因子信息都可以通过任务定制的方式将其采集到你本地的数据库中,支持的森林数据库包括Mysql,access,oracle,ms sql等等。还可以将采集好的森林资源的相关信息发布到其他的网站系统中,也适用于其他数据的采集。可见数据采集系统在IPAD中发挥重要作用。
  七、结束语
  森林资源信息数据基于IPAD的应用,实现了对森林资源内各信息发布系统后台异构数据库的有效整合与集成,改变了以往主要通过网络爬虫获取数据的方式,提高了数据来源的精度与质量,又通过Nutch插件机制实现了对非结构化文本的解析。从而为信息索引与检索打下了良好的基础。信息检索模块基于Nutch搜索引擎技术并充分利用Lucene接口实现了灵活高效的全网信息检索系统
  参考文献:
  [1]胡昌平.现代信息管理机制研究.武汉:武汉大学出版社,2004
  [2]杨元庆.构建新型互联网应用模式 推进中国信息化建设.现代电信技术,2002(3):18-20
  [3]王雪松Lucene+Nutch搜索引擎[M]北京:人民邮电出版社,2008
  [4]黄少林,王华,张玉红,蒋一峰,基于Lucene的索引系统的设计与实现,现代情报,2009,29(7):169-171
  [5]刘期勇,基于LUCENE的多数据源全文检索系统的设计与实现,重庆:重庆大学,2008

猜你想看
相关文章

Copyright © 2008 - 2022 版权所有 职场范文网

工业和信息化部 备案号:沪ICP备18009755号-3