当前位置:首页 > 申请书大全 > [搜索引擎在高校图书馆信息服务中的应用] 高校图书馆招聘信息
 

[搜索引擎在高校图书馆信息服务中的应用] 高校图书馆招聘信息

发布时间:2019-05-07 03:56:34 影响了:

  【摘 要】介绍了一种新型的校园网络环境下的搜索引擎。从搜索引擎所需技术的各个方面对这种搜索引擎的架构,具体实现方法进行详细的阐述。包括最新的P2P技术,网络架构,搜索引擎系统架构,中文分词技术,数据提交,用户接口等等。侧重介绍了这种搜索引擎的实现模型和原理,具体实现环节还需要详细的实践和理论考证。
  【关键词】搜索引擎;P2网络架构系统架构;中文分词;知识挖掘
  随着信息的发展和科技的进步,人们将现实世界中存在的信息,如报纸,期刊,书籍等都放到网上去,同时也不停地在网络上生产出数之不尽的新信息,整个网络正在堆积成一个超级大型数据库。如何在浩瀚如海的信息空间里,快速查找并获取自己所需的信息已经成为信息时代重要需求。
  搜索引擎成了最受人们关注的焦点之一,许多公司纷纷架起了搜索引擎,对各种资源信息进行综合、分析,以解决人们在日常生活中遇到的各种问题。但是对于民办高校来说,这项工作相对比较落后。如何充分发挥高校图书馆内部资源的优势,实现更大范围资源共享,这是新型搜索引擎所要解决的问题。
  一、相关技术原理
  1.校园网络环境下的搜索引擎和WEB搜索引擎的区别
  数据量:校园网络环境下的搜索引擎面向的是校园网络资源信息,一般的索引库规模多在GB级,但是Internet搜索需要处理的是成千上万的网页信息,搜索引擎的方法是采用服务器集群和分布式计算技术。
  搜索相关性:一般的搜索引擎采用的多是网页链接分析技术。像GOOGLE采用的就是Pagerank和Hilltop算法相结合的方式,根据互联网上网页被链接次数作为重要性评判的依据。但这里的搜索引擎的数据源中相互链接的程度不是很高,所以就不能作为判别重要性的依据,只能关于内容的相关性排序而已[1]。
  网络安全性:网络上搜索引擎的数据来源都是互联网上公开的信息,而且除了正文内容以外,其他信息都不重要,但这里的搜索引擎的数据源都是来自校园网络各个主机内部的信息,其中可能包含了个人隐私,以及一些个人重要信息[2]。
  内容多样性:Web搜索引擎是基于HTTP协议,对HTML,TXT等进行检索。而这里的搜索引擎是基于P2P技术进行网络传输,搜索的文件类型包括DOC,PDF,RAR等等各种格式,进一步提高网络资源的共享。
  2.P2P技术
  P2P是peer-to-peer的缩写,意为对等网络。其在加强网络上人的交流,文件交换,分布计算等方面大有前途。简单的说,P2P直接将人们联系起来,让人们通过互联网直接交流。P2P使得网络上的沟通变得容易、更直接共享和交流,真正地消除中间商。P2P使人们可以直接连接到其他用户的计算机、交换文件,而不是像过去那样连接到服务器去浏览与下载。
  校园网络环境下的信息交换,由于其网络覆盖面较小,网络信息量较少,网络传输速度快等特点,很适合采用P2P技术进行信息交换。
  假如某个学生需要从网络上搜索有关于“搜索引擎”资料,他只要在搜索引擎的用户界面输入“搜索引擎”,选择*.doc,*.pdf等等格式,然后敲下回车,信息首先提交到服务器上,服务器首先对校园网络资源数据库进行检索,查找到相关的记录,然后返回给用户资源所在的主机名,路径。当用户点击链接时,直接就和远程的计算机进行信息交换,不再需要通过服务器。当然如果找不到可用的资源,还可以直接连接到图书馆的数据库,进行检索。
  3.中文分词技术
  分词技术就是搜索引擎针对用户提交查询的关键词串进行的查询处理后根据用户的关键词串用各种匹配方法进行分析的一种技术[3]。中文分词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的知识来理解哪些是词,哪些不是,但是计算机怎么理解了,这就是中文分词技术需要解决的问题。现有的分词技术有三种:
  (1)字符串匹配的分词方法:是常用的分词法,百度就是用此种分词。基于字符串匹配的分词方法,从左到右,或者从右到左拆分。
  (2)词义分词法:这种就是一种机器语音判断的分词方法,进行句法、语义分析,利用句法信息和语义信息来处理歧义现象来分词。
  (3)统计分词法:根据词组的统计,就会发现两个相邻的字出现的频率最多,那么这个词就很重要。就可以作为用户提供字符串中的分隔符,这样来分词。
  校园网络环境下的搜索引擎对中文分词技术和传统WEB搜索引擎的类似,因此,可以采用以上所叙的方法。
  二、系统结构
  搜索引擎系统架构,传统的搜索引擎由3大部分构成,网上机器人(Robot Spiders),它是一种穿梭于WWW空间的计算机软件,自动从一个网页跨越到另一个网页,自动追寻超文本的链接,对信息进行采集,标引,然后发送回服务器。索引数据库(Index Database),存放经过处理的机器人采集和标引的信息记录。检索代理(Agent),提供查询服务,对返回给用户的结果进行排序等处理。
  校园网环境下的搜索引擎,采用的也是传统的架构,但针对其特有的网络环境,也有其独特的地方。其中关键不同的是:由于其数据库是基于校园内部的信息资源而建立,并且,信息资源来源一般固定,因此,直接采用固定客服端程序进行信息的采集。当然,采集的信息量除了传统的超文本,文本,还包括Doc,Pdf,Jpg,Rar等等类型的文件,大大提高网络资源信息量,能够满足用户的各种信息需求。在传回给服务器端程序的表单中,包含的也不再是URL等,而是用户的主机IP,ID,文件存放的路径等等。
  三、数据提交程序的原理
  每个学生,教师在申请加入校园网时,都要提交一份申请表单,并保证在自己的PC上提供一定数量,大小的文挡数据等。通过这个共享的分区,实现资源共享,查询等操作。这是整个数据库资源重要的一部分。申请后,学校分配每个用户一个登陆的用户名,IP地址,以及发放一个客服端程序(AI Terminal),客服端程序如同传统WEB搜索引擎中的Robot Spider,但是传统的Robot Spider一般是爬行在Internet上,不断的搜集数据,URL,发送回服务器。这里的AI Terminal一般是固定在客服端,收集包括doc,pdf,jpj,rar等等文件信息,然后进行归类,对内容关键字,存放路径进行整理,制作成索引表单,发送回服务器。由于用户数据的不定时变动,更新,因此AI Terminal需要定时的对共享信息,进行再次检索归类,以提供最新的路径和文件信息给服务器端程序[4]。

猜你想看
相关文章

Copyright © 2008 - 2022 版权所有 职场范文网

工业和信息化部 备案号:沪ICP备18009755号-3