当前位置:首页 > 读后感 > 面向主题的搜索引擎的设计:面向搜索引擎编程
 

面向主题的搜索引擎的设计:面向搜索引擎编程

发布时间:2019-02-23 04:20:47 影响了:

  [摘要]总结现有面向主题的搜索引擎的技术特点,实现一个能满足基本需求的主题搜索引擎;在该课题中叙述了面向主题搜索引擎的重要性、实现方法、实现过程;主要是web文档抓取、特征提取、web文档分类技术;特征值应具有明显的特征,以此提高搜索引擎质量;在实现自动web文档分类时采用向量空间模型计算web文档间的相似度。
  [关键词]主题搜索引擎自动分类特征值向量空间模型
  中图分类号:TP3文献标识码:A文章编号:1671-7597(2009)1210072-01
  
  一、搜索引擎历史背景
  
  任何搜索引擎的祖先,是1990年由Montreal的McGill University学生Alan Emtage、Peter Deutsch、Bill Wheelan发明的Archie(Archie FAQ)。虽然当时World Wide Web还未出现,但网络中文档传输还是相当频繁的,由于大量的文档散布在各个分散的FTP主机中,查询起来很不便,因此Alan Emtage等想到了研发一个能够用文档名查找文档的系统,于是便有了Archie。Archie是第一个自动索引互联网上匿名FTP网站文档的程式。
  根据搜索引擎所用的技术原理,主要可以分为以下三类:
  1.目录式搜索引擎:以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中。信息大多面向网站,提供目录浏览服务和直接检索服务。
  2.基于Robot搜索引擎:基于Robot的搜索引擎多提供对全文的检索,有时也叫做全文搜索引擎(Full Text)。通过Robot程序从互联网上搜集信息而建立索引数据库,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户。
  3.元搜索引擎:这类搜索引擎没有自己的数据库,而是将用户的查询请求同时向多个搜索引擎递交,将返回的结果进行去重、排序等处理后,作为自己的结果返回给用户。服务方式为面向web文档的全文检索。
  
  二、主题搜索引擎
  
  随着信息多元化的增长,千篇一律的给所有用户同一个入口显然已经不能满足特定用户更深入的查询需求。同时,这样的通用搜索引擎在目前的硬件条件下,要及时更新以得到互联网上较全面的信息是不太可能的。这就需要一个分类细致精确、数据全面深入、更新及时的面向主题的搜索引擎。由于主题搜索运用了人工分类以及特征提取等智能化策略,因此它比以前普通的搜索引擎更具有特性,能被多数人接受。起主要特点有:
  1.搜索最专业:主题搜索引擎排除了其他杂乱信息的干扰,结果纯正、专业,是各行业推广的最佳选择,也是消费者品牌消费的最佳参谋和顾问。
  2.结果最精准:采用人工分类以及特征值提取等策略,提高搜索引擎的时效性及准确性,搜索结果精、准,不会出现垃圾信息,凸现了主题搜索引擎的独特优势。
  3.结果最有价值:品搜呈现给消费者的是最新、最旺的搜索结果,是消费者最希望看到的结果,也是消费者最喜欢的结果。
  
  三、面向主题的搜索引擎的设计
  
  (一)数据库设计。本课题中采用MYSQL数据库存储相关数据,MYSQL数据库适用于中小型企业,它是一种免费的开源的数据库,用户可以根据自己的需要对它进行完善,它也具有较强的稳定性,也能支持很多种语言,能满足本课题的需要;在实现该系统的过程需要创建七个表用于数据存储;sites表用于存放web文档;links表用于存放web文档中的链接,stop_keywords用于存放停止词,停止词是指那些在文档中经常出现但又没有任何实际意义的词;keywords表用于存放关键词;categories表用于存放web文档类别;site_category表用于存放web文档类别与web文档间的对应关系;temp表用于存放待抓取的URL,另外还有未列出的三个字典表,dictionary表用于存放主词典,syn_dictionary表用于存放同义词典,con_dictionary表用于蕴含词典。
  (二)选取指定的web文档。首先需要建立类别,然后为每个类别选择具有特定性的URL,把它作为种子URL,搜索URL对应的web文档,通过它链接的第二层web文档也作为该类的相关web文档,各分类之间所指定的URL应具有明显的区别,如图1所示。
  (三)为类别添加URL。这些URL对应的web文档信息将会被放在它所属的那个分类里。本课题中采用人工分类,所以对种子URL的选取和添加都是通过人工来完成;对URL选取要有强烈的针对性,以凸显各分类的特性。
  (四)单独抓取一个URL。需要对单个web文档进行抓取,利用该模块就可以避免在站点列表中编辑URL的抓取属性。
  (五)网络蜘蛛设置。顾名思义,网络蜘蛛就是在网络上爬行的程序,用他来抓取WEB服务器上的web文档,它可以在扫描WEB页面的同时检索其内的超链接并加入扫描队列等待以后扫描。因为WEB中广泛使用超链接,所以一个Spider程序理论上可以访问整个WEB页面,也很有可能在这些连接过程形成了一个环,所以限制网络蜘蛛的爬行能防止很多问题,包括同一个web文档被爬取多次、也避免了浪费时间,其设置如下图2所示,在“深度”项填入网络蜘蛛的爬取深度。网络蜘蛛在爬取过程中,采用广度优先的爬行策略。
  (六)抓取web文档。抓取web文档属于管理模块,管理控制抓取过程,是索引模块部分,可以根据需要对选定发URL分类,并对其抓取进行设置。
  (七)web文档自动分类。把上述(二)内得到是web文档处理后作为训练集,对训练集的处理包括训练集的分词,其方法采用的是逆向最大匹配法,并计算出各个分词的向量特征,把每个Web文档用特征值表示出来,然后用训练集作为新获取web文档分类的标准;对获取的Web文档处理后,就可以作为分类新web文档的依据。
  (八)用户接口。用户输入搜索条件,需要对搜索的条件进行分词等处理,然后搜索程序将通过索引数据库进行检索,然后把符合查询要求的数据按照一定的策略进行分级排列,并且分页显示给用户;一个友好的界面决定着人们对它的接受程度。对用户的请求进行处理过程中,在分词和分页显示时是关键,分词是采用逆向最大匹配法,并使用了词典作为分词的依据,这样虽然有很大局限性,但是分出来的词更具有实际意义。

猜你想看
相关文章

Copyright © 2008 - 2022 版权所有 职场范文网

工业和信息化部 备案号:沪ICP备18009755号-3