语义Web推动下一代搜索:人类的下一代是什么
下一代搜索不仅需要考虑查询主体(人)的偏好以及所处的环境与任务,也需要借助计算机做一些智能推理。而它必须能够有效地处理和集成语义信息来达到这个目的。 如今,我们已经习惯于使用搜索引擎来帮助定位信息和解决问题。但大多数现有的信息检索系统和万维网搜索引擎都忽略了查询主体(人)的不同以及查询发生环境的不同。这种不加区分的一般的相关性使得用户必须进行更多的过滤才能找到满足当前任务或环境的信息需求。为了让搜索引擎可以更快更好地满足我们的信息需求,下一代搜索面临着新的挑战。它不仅需要考虑查询主体(人)的偏好以及所处的环境与任务,也需要借助计算机帮我们做一些智能的推理。因此,下一代搜索引擎必须能够有效地处理和集成语义信息以达到这个目的。
语义万维网有如下特点: 首先,语义万维网并不是一个革命性的全新的网络,相反,它是一个对现在的万维网的一个自然的扩展; 其次,语义万维网和当前的万维网最大的不同在于其上的信息具有明确给定的意义; 第三,语义万维网对社会的影响在于它能够使得电脑可以通过网络和人们进行更好的协同工作。
因此,基于语义万维网技术的语义搜索是应对下一代搜索引擎挑战的一个非常有潜力的方法。
信息检索与信息抽取
信息检索领域是语义搜索诞生的地方,有很多语义搜索的工作,涵盖了非形式化方法、形式化方法和集成化的方法。在非形式化方法中,主要以LSI、PLSI以及像HAL语义空间模型这样的统计和概率分析方法为语义搜索的代表。这一类方法是通过分析索引项和文档的出现频度来建立单词和文档的语义表示。另外一类更直接的非形式化方法是利用单词去歧义技术对单词语义进行直接的获取、表示和处理,从而期望提高传统信息检索的效果。和以上完全的非形式化方法不同,在信息检索领域,还有一些形式化和集成化的语义搜索方法。
在信息抽取方面,Web-KB项目是较早利用机器学习和信息抽取技术根据本体从万维网上抽取语义信息的工作。给定一个本体,一些训练样本,Web-KB试图通过机器学习的方法来获得语义信息。而KnowItAll项目的工作具有和Web-KB项目类似的目标。该项目希望通过从万维网中抽取语义信息来获得一个庞大的知识库,从而可以用来进行更好的搜索甚至构造一个真正的人工智能系统。
自然语言理解与关键字查询接口
在自然语言理解领域,研究人员希望通过深入分析自然语言文本来获得完整的、复杂的语义信息。这种分析通常包括对文本进行完整的词法、语法和语义处理。该领域的语义搜索通常使用形式化的方法来表示语言中的完整的、复杂的语义信息并根据这种表示来进行查询处理。
这方面比较早的研究是通过手工或者通过机器学习的方法从自然语言中获取概念图的语义表示,将文档和查询转化成概念图的形式进行语义的匹配。在进行查询的时候,对于普通用户来说,他们和基于形式化逻辑的语义查询之间存在一定的鸿沟,一些研究人员提出了不少方法来试图缩短这个鸿沟: Bernstein等人提出了受限查询语言以及有指导的自然语言查询接口。
而通过关键字查询接口来自动为用户提供形式化语义查询的推荐是一种简单而有效的方法。SemSearch和Onto-Look是较早利用关键字作为查询输入的语义搜索引擎,它定义了一些翻译模版,然后尝试将用户输入的关键字映射到查询语句的三元组中的主语、谓语或宾语。但它的时间复杂性随着关键字个数成指数式增长,所以很难在实际应用中用到。
数据库与知识库
从数据库的角度,有相当多的系统和方法试图解决如何有效存储和查询语义信息的问题。Sesame是这方面的一个著名系统。它较早地实现了用数据库对RDF数据的存储和查询。DLDB 试图能够更多地回答OWL 的数据上的推理和查询。当前,DLDB仅支持对父子类关系和父子属性关系进行推理。所以其支持的推理能力是非常有限的。比DLDB更进一步,InstanceStore使用了更加深入的推理与分析,进行了更多的预先计算,能够以数据库为基础完成对大规模实例数据的查询和推理。
如果说从数据库角度出发的工作实现的推理能力都比较有限(因为受到关系数据库本身的关系模型的限制),那么在知识表示、知识库等领域中的研究,则最大程度实现了推理能力。基于描述逻辑的Racer和FaCT推理系统被开发了出来。它们可以出色地完成对描述逻辑,特别是其类别、属性和关系部分的推理。但是,它们通常难以处理大规模的实例数据。
语义万维网
SHOE和OWLIR是语义万维网方面较早的工作系统。它们是利用万维网网页上的标注过的语义信息来提高信息检索能力的尝试。并为用户提供一个可视化的本体驱动的查询界面,同时支持一些简单的推理,使得用户既可以检索文本,同时也可以增加语义约束,所有同时满足关键字检索和语义约束的网页被作为结果返回给用户。
TAP项目是斯坦福大学、IBM研究中心和万维网标准化组织W3C的语义Web活动组共同参与的研究和开发项目。该系统首先将用户的查询映射到一个或多个该知识库中的概念或实例,这一步可以通过对知识库中的字符串标签的模糊匹配得到。之后,该方法在知识库中找出和被识别的概念或实例相关的一个子图。从搜索结果来说,用户不仅可以看到和查询相关的网页,而且还可以直接地看到被搜索目标的结构化的语义信息。从而使得用户不用再阅读大量网页,就可以直接获得很多相关的语义信息。
除了利用形式化的语义信息进行形式化的查询外,另外一些研究希望利用语义信息(特别是语义万维网)中丰富的语义关联来查找信息。他们认为对语义Web 的查询还应该包含对语义关联的查找。所谓语义关联,是一个具有一定结构的子图。例如,两个节点可以从同一个节点出发的路径而到达。这种查找和发现对于分析大量知识往往是非常有用的。类似的想法也体现在了SCORE系统中,但是,这些工作对如何把语义关联和传统的信息检索结合起来并没有给出很好的解决方案。
除了对语义搜索的方法进行研究外,还有一些工作研究如何对语义搜索的结果进行排序。他们考虑的是在通过推理对查询给出精确的答案时,如何对答案进行排序的问题。和信息检索中的排序问题不同的是,这里的任何一个答案都是正确和精确的。由于使用的是描述逻辑,所以查询的结果是一个对象的集合。如何排序这些对象实际上是依赖于这个对象的一些关系实例,而这些关系实例是满足了查询的要求的。总的排序依赖于两个方面,一个是这些关系实例的特殊性,一个是这些关系实例是如何被推导出来的。
