当前位置:首页 > 述职报告 > [对象识别研究综述] 发展对象自我综述
 

[对象识别研究综述] 发展对象自我综述

发布时间:2019-05-07 03:54:11 影响了:

  摘要:数据的质量直接决定着信息服务的质量。在有关数据质量的各种问题中,识别出属于同一个现实实体(对象)的多条记录(表象)是最关键的问题之一。我们把这样的问题称为是对象识别问题。该文分析了近些年对象识别技术的发展,给出了在效率可扩展性、属性值相似度的判断、记录对相似性的判断、集合模型相似性的判断等方面相关的研究方法和存在的研究问题。
  关键词:对象识别;可扩展性;相似度;记录对
  中图分类号:TP399文献标识码:A文章编号:1009-3044(2012)21-5032-03
  Review of Object Identification Research
  CHANG Ming1,NI De-qiang1,CHENG Tao-yuan2
  (1.Anshan Radio and Television Bureau,Anshan 114001,China; 2.Beijing Baidu Network Technology Co., Ltd., Beijing 100080, China)
  Abstract:Data quality directly determines the quality of information service. About data quality problems, it is one of the most critical is sues to identify a number of records (representation) of the same real entities (objects). It is called object identification. This paper analyzed the recent technical development of object identification. give some recent research methods and problems about efficiency of scalability, at tribute value similarity judgments, record pairs similarity judgment, set model similarity judgment.
  Key words:object identification; scalability; similarity; record pair
  1959年H. Newcombe等人第一次提出了对象识别的概念[1],文献[2]则为对象识别提出了正式理论,并且提出了一整套的统计学方法来计算匹配的参数和错误率。在传统的对象识别研究中,人们主要在解决如下两个问题:1)如何计算记录对的相似度;)如何减少需要进行相似度计算的记录对数目。W. E. Winkler在文献[3]中综述了当时与对象识别相关的研究工作。几年过去了,对象识别领域的研究又取得了很大的进展,而且最近几年出现了一些新的模型和方法,突破了传统对象识别中基于两条记录计算相似度的思想。
  很高,而且容易出错。
  传统的方法只是考虑如何利用本地数据库中的信息进行对象识别,在很多情况下,仅仅利用本地数据库的信息无法获得很好的对象识别结果。对象识别产生的很多模糊匹配,如果能够找到一些其他的信息就可以判断出来时匹配还是不匹配了。例如,对于两个人名“Bob Smith”和“Robert Smith”,采用字符串相似度判断时,由于他们的相似度没有高于阈值,所以会被认为是一个模糊匹配。但是在英文里作为人名的一部分时,“Bob”和“Robert”是一对可以互相交换的词。如果有一个辅助数据源可以提供这样的信息,那么就可以判断这个模糊匹配“Bob Smith”和“Robert Smith”是相同的人名。提出了一种利用辅助数据源查找额外信息,结合已有得信息进行判断的方法。由于查询辅助数据源会导致延迟,而且还可能会导入错误等,系统只是在产生模糊匹配的时候才会去利用中间件进行查询。采用这样的模型,可以提高基于网络的对象识别的准确率和查全率。但是,论文中的辅助数据源是一些特定的数据源,需要提前知道数据源的模式,获得使用权限等。这样的要求大大限制了模型的适用范围,不能作为一种通用的模型进行推广。在不存在特定辅助数据源的情况下,研究中则提出了一种利用网络数据进行相关人员判断的方法。提出了一种利用网络,通过无监督学习解决“同名不同人”问题的方法。这些研究工作都很好地解决了各自论文中提出的问题。但是由于他们提出问题或者带有特殊的背景知识(需要知道多个人之间是熟人关系),或者要求提前知道查找出的网页符合一定的模板,这些利用网络识别同名不同人的系统通用性不强。
  1.4集合模型的判断
  随着应用的发展,仅仅根据两条记录的信息已经无法很好的判断对应表象是否匹配了。在数据库中,一个表象不仅在需要进行比较的记录中有信息,还会存在一些其他的联系信息。如何更好的利用这些联系信息是最近的研究工作的重点。
  由于论文数据库的特点,作者名字的对象识别过程也就是尽量利用相关信息的过程。中最初提出了利用作者表象的上下文信息,也就是利用了和要识别的作者名字直接联系的一层信息。考虑到可能会存在的一个人名对应多个作者对象的问题,这样的一层信息还是相对比较可靠的。等工作开始利用表象的多层联系进行计算,虽然这样的方法可以利用更多的信息,但是“同名不同人”问题的存在会使得这些工作的准确率很受影响。而且,这些工作都是基于SimRank或者SimFusion模型,算法的空间复杂度是O(n2),运行时间会较长。而基于依赖关系的对象识别则考虑到了识别的先后顺序,可以利用首先识别出来的对象辅助后面的模糊匹配的识别。与以前的工作相比,这样的工作更加符合人的逻辑判断过程。上面的工作只是简单的利用了多层关系。在论文数据库中,对象之间会存在依赖关系,不仅记录之间会存在依赖关系,不同的属性值之间也会存在这样的关系。进行对象识别时,利用众多表象之间的关系,首先识别出来的对象可以向正在识别的表象提供有用的信息,而传统的对象识别工作没有考虑这样的依赖关系。提出基于依赖关系进行对象识别的工作。在基于依赖关系进行对象识别的工作中,一个模糊匹配的成功识别可以获得一定的知识,利用这样的知识可以辅助别的节点进行识别。在利用依赖关系时,首先判断容易判断的对象,然后再来进行更加模糊的对象判断。
  不仅在论文数据库中可以使用集合模型,在其他的数据库中只要记录中间存在某些联系,也可以使用这样的模型。研究了在数据库的各个表中间存在层次关系时,如何利用这些关系进行对象识别的问题。数据库中多个表之间可能会存在一定的层次关系,例如表A是关于不同国家的数据,表B是不同国家中州(或者省)的数据。这样的两个表通过主外键关系就存在一个层次关系。在这样的数据库中进行对象识别时,除了可以计算两个表象的文本相似度之外,还可以利用两个表象的孩子节点覆盖(overlap)进行判断。一般说来,如果两个表象属于同一个对象,它们的孩子节点会对应较大的覆盖。例如,country表中的“USA”和“United States of America”都在state表中对应着“MO”,“CA”,“AL”等,那么在判断“USA”和“United States of America”是否对应同一对象时,虽然他们的文本相似度不是很高,但是由于他们下一级的state数据覆盖很大,可以判断它们是同一国家的名字。
  利用集合模型进行判断是近几年才出现的研究工作,主要集中在如何利用这样的模型解决论文数据库中的作者识别问题。由于作者名字的特点,这些工作都没有很好的研究如何生成需要比较的表象对。而这样的工作对于一个成功的对象识别系统来说是非常重要的。其实,不仅是论文数据库,普通的数据库中也会在表象之间存在一定的关系。在本地数据库中如何更好的利用这样的关系应该是下一步的研究工作。
  如何提高对象识别的可扩展性,减少需要比较的记录对数目以及如何提高对象识别的准确率,优化两条记录相似度的计算公式是对象识别技术的主要研究内容。该文分析了近些年对象识别技术的发展,给出了在效率可扩展性、属性值相似度的判断、记录对相似性的判断、集合模型相似性的判断等方面相关的研究方法和存在的研究问题。

猜你想看
相关文章

Copyright © 2008 - 2022 版权所有 职场范文网

工业和信息化部 备案号:沪ICP备18009755号-3