当前位置:首页 > 发言稿 > [文本挖掘技术:梦想照进现实]当梦想照进现实下一句
 

[文本挖掘技术:梦想照进现实]当梦想照进现实下一句

发布时间:2019-01-01 07:45:02 影响了:

  对于企业竞争情报工作而言,有几个我们并不愿意接受,但却基本正确的判断:信息如潮水般涌来,相关信息的监测和搜集都已超出了人的手工操作能力,更不要说分析抽取有价值的情报了;信息并不是情报,信息、数据只是能够从中提取情报的原料,或者叫矿石。
  在这个信息泛滥的时代,这些情报矿石的品位并不很高,我们拥有的提炼技术还很初级;情报是信息、数据背后的含义,获得情报的关键是理解和判断能力。在这一点上来看。我们现在拥有的强大的技术能力却显得有些无能为力;数据表明,一个企业或组织80%的信息是以文本的形式存放的,包括WEB页面、技术文档、电子邮件等。
  由于信息技术还没有赋予对文本的阅读和分析能力,而由于文本数量的飞速增长和经常改变,人们已经没有足够的时间和精力处理数量巨大的文本,而这又是组织存在和运转所必需的。
  竞争情报存在于事实、事件、关系、变化之中,竞争情报工作就是需要监测和采集这些事实、事件、关系、变化的信息,并分析它们自身以及对于所关心事物的意义。这就意味着我们需要监测和搜集的信息可能会非常广泛,就如同美国在国家竞争中投入巨资监听全球所有国家几乎一切通讯波段一样。作为一个企业和组织不可能有这样的能力对竞争环境和竞争对手进行全面的信息监测和搜集。作为一种现实可行的替代方案,企业或组织可以进行媒体和文献文档信息的监测和搜集。
  面对浩如烟海的文本信息,如何帮助人们有效地收集和选择所感兴趣的信息,如何帮助用户在日益增多的信息中自动发现新的概念,并自动分析它们之间的关系,使之能够真正做到信息处理的自动化,这已经成为信息技术领域的热点问题。我们已经可以对结构化的数据进行很好的分析和处理,真正的困难在于非结构化的信息,也就是我们通常说的文本信息。人们迫切需要能够从大量文本文档中快速、有效地发现有用资源和知识的方法和工具。在这种强烈需求的驱动之下。文本挖掘技术被催生了。
  在讨论文本挖掘技术之前,我们先要讨论一下结构化信息的挖掘问题。结构化数据我们已经建立了有效的分析和处理方法,计算机可以很好地进行处理。为什么呢?因为我们可以告诉计算机这些数据之间的逻辑关系和寻找各种关系的模型。而对于非结构化的数据――自然语言文本,我们还不能做到这一点。这是因为我们对于结构化数据已经可以“操作性”地描述它们的关系和模式。比如加、减、比例、对数、微分等等。
  
  文本挖掘技术的发展
  
  文本挖掘是抽取有效、新颖、有用、可理解的、散布在文本文件中的有价值知识,并且利用这些知识更好地组织信息的过程。文本挖掘是信息挖掘的一个应用研究分支。用于基于文本信息的知识发现。
  文本挖掘利用智能算法,如神经网络、基于案例的推理、可能性推理等,并结合文字处理技术,分析大量的非结构化文本源(如文档、电子表格、客户电子邮件、问题查询、网页等),抽取或标记关键字概念、文字间的关系,并按照内容对文档进行分类,获取有用的知识和信息。文本挖掘技术涉及多种科学学科,涵盖了多种技术。包括数据挖掘技术、信息抽取、信息检索、机器学习、自然语言处理、计算语言学、统计数据分析、线性几何、概率理论甚至还有图论。
  文本挖掘实际上就是利用计算机的高速度和海量处理能力,来帮助人们处理文本信息。怎样帮助人来处理文本信息呢?这还要从人如何利用文本信息谈起。
  我们知道,人们需要信息是要理解信息所代表的含义。在这一点上计算机理解自然语言的能力还非常有限,几乎帮不了人的什么忙。只有人“规定”一个符号序列等同于什么,并且用什么样的形式去表达(如数字、文字、图像、音频序列)。除此之外,计算机什么也不“想”,也不会“想”。说穿了,在弄清楚人的思维的奥秘之前,我们恐怕还没有办法让计算机具有思维能力,哪怕是很初级的。
  因此。计算机目前能够解决的还是符号序列和符号序列之间的关系,比如发现两个文本文件中出现了相同的符号序列,一篇文献中同一个符号序列出现了多少次等。可以说,目前文本挖掘的本质还是统计的和结构的分析技术,远远还没有达到语义的层次。即便是基于样本的学习训练方法和神经网络等人工智能方法,都是如此。从目前文本挖掘技术的研究和应用状况来看,从语义的角度来实现文本挖掘的还没有看到,目前研究和应用最多的几种文本挖掘技术包括文档聚类、文档分类和摘要抽取。
  
  文档聚类、分类和文摘
  
  文档聚类就是通过对文档的字词和结构特征进行分析,用来发现与某种文档相似的一批文档,帮助知识工作者发现相关知识。聚类方法通常有:层次聚类法、平面划分法、简单贝叶斯聚类法、K-最近邻参照聚类法、分级聚类法、基于概念的文本聚类等。
  文档聚类常常用于将一批文档聚类成若干个类,提供一种文档分析方法和组织文档库的方法。聚类分析可以用来发现文档特征生成文档分类器,以对文档进行分类。
  文本挖掘中的聚类分析可用于提供大规模文档库内容的总括,判断文档之间的相似程度。在搜索引擎服务中,用来减轻浏览相关、相似信息。文档分类和聚类是不同的,区别在于分类是基于已有的分类体系表的,分类表是通常由人工指定,是进行了语义处理的。一般比较准确、科学地反映了某一个领域的划分情况,所以在信息系统中使用分类的方法,能够让用户手工遍历一个等级分类体系来找到自己需要的信息,达到发现知识的目的,这对于用户刚开始接触一个领域想了解其中的情况,或者用户不能够准确地表达自己的信息需求时特别有用。
  而聚类分析则没有这样的分类表,只是基于文档之间的相似度。并且仅仅在聚类分析的前提下生成的分类还需要人工赋予语义解释。也就是说,机器聚类筛选出来的特征可能是人无法理解的。
  文档自动分类一般采用统计方法或机器学习来实现。常用的方法有:简单贝叶斯分类法、矩阵变换法、K-最近邻参照分类算法以及支持向量分类机等。自动文摘是由于互联网上的文本信息、机构内部的文档及数据库的内容都在成指数级的速度增长,用户在检索信息的时候,可以得到成千上万篇的返回结果,其中许多是与其信息需求无关或关系不大的,如果要剔除这些文档,则必须阅读完全文,这要求用户付出很多劳动,而且效果不好。
  自动文摘能够生成简短的关于文档内容的指示性信息。将文档的主要内容呈现给用户,以决定是否要阅读文档的原文,这样能够节省大量的浏览时间。自动文摘就是利用计算机自动地从原始文档中提取全面准确地反映该文档中心内容的简单连贯的短文。
  最简单的自动文摘方法就是截取文章头部有限数量的文字,生成文档的文摘。一般来说要求自动文摘应能将原文的主题 思想或中心内容自动提取出来,文摘文字应具有概况性、客观性、可理解性和可读性。
  按照生成文摘的句子来源,自动文摘方法可以分成两类,一类是完全使用原文中的句子来生成文摘;另一类是可以自动生成句子来表达文档的内容。后者的功能更强大,但在实现的时候,自动生成句子是一个比较复杂的问题,经常出现产生的新句子不能被理解的情况,因此目前大多用的是抽取生成法。
  
  文本挖掘现实与应用前景
  
  从文档挖掘的现实来看,虽然距离语义层次的理解和知识挖掘的理想还很遥远。但是已经在文本搜索、剔出重复、文档聚类分析、自动分类和文摘方面取得了实用的效果。其实,我们每天使用的搜索引擎技术中就已广泛地应用到了文本挖掘技术。
  信息化的社会、商业环境和组织内部每天都在产生海量的文档信息,而人们已经没有足够的精力和时间去处理这些文本信息,因此,文档信息的自动化处理已经是刻不容缓的商业需求。文本挖掘技术及其相关的文档自动化处理技术具有非常广泛的应用前景和商业价值。
  如果从情报搜集和分析的角度来看,文本挖掘技术已经在为我们的情报搜集活动提供支持,特别是网络情报收集方面。可以预期,随着网络文献量的海量增长,搜索、相似性判别、剔除重复、聚类和分类、文摘和管理,各类文本处理和信息挖掘技术将被更加广泛地应用到情报搜集和管理之中。
  很多文本挖掘技术的应用是一般用户几乎感觉不到的。从情报分析的角度看,核心工作还是要靠人来进行,但是大量的预处理、整序和信息统计特征分析则可以由文本挖掘及其相关技术来进行。随着语料库语言学的发展和大规模语料语义研究的进展,文本挖掘技术可能会给我们的情报分析和判断带来巨大的便利,甚至会出现一些基于语料的文本分析工具,这些工具可能会处理文档中语词之间的关系。
  关于文本挖掘技术的现实应用和期望,有两点需要特别指出:首先,不要企望短时间内对文本挖掘技术在语义层面有很大的突破,因而不要对其理解力和智能化有过高的奢望。特别是在短时间内,理解、想象和含义判断依然是人类的专利和专长。其次,文本挖掘技术已经在为我们带来便利和效率――如搜索引擎中的剔除重复和自动文摘。不要奢望文本挖掘很快越过语义鸿沟,也不要因为语义鸿沟的存在而看不到其重要的应用意义和巨大的商业价值。

猜你想看
相关文章

Copyright © 2008 - 2022 版权所有 职场范文网

工业和信息化部 备案号:沪ICP备18009755号-3