当前位置:首页 > 演讲稿 > 【数据挖掘的发展和应用综述】 数据挖掘第三版答案pdf
 

【数据挖掘的发展和应用综述】 数据挖掘第三版答案pdf

发布时间:2019-01-11 03:57:03 影响了:

  摘要:本文介绍了数据挖掘的分类方法和目前采用较普遍的一些数据挖掘方法;分析、总结了数据挖掘技术在商业、Web挖掘、科学研究等几个主要领域的应用情况;综合论述了数据挖掘未来的发展趋势。
  关键词:数据挖掘;应用;发展;综述
  中图分类号:N37文献标识码:A文章编号:1009-3044(2007)18-31486-01
  Summary of Data Mining Development and Application
  WEN Xiao-yan,DU Hai-ruo
  (School of Mechanical Engineering,Southwest Jiaotong University,Chengdu 610031,China)
  Abstract:In this paper,we intruduct the classification measure and currently some of the more general used mining methods of data mining. The application of data mining technology in business, Web mining, scientific research, and several other key areas is Analyzed and summarized. Summarizes the future development trend of data mining.
  Key words:Data mining;Application;Development;Summary
  
  1 引言
  
  随着信息技术的高速发展,数据库应用的规模、范围和深度空前发展,人们迫切需要一种自动地和智能地将待处理的数据转化为有用的信息和知识的方法,从而达到为决策服务的目的。在这种情况下,数据挖掘技术应运而生。数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程[1]。
  
  2 数据挖掘分类
  
  数据挖掘可按数据库类型、挖掘对象、挖掘任务、挖掘方法与技术以及应用等几方面进行分类[2]。
  数据挖掘最开始是从在关系数据库中挖掘知识发展起来的,随着数据库类型的不断增加,现有:关系数据挖掘、模糊数据挖掘、历史数据挖掘、空间数据挖掘等多种不同数据库的数据挖掘类型。
  按数据挖掘的对象分,除了数据库数据挖掘外,还有文本数据挖据、多媒体数据挖掘、Web数据挖掘。
  按挖掘任务分类有:关联规则挖掘、序列模式挖掘、聚类数据挖掘、分类数据挖掘、偏差数据挖掘和预测数据挖掘等类型。各类数据挖掘任务不同,采用的方法和技术也将会不同。
  按数据挖掘的方法和技术分类,有:归纳学习类、仿生物技术类、公式发现类、统计分析类、模糊数学类、可视化技术类等。
  
  3 数据挖掘方法
  
  数据挖掘方法是由人工智能、机器学习的方法发展而来,结合传统的统计分析方法、模糊数学方法以及科学计算可视化技术,以及数据库为研究对象,形成数据挖掘的方法。
  (1)归纳学习方法
  归纳学习方法是目前重点研究的力向之一,研究成果众多。从采用的技术上看,分为两大类:信息论方法(这也是常说的决策树方法[3])和集合论方法,每类方法义包含多个具体方法。
  信息论方法是利用信息论的原理建立决策树。由于该方法最后获得的知识表示形式是决策树,所以一般文献中称它为决策树方法[3]。该类方法的实用效果好,影响较大。信息论方法中较有特色的方法以下几种:ID3等方法、IBLE方法、集合论方法、概念树方法、粗糙集方法、覆盖正例排斥反例方法。
  (2)仿生物技术
  仿生物技术典型的方法是神经网络方法和遗传算法。这两类方法已经形成了独立的研究体系。它们在数据挖掘中也发挥了巨大的作用,我们将它们归并为仿生物技术类。
  (3)公式发现
  在工程和科学数据库中对若干数据项进行一定的数学运算得相应的数学公式。常见的有物理定律发现系统BACON、经验公式发现系统统。
  (4)统计分析方法
  利用统计学原理对数据库中的数据进行分析,能得到各种不同的统计信息和知识,它是一门独立学科,也作为数据挖掘的―大类方法,包括:常用统计、相关分析、回归分析、差异分析、聚类分析、判别分析。
  (5)模糊数学方法
  模糊性是客观的存在,当系统的复杂性越高,其精确化能力便越低,这就意味着模糊性越强。这是Zadeh总结出的互克性原理。利用模糊集合理论进行数据挖掘[4]的方法有:模糊模式识别、模糊聚类、模糊分类和模糊关联规则等。
  (6)可视化技术[5]
  可视化技术是一种图形显示技术。例如,把数据库中多维数据变成多种图形,这对于揭示数据中内在本质以及分布规律起到很强的作用。对数据挖掘过程可视化,并进行人机交互可提高数据挖掘的效果。可视化方法有以下几种:提取几何图元、绘制、显示和演放。
  
  4 数据挖掘的应用和发展趋势
  
  4.1数据挖掘的应用
  数据挖掘系统在社会生活的许多方而有着广泛的应用,这里我们主要介绍数据挖掘系统在商业、互联网和科学研究方面的应用。
  (1)商业应用
  电子商务应该是数据挖掘应用较早的领域。数据挖掘技术发展到今天,在商业中应用领域主要由有:市场营销、金融、银行、制造和通信等。目前,数据挖掘在零售、金融和通信领域的应用比较成熟,如在零售业中的顾客保持力分析、促销的有效性分析,在金融行业中的贷款偿还预测、客户信用政策分析等。随着人们对数据挖掘技术的不断深入研究,其在商业领域的应用也将更全面、更深入。
  (2)Web挖掘
  随着Internet的迅猛发展,今天它已成为各行各业人们交流思想、获取信息的便利手段。但是这些信息缺乏结构化、组织的规整性,随意地散布在因特网的各个角落,这已成为这座世界性图书馆的一大遗憾。而今天因特网的规模在急剧地扩大,其上的信息量也在爆炸般地增长,这时人们若小有意识地去寻求弥补该缺憾的有效途径,在小远的将来人们将迷途于信息的汪洋中。数据挖掘在Internet上的应用[6]包括:在搜索引擎上对文档进行自动分类、帮助寻找用户感兴趣的新闻以及利用数据挖掘设计一个电子新闻过滤系统。已利用文本学习建立起该用户的趋向模型,当用户进入一份电子报纸的网页时,该系统就会根据学习所得的模型对其中的每一篇文章与用户的兴趣的接近程度进行打分排序,使用户最先看到的是他最感兴趣的新闻。
  (3)科学研究
  数据挖掘在科学研究方面有着广泛的应用,科研工作者利用数据挖掘技术来促进、提高科研工作。数据挖掘在科学研究中的应用主要有生物研究、生物医学研究、气象研究、水文地质研究和考古等。下面从生物医学的角度介绍数据挖掘在科学上的应用[7]。数据挖掘非常适用于医学数据分析这类缺乏先验知识的多维数据分折,特别是在DNA分析、医学图像分析、老年性疾病及其并发症等领域。在DNA分析领域应用最为普遍,研究热点集中在DNA 序列间相似性搜索、多基因共同控制性状表达以及不同基因在疾病不同阶段的功能作用等问题;在医学图像分析研究中, 数据挖掘技术主要用于目标组织的特征表达, 即图像特征自动提取和模式识别。在一系列老年性疾病及其并发症的课题中, 利用数据挖掘技术对生理监护数据进行多维分析也是一类新的研究热点。随着老龄化问题的日益严重, 这方面的研究成果将直接带来巨大的社会效益。
  4.2数据挖掘发展趋势
  (1)改进数据挖掘算法。现有的数据挖掘算法由于历史原因存在种种缺陷,为了提高数据挖掘系统的可用性、可扩展性、高效性,我们需要对一些数据挖掘算法进行改进,需要探索新的挖掘算法,以适应新知识环境下的数据挖掘。例如研究基于约束的挖掘的可伸缩的数据挖掘方法,致力于增加用户交互同时改进挖掘处理的总体效率;针对原有算法不能很好的处理复杂的数据类型,研究复杂数据类型挖掘的新方法。
  (2)应用的探索。目前正探索扩大其应用范围,如生物医学、考古等领域。
  (3)数据挖掘语言的标准化。数据挖掘语言的发展经过了数据挖掘查询语言、数据挖掘模型语言和通用数据挖掘语言或标准数据挖掘语言三个阶段。在通用数据挖掘语言的研究上一件取得了很大的进展,但还远没达到像SQL查询语言的那种通用程度。实用的业界统一的标准语言将是未来数据挖掘语言努力的目标。
  (4)可视化数据挖掘。可视化是数据挖掘的研究方向之一,是从大量数据中发现知识的有效途径。挖掘出来的各种规则是否能以一种简单明了的、图形化的方式表达给终端用户,将直接影响用户对数据挖掘技术的兴趣,也将直接影响到这门技术的发展前景。多维数据的可视化、多维数据挖掘任务的可视化、模式可视化、模式比较和趋势分析可视化是进一步的研究目标。
  (5)Web挖掘。随着计算机硬件和软件的升级,Web数据的结构也将会发生变化,数据量将会更多更复杂。有关Web内容挖掘、Web日志挖掘和因特网上的数据挖掘服务,将成为数据挖掘中一个最为重要和繁荣的子领域。
  (6)数据挖掘中的隐私保护与信息安全。任何事情都有其两面性,数据挖掘领域也不例外,在挖掘数据产生财富的同时,随之产生的就是隐私泄露和信息安全的问题。1995年隐私保护与信息安全成为了数据挖掘的一个研究主题,经过十几年的发展,仍不成熟,在今后是一个研究的热点方向。
  
  5 结束语
  
  随着计算机技术的不断发展,计算机的应用将深入到各个领域,数据挖据也将随着应用到各领域。这要求数据挖掘研究人员不断探索新的应用领域,研究新的发展方向。
  
  参考文献:
  [1]Han, J,Kamber,M.Data Mining:Concepts and Techniques.MorganKaufmann Publishers,2000.
  [2]陈文伟.等.数据挖掘技术[M].北京:北京工业大学出版社,2002(12).
  [3]田苗苗.数据挖掘之决策树方法概述[J].长春大学学报,2004(6).
  [4]旷海兰.基于粗糙集理论的数据挖掘算法研究[D].长沙:长沙理工大学,2006.
  [5]胡永刚.数据挖掘中可视化技术综述[J].计算机与现代化,2004(10).
  [6]宋治国.数据挖掘在Internet有害信息过滤中的应用[D].济南:山东师范大学,2006.
  [7]张世红,许国桓.等.数据挖掘在医学上的应用[J].医学情报工作,2004(6).

猜你想看
相关文章

Copyright © 2008 - 2022 版权所有 职场范文网

工业和信息化部 备案号:沪ICP备18009755号-3