当前位置:首页 > 发言稿 > 【浅谈数据挖掘研究及其应用】数据挖掘用什么软件
 

【浅谈数据挖掘研究及其应用】数据挖掘用什么软件

发布时间:2019-06-28 04:03:26 影响了:

  摘要:数据挖掘技术虽说是一个比较新的数据库技术,但随着应用日益广泛,它得到了很大的关注。该文概述了数据挖掘的相关理论知识,讨论了数据挖掘在两个现实实践中的应用。分析了数据挖掘中的问题及研究方向。
  关键词:数据挖掘;知识发现;分类;聚类;关联规则
  中图分类号:TP311文献标识码:A文章编号:1009-3044(2012)18-4297-02
  Discussion on Data Mining and Its Application
  HAN Tian-peng
  (Fuyang Teachers College, Fuyang 236037,China)
  Abstract:Data mining technology which is a new technology of database, but along with the increasingly wide range of applications, it has received much attention. This article provides an overview of data mining theory and related knowledge, discussed the data mining in two practical application. Analysis of the data mining problems and research direction.
  Key words: data mining; knowledge discovery;classification; clustering; association rules
  随着计算机和网络的普及,在日常生活中人们使用计算机来处理数据的机会也就越来越多,随之由计算机产生的数据也就成几何式增长,而且现在随处使用的办公自动化,在使用过程中进行的自动数据生成和采集功能也越来越多,由此计算机收集的数据量每天在急剧的增多,利用信息技术产生和搜集数据的能力也在大幅度的提高,如何有效的利用处理这些平时看起来无用的数据信息已成为当今世界计算机领域共同关心的热点话题。随着数据库技术,人工智能和数理统计等技术和学科的不断发展和完善,数据挖掘技术在此基础上产生。数据挖掘是一门新兴的多学科交叉研究方向,它紧密的与我们现实生活联系在一起,同时也是现代科学技术发展和人们生活需求的必然趋势。它的基本目标就是从大量的看似无用而用杂乱的数据中提取出隐藏的有用的知识和信息。这一技术自十年前提出以来,引起了许多专家学者的广泛关注,并且在实际的研究过程中把数据挖掘用到了金融、医疗、保健、零售、和政务等各个领域,并且取得了良好的社会经济效益,以此可以看出数据挖掘技术在现实中有着广泛的应用前景和开发前景。
   1数据挖掘概述
  数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。简单来说就是从一些看似杂乱无章没有任何关联的数据中找出数据之间的联系,而这些联系就是信息的体现。
  数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。例如:在超市管理中利用数据挖掘技术,找出商品之间在销售过程中的内在联系,可以增加超市的销售额;在银行系统中可以使用数据挖掘技术对潜在的违约客户进行预判,这样可以减少银行在贷款过程中的风险。从以上可以看出数据挖掘技术在现实生活中的应用越来越广泛。
   2数据挖掘的方法
  数据挖掘的任务主要有关联、聚类、分类、预测和偏差分析等。
  关联规则挖掘表示只要两个或两个以上变量的取值之间存在某种规律,就称为关联。而聚类算法是相似元素的集合,既把一些分布在不同类型数据中但有类似性质的数据放在一起。分类是找出一个类别的概念描述,它表示可以对数据集先进行训练然后根据类别的不同进行分类。分类是利用训练数据集通过一定的算法而求得分类规则。预测是利用原有数据找出其数据之间的规律级关联,然后建立模型,并由此对未来数据的种类、特征及发展趋势进行预测。偏差分析是因为发现数据库中有些数据存在某些不符合要求的情况,寻找结果与参照数据之间的差别,如果这种差别不在允许的范围内需要对这些数据进行降噪处理。
   3数据挖掘的应用
  随着数据挖掘技术的日趋成熟和应用的推广,在生活中数据挖掘技术的应用越来越广泛,一般来说,数据挖掘可以应用在,电信行业用来对客户的流失进行预测,以期能够最大限度的留住客户;银行使用聚类方法细分客户,交叉销售金融产品;电子商务可以利用网站用户注册信息和用户上网习惯进行分析,对注册用户提供独特的服务;警察机关可以使用预测机制对犯罪行为进行分析等等。都体出在这个信息爆炸的年代使用数据挖掘技术可以为我们的生活带来许多的方便,从而提高我们生活的质量和效率。
  3.1数据挖掘技术在新生代农民工发展中的应用
  在现代化进程中新生代农民工的需求层次从生存型向发展型的提升,新生代农民工只有适应国家的工业化、城市化、信息化、城乡一体化的发展要求,逐渐实现自身的现代化,方可获得持续发展的机会和空间。利用数据挖掘技术帮助新生代农民工在进行个人规划,提出具有针对性的措施和建议帮助他们找到自己的薄弱点,从而可以使他们尽快进入工作岗位。利用分类算法,把数据库中在学历、年龄、性别等相似的人群进行分类汇总,然后找出其中占百分比达到某个特定阀值的群体。这部分群体现在的收入、工作区域、工作环境、发展前景等可以作为预判的依据。
  3.2数据挖掘技术在研究增加农民收入中的应用
  利用聚类分析算法是把相似的数据归纳,然后分类给农民以预判的数据,以此来指导农民进行农产品的种植。以进两年我们常见的大蒜产品为例,由于农民信息的不对称造成了大蒜价格像过山车一样,以至于使农民损失惨重。利用聚类算法分析,把近几年某类农产品的种植面积、产品收成、当年产品价格等进行相似性分类,找出在那些条件下产品价格比较高,那些又比较低,以此作为判断的依据。当发现当年的产品已经达到了极限值,就应该大量减少产品的种植,增加当年种植量比较少的产品的种植。以此来避免产品过剩或稀少,防止产品价格的大起大落。这样不但有利于农民的增收而且有利于产品价格的稳定。
  现今,数据挖掘技术已经被应用到人们生活的各个领域,给人们的生活带来了极大的方便。随着数据挖掘技术的不断发展,相信它一定给我们的生活带来巨大的影响。
   4数据挖掘主要问题
  数据挖掘的任务、方法及用户的交互性和数据的多样性,给数据挖掘技术提出了许多挑战性的问题。
  4.1数据安全
  对任何数据的收集都要征得数据拥有者的同意。因为对于任何共享的数据,安全是一个非常重要的问题。在收集用于客户分析的数据时,有些敏感的或比较私密的个人或者公司的信息会被大量的收集、保存、汇总等。数据的保密性和潜在的非法行都是一个具有争议的问题,数据挖掘可以揭示有关个人或团体的某些受保护的信息或只是,都可能有潜在的传播机会。
  4.2数据源问题
  对于数据挖掘来讲,数据源是一个首要的问题。在最开始阶段,数据源都是从一些杂乱的未经处理的数据库来的,这里会包括各种类型的数据,重复的数据,无用的数据等等,这样会产生大量的剩余数据。这些都会对以后数据的分析、挖掘产生影响,所以在进行数据挖掘前,要把这些会产生噪声的数据进行预处理,把冗余、重复的数据进行过滤,留下有用的数据。
  4.3可视化的问题
  数据挖掘是一个知识发现的过程,当发现这些知识后,怎么能够让他们被用户容易接受,如果挖掘出来的信息不能够被用户接受,那数据挖掘就没有了意义。良好的用户界面可以简化结果的解释,帮组用户更好地了解他们的需求。可视化最主要的一个功能是信息的交互,交互式至关重要的,他可以从不同角度、不同的层次描述发现的知识。
  4.4方法的问题
  对于不同的数据、需求可能用多种方法都能够达到结果,但是不同的数据挖掘方法,所针对的数据类型、不同的用户需求是不同的。所以选对正确的方法可以有效的解决数据挖掘中算法时间和空间的有效利用问题。
   5结束语
  近些年来,不同领域的学者和专家利用各种不同的方法和技术对数据挖掘各种算法和应运进行了丰富的研究。取得了丰硕的成果。但是,数据挖掘是一个涉及到多学科多领域的新的研究内容,它还面临着许多待解决的问题,这一切都有待于我们进一步的去研究、探索。
  参考文献:
  [1]周黎明,邱均平.基于网络的内容分析法[J].情报学报,2005(5):594-599.
  [2]贾澎涛,何华灿,刘丽,等.时间序列数据挖掘综述[J].计算机应用研究,2007,24(11):15- 18.
  [3] Fred A L N.Finding Consistent Clusters in Data Partitions,Second International Workshop,MCS 2001 Cambridge,UK,2001:309-318
  [4]纪希禹.数据挖掘技术应用实例[M].北京:机械工业出版社,2008.
  [5]叶云,万明明.网络信息挖掘技术探讨[J].广西大学学报,2007(S1).

猜你想看
相关文章

Copyright © 2008 - 2022 版权所有 职场范文网

工业和信息化部 备案号:沪ICP备18009755号-3