数据挖掘技术的应用初探_数据挖掘技术与应用
摘要 随着计算机技术的高速发展,互联网技术的风靡,从网上获得相关资料已经非常方便。同时,人们积累的数据也越来越多,越来越烦杂,面对庞大而广泛的数据信息,简单的汇总已经无法解决数据分析任务了。为此,一种高端的、智能化的分析和处理大量数据信息的技术应运而生,这就是目前最热门的技术“数据挖掘”,本文将从数据挖掘的概念入手,一步步解析数据挖掘技术。
关键词 数据挖掘;关联分析;聚类分析
中图分类号TP311.13 文献标识码A 文章编号 1674-6708(2010)33-0257-02
1 数据挖掘的概念
随着计算机技术的高速发展,互联网技术的风靡,获得相关资料已经是很方便了。但是人们也积累了大量的数据信息,面对这些庞大的数据,如何从中提取有用的信息成为当务之急,为此,数据挖掘技术应运而生。数据挖掘(Data Mining)是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的,人们事先不知道的,但又是潜在有用的信息和知识的过程。数据挖掘是发现知识的关键步骤。
2 数据挖掘的作用
2.1 关联分析
关联是反映两个或者两个以上事件之间存在某种依赖或联系规律性。关联规则挖掘是由Rakesh Apwal提出来的。在数据库中,如果存在一项或多项之间的关联,则其中一项属性值能够依据其他属性值进行推测。关联分为简单关联、时序关联和因果关联。关联分析的目的是找出数据库中所有频繁项目集,这是数据挖掘中最成熟的技术之一。例如:每天购买洗发水的人也有可能购买肥皂,比重有多大。
2.2 聚类分析
聚类分析是把数据按照所选样本的关联相似性划分成若干小组,同一小组中的数据具有较高的相似度,不同组中的数据则相异,即同组中的相似性尽可能大,而组别间的相似性尽可能小。聚类事先不知道组别数和各组的相似特性。聚类分析可以发现数据的分布模式,以及可能的数据属性之间的相互关系。例如:将学生分为成绩优秀的学生,成绩中等的学生,成绩差的学生。
2.3 分类
分类就是按照以前数据库中的数据,分析它们的属性、特征,找出一个类别的概念描述,并利用这种描述构造模型,每个类别都代表了本类数据的整体信息,一般用规则或决策树模式表示。分类事先知道类别数和各类的典型特征。例如:学校根据以前的数据将教师分成了不同的类别,现在就可以根据这些来区分新教师,以采取不同的待遇分配方案。
2.4 预测
预测是利用历史和当前的数据找出变化规律,推测未来数据的种类及特征。预测是以时间为关键属性的关联规则。例如:对未来经济形势的判断。
2.5 偏差分析
数据库中的数据存在很多异常情况,偏差是对差异和极端情况的描述,发现数据库中数据偏离常规的异常现象,揭示内在原因。例如:在本次数学测试中有30%的同学不及格,教师为了提高教学质量,就要找出这30%不及格同学的内在因素,提高及格率。
3 数据挖掘的流程
3.1 定义目标
为了避免数据挖掘的盲目性,首先就必须清晰地定义出业务问题,确定数据挖掘的目标。挖掘的目标明确了,但结果是不可预测的。
3.2 数据准备
1)数据选择。在大型数据库和数据仓库目标中搜索有关的内、外部数据信息,提取适用于数据挖掘的数据;
2)数据预处理。研究数据信息,进行数据的加工、集成等,去除重复的数据信息,选择要进行数据挖掘的数据,并定义数据类型;
3)数据转换。数据转换决定数据挖掘能否成功,数据转换就是将数据转换成一个针对挖掘算法的模型。
3.3 数据挖掘
根据数据功能的类型和数据的特点完善和选择合适的挖掘算法,对所得到的经过转换的数据进行数据挖掘。
3.4 结果分析
解释和评估数据挖掘的结果,最终转换成用户能够理解的知识。
3.5 知识的同化
将分析所得到的知识集成到业务信息系统的组织结构中去。
4 数据挖掘的应用
4.1 数据挖掘技术在市场营销中的应用
数据挖掘技术普遍应用于市场营销中,假定“以往消费者的行为是未来消费者的消费理念的直接解释”,以市场营销学的市场细化原理为基础。通过收集、整理消费者以往的消费信息为数据信息,总结消费者的特点及兴趣爱好,根据不同的属性分类,推测出类似消费群体的消费行为,对不同类的消费群体进行定向营销,这样降低了营销的盲目性,节省了营销成本,提高了营销效率,为企业创造出更多的利润。
在经济发达国家和地区,许多企业都利用数据挖掘技术对数据信息进行加工处理,针对不同的消费群体,发出不同的营销材料,以突出自己的竞争优势,扩大产品的营业额。
4.2 数据挖掘技术在商业银行中的应用
数据挖掘技术广泛应用于金融界,金融事务搜索大量的数据信息,对这些数据进行加工处理,发现其特征,从而发现不同类别客户的特点,评估其信誉,推测其需求。商业银行所作业务的利润与风险是并存的,为了保证最大利润和最小风险,必须对客户的账户进行科学精确的分析归纳。
美国银行使用数据挖掘技术工具,根据不同消费者的特点制定不同的产品,增强其竞争优势。
4.3 数据挖掘技术在医学上的应用
数据挖掘技术在医学上的应用相当广泛,可以利用数据挖掘技术手段来提高从药物的生产制造到医疗诊断等的效率和效益。在药物生产方面,通过对药物分子结构的分析,可以确定是什么成分对病患的治疗发挥了作用,从而推测出该药对什么病有治疗作用;在医疗诊断方面,通过对基因的分析处理,可以确诊是什么发生了病变,属于哪种病毒等。
4.4 数据挖掘技术在欺诈甄别中的应用
银行或者商业上经常发生欺诈行为,给银行和商业单位带来了不可估量的损失。通过数据挖掘可以对这种欺诈行为进行预测,总结各种诈骗的行为特征,提醒广大人们注意。
5 结论
数据挖掘技术是一个全新的研究领域,每年都有新的数据挖掘方法和模型产生,随着数据库等技术的发展,数据挖掘技术的应用领域将会更加广泛和深入。尽管如此,数据挖掘技仍然存在许多问题需要解决,尤其是超大规模数据挖掘的效率有待提高。
参考文献
[1]李雄飞,李军.Data Mining and Knowledge Discovery.数据挖掘与知识发现[M].北京高等教育出版社,2003.
[2]陈京民,等.数据仓库与数掘挖掘技术[M].北京工业电子出版社,2002.
[3]王玮,蔡莲红.关联规则的高效挖掘算法研究[J].小型微型计算机系统,2002,48-52.
