浅析数据挖掘技术在学校教学中的应用 数据挖掘第三版答案pdf
摘要:随着数字化和信息化的不断发展,传统的教学模式已经无法满足现代教育发展的需求,搜集、整理大量教学数据信息需要新方法和新思路,传统方法不仅消耗时间精力,操作也十分繁琐,因此数据挖掘技术逐渐出现在人们的视线中。该文通过对数据挖掘技术进行分析,针对数据挖掘技术在学校教学过程中的应用提出一些个人观点。
关键词:学校教学;数据挖掘技术;应用
中图分类号:G632文献标识码:A文章编号:1009-3044(2012)17-4177-03
1数据挖掘技术
数据挖掘始于上世纪90年代,是一门发展速度较快的交叉学科,数据挖掘技术包括人工智能、神经网络、数理统计、模式识别、数据库、粗糙集等技术学科,数据挖掘能够从大量数据中挖掘到隐含的、未知的、用户可能感兴趣的、对决策存在潜在价值的知识及规则,数据挖掘过程又称为知识发现,基本功能主要为分类、估计、预测、关联分组、聚类、建档、描述等。数据挖掘的对象较多,主要包括数据库、图像等各种结构化和非结构化的信息、文本等,有时无法直接对其进行分析,因此要通过以下步骤进行:第一,选择数据。数据挖掘过程中所有需要的数据来源可能都不相同,可以通过不同的异数数据源来获取数据;第二,预处理。在初始数据中,会有一些不符合形式处理或是出现偏差的例外,因此要对这些数据进行修正和剔除,为后期数据处理的正确性奠定基础;第三,变换。将不同数据源获得的数据转换为同一种格式,可以利用编码或是其他一些方式来简化表示形式;第四,数据挖掘。利用数据挖掘算法,对变换之后的数据进行挖掘并产生期望的挖掘结果;第五,解释或评价。将数据挖掘之后的结果用适当的方式移交给用户。
数据挖掘技术的应用十分广泛,在电信业、农业、工业、金融业等各个领域都得到了广泛的应用。数据挖掘方法主要为关联规则、决策树、聚类分析以及遗传算法、神经网络等,关联规则和决策树是使用频率最多、范围最广的两种方法。关联规则是数据挖掘最先研究的问题之一,也是数据挖掘中最成熟、最主要的分析方法之一,能够揭示出数据之间的隐含关系。关联规则首先要对数据库中的一组对象进行关系分析,然后通过置信度和支持度来进行筛选,最后得出被认为具有价值的事实或是规律,例如购物篮的分析中,通过对销售数据的分析发现一些客户的购物习惯及规律。利用关联规则最经典的是由R . Agrawal , Hnielinski , Swam等人在1994年提出的Apriori算法,在生成特定关系候选项目集的基础之上,对数据库进行扫描,并确定候选项目是否满足要求。
决策树算法主要用来解决分类问题,通过对数据进行归纳和学习,将分类过程在构建的一棵树上进行建模,完成后,便能够应用在数据库中的元组得到分类结果,树中每一个内部节点都表示了一个属性值的检验,分支便表示检验结果,树的叶节点代表类别。
通过上文的分析可知,数据挖掘技术具有以下特点:第一,数据处理规模较大;第二,挖掘出的知识无法预知;第三,在发现潜在规则的基础上,要维护并管理规则;第四,规则的发现是在大样本统计规律的基础之上,且当置信度达到某一标准时,便认为规则成立。
2常用的数据挖掘技术
2.1关联规则
关联规则是指各个数据项之间相互依存的关系,发现规则的任务为从数据库中发现一些置信度、支持度大于定阈值的强关联规则,在大型数据库中,每个字段之间都存在着多种多样的关系,且都隐藏在数据库包含的信息中,关联规则的目的即为找出数据项之间隐藏关系。用来描述关联规则挖掘问题的数据模型为:令I={i1,i2,i3,……,in}为属性可能取值,也称为数据项集,模型中ik(1≤i≤n)为数据项,I中的元素个数即为数据项集的长度,如果长度为n的数据项集,便成为n维数据项集(n-Item-set)。例如关联规则的蕴含式为X→Y,且X,Y包含于1,且X∩Y=ψ,则规则X→Y在事务集合D中成立。一般情况下,用置信度和支持度来描述规则属性:置信度指如果D中包括C%的X事务,且同时也包括Y,则C是关联规则X→Y的置信度,置信度即为出现了数据项集X的事务中,Y相集同时出现的改了,置信度C%=The number of Transactions(X∩Y)/The number of Transaction(X)。换言之,只要数据库中出现了X,那么Y出现的可能先变为C%;支持度指如果D中有S%的事务既包括数据项集X,也包括数据项集Y,那么S%即为关联规则X→Y的支持度,支持度S%=The number of Transactions(X∩Y)/The number of Transactions(D)。支持度越大,便说明X和Y在数据库中出现的机会越大。本着发现有意义关联规则的原则,需要给出两个阈值——最小支持度和最小置信度。关联规则对给定事务集合D中所有产生满足最小支持度及最小置信度的关联规则进行挖掘,可将关联规则挖掘分为两个子问题:1)根据最小支持度,找出在数据集D中所有出现的频繁项目集,此为关联规则挖掘的中心问题,也是衡量关联规则算法的一项标准;2)根据频繁项目集以及最小置信度来形成关联规则。
2.2决策树算法
决策树算法是较为常用、直观、快速的一种分类方法,决策树算法即创建一个树状结构,根据不同层次对结点进行分类,每个节点都对应一个样本集,根节点要对应整个样本集,内部节点应对应一个样本集,叶节点对应一个类标志,然后根据结点包含的样本属性进行测试,并依据测试结果,将样本集进行划分,划分出两个或两个以上的子集,每一个子集生成一个分支,并用测试属性值来对分值进行标识,叶节点包含一个类标志,表示与之相对应的样本集类别。常用的决策树计算方法有:1) ID3算法,此为最著名的一种决策树算法,采用的是贪心搜索选择分裂的特征和信息理论;2) C4.5算法,此为ID3算法的改进,也是基于信息增益比的特征选择策略以及最小描述长度的剪枝方法的首次提出,增加了缺失数据以及对连续性属性的处理策略,并对分类规则的推导方法进行提出,对连续性属性采用的是安全搜索二分法,对于离散型属性,采用的是多分法;3) EC4.5算法,此种算法是C4.5的改进算法,在效率上较C4.5有一定的提高。除此之外,决策树算法还包括很多其他算法,在处理不同的数据库数据时,要结合数据库特征来选择算法。
2.3聚类分析算法
一般情况下,人们对事物进行认知采用将认知对象进行分类的方法,分为同一类的事务一般都具有较多的相似特征,聚类的任务即在没有训练数据样本时,根据对象自身相似性将一组对象划分成为一系列具有意义的子集。经常使用的聚类划分方法为:K-means算法、PAM算法以及CLARA算法和CLARANS算法等,较为经典的聚类分析算法为K-means和扩展算法,即将对象D划分为一组聚类{C1,C2,……Ck},始终K是要得到的聚类个数,此种算法将一个对象最多分为一个聚类,每一个聚类都是全体对象的子集之一。聚类指本着找到一组聚类中心及隶属矩阵的目的,让目标函数值趋近于最小,因此为了能够解决函数值最小的问题,可以采用K-means中的爬山算法,即首先随机选择K个初始聚类中心,将每一个对象都分配给离它的据点,得到一组聚类,然后对当前每一个聚类中心进行计算并作为新聚点,将每个对象重新进行分配,分配要离对象最近的聚点中,如此循环计算,直到满足终止条件位置。
3数据挖掘技术在学习特征分析中的应用
在现代教育理论的指导下,教学设计是一套能够促进学生学习、发展的系统化程序,也是在教学问题求解过程中,侧重和问题求解中方案的决策、寻找过程,其中,学习者的学习特征分析是重要的组成部分之一,我们所说的学习特征,即学生的学习风格、习惯、准备状态等,虽然和具体学科的内容并没有直接联系,但是对教学者的内容组织、选择,教学方法的选择等都能够产生一定影响,因此通过对学习者的学习特点进行分析,能够明确学生的初始能力,从而确定下学习的起点,为选择教学内容、方式方法提供参考。在利用数据挖掘技术对学习者学习特征进行分析的过程中,首先要对于学习者相关的信息和数据进行收集并整理,然后本着提高学习能力、规范学习行为、帮助学习者的目的来选择数据挖掘的方法,例如关联规则法或是决策树法,根据对学习者信息和数据的分析,能够挖掘到学习者的学习风格、习惯等,通过与教学专家进行交流或寻求帮助,能够利用数据挖掘法挖掘到的规则来确定质量的好坏,可以采用聚类分析法来对学生进行分类,然后根据结果对学生再次进行关联规则法的挖掘,或是决策树法的挖掘,便能够了解学生未来发展方向,指导学生进行专业或课程的选择,对具有潜力的学生进行激发,提供一些锻炼和学习的机会,有针对性的、实际性的进行教学,从而培养出不同层次、不同方面的人才。
4数据挖掘技术在教学决策中的应用
利用数据挖掘技术来辅助教学过程中的决策,主要表现在以下方面。
4.1合理设置课程
合理设计课程,即将课程之间的结构安排合理,包括开设的课程、课程的先后顺序、课程之间的衔接等,通过将课程进行合理设置,能够让学生通过学习课程,具备相应的知识和能力。由于课程的开设本身就具有一定程度的潜在关联和顺序,因此通过数据挖掘技术能够将潜在关联、顺序进行明确,从而找到设置课程的依据,调整课程之间的顺序,达到最佳教学效果。
4.2改进教学方式方法
在教学过程中,教师会通过运用各种方式方法来完成教学任务,并达到最佳教学效果,但是何种教学效果才算是最优效果,何种方式方法能够达到最优效果还尚不明确,因此要通过对积累的大量教学数据进行数据挖掘,来明确教学的方式方法及效果。利用数据挖掘技术的分类和聚类方法首先对学生的具体情况进行分析,然后利用回归线和关联规则的方法来判断不同专业、特征的学生应当采取怎样的方式方法进行教学,以及教学内容的深度和广度等,让教师能够通过数据挖掘技术,了解不同教学对象应当使用的教学方法、内容、手段等,用发展的眼光来看待教学方法,不断更新教学手段,激发起学生的学习兴趣,从而提高教学质量。
4.3合理化考试
考试作为教育教学活动中的重要环节,能够检验学生知识和能力的掌握理解程度,随着教育改革进程的不断加快,考试也应当随着教育的不断发展而变化,教师在教学过程中不能因为考试而教学,也不能因为教学而考试,考试仅仅是教学活动中的一个组成部分。考试的内容和方法要根据教学的目标、内容、方法来确定,因此想要让教学和考试能够和谐发展,相互促进,共同提高,就必须要利用数据挖掘技术来辅助教学决策,提高评价、考试的合理化。
5数据挖掘技术在教学评价中的应用
所谓教学评价,即根据教学目标中的要求,通过测量的工具或方法对学生学习结果进行量化描述,并对量化结果进行价值判断。教学评价是教学管理中的重要环节之一,也是引导教育、利用教育成果、促进教育发展的重要保障,但是在传统的教学评价方法中,有许多缺陷,主要表现为:第一,主观因素过多,无法真实反映出客观实际问题,由于教学管理部门采用的评价手段并不全面,因此获得的教学评价数据也并不充分,多数教学管理部门都依据经验来进行评价,让自身的主观因素来决定评价的结果;第二,内容和形式过于简单,无法反映出教学中深层的问题,在内容方面,统计出来的数据不够全面,直接或间接的影响教学效果的因素,如学生的基础、教学的环境、课程的设计等都没有表现出来,且在形式上也较为单一,多采用学生打分、网评、教师互评、考试成绩等,因此,制定评估指标时,也忽视了对以往数据中隐藏信息的利用,导致教学评估评价的制定没有历史依据,仅仅是单纯某次评估的结果,无法反映出分析数据的结果,以及教学过程中存在的问题;第三,无法起到教学评价应当具有的作用,通常来讲,教学评价仅仅为了评优、晋升等活动的依据,但是实际上,教学评价的作用远不仅如此,客观的、良好的教学评价能够在教学过程中发挥出积极的、正面的作用,并能够在整体上调节、激励、促进、控制教学活动的进行,保证教学活动能够实现最终目标。因此,通过数据挖掘技术对学生成绩、基本信息、评价信息中的数据进行处理,能够进行深层的数据分析,并发现各因素之间的关联性关系,从而找到隐藏的规律以及对教学效果产生影响因素之间的关系,综合的评定、评价教学成果,保证评价的全面、多元、科学、可靠以及客观公正,促进教学水平和质量的整体提高。总之,建立起合理的教学评价体系,能够强化学校教学管理,提高教学质量,促进教学基本建设,促进专业课程建设,促进师资队伍建设,从而提高学校凝聚力,增强学校竞争优势。
6结束语
综上所述,我们可以通过利用数据挖掘技术来明确各个要素之间的隐藏关联关系,通过将数据挖掘技术应用在学校教学中,能够挖掘学习者的学习特征、辅助教学决策、帮助教学评价。笔者在对数据挖掘技术进行分析和研究的基础之上,首先对两种常用的数据挖掘技术——关联规则和决策树进行叙述,然后针对数据挖掘技术在学校教学中的应用提出一些个人观点,相信在不久的将来,数据挖掘技术能够代替以往传统的数据分析技术,帮助学校教育适应现代化教育的潮流,紧跟现代化教育的脚步,提升学校教学水平。
参考文献:
[1]李瑞林.数据挖掘技术在教学过程中的应用[J].制造业自动化,2010,9(73).
[2]唐仕敏.数据挖掘技术在高校教学中的应用[J].产业与科技论坛,2011,1(38).
[3]贾成兵.浅谈数据挖掘技术在教学中的应用[J].华章,2008,3(38).
[4]冯丽霞.数据挖掘技术在学校教学中的应用研究[J].甘肃科技,2009,2(94).
