当前位置:首页 > 思想汇报 > 数据挖掘技术与应用【数据挖掘技术在高校学生管理中的应用】
 

数据挖掘技术与应用【数据挖掘技术在高校学生管理中的应用】

发布时间:2019-01-11 04:02:39 影响了:

  摘要:数据挖掘技术是一种新的信息处理技术。其目的是从海量数据中抽取潜在的,有价值的数据规律或数据模型。通过数据挖掘技术对高校教学数据的分析处理,能够形成真正有价值的知识,向决策者提供信息支持,有利于推动学校教学改革和建设的全面发展。本文提出了现代高校学生管理工作的新模式,并就一个管理决策的应用模式进行了实例分析。
  关键词:数据挖掘;学生管理工作模式;关联规则;高校教学方法
  中图分类号: TP311.13 文献标识码:A 文章编号:1009-3044(2007)18-31725-02
  Data Mining on the Application of College Students" Management
  WANG Xiao-yan,CHENG Zhi-mei
  (College of Mathematics and Information Science,East China Institute of Technology,Fuzhou 344000,China)
  Abstract:Data Mining is a knowledge discovery technology that extracting valuable rules or models from huge raw data. With the help of data mining technology on the decision support system for the educational administration, the administrator can get much valuable knowledge about the data of the university education. Educational information through data mining technology for the analysis and can form a truly valuable knowledge and provide information to policy makers, and is conducive to promoting the all- round development of school education reform.In this paper new applied patterns of the modern college student s’management are presented and analyzed with anexample.
  Key words:data mining;pattern of students" management;Association Rule;University"s teaching method
  
  1 问题的提出
  
  在现代科学技术推动下,高校教学管理正朝着“规范化、信息化、网络化”的方向发展。其职能从事务型、管理型向学习型、研究型、服务型、创新型转变, 并为学校的决策、管理、改革和建设提供详尽的数据支持。如何从复杂信息中及时发现有用的知识,为学生工作者实施因材施教提供决策依据。如何开发利用这些数据,理性地分析教学中的各方面的成效得失是广大教师共同关心的问题。如果能够找到影响学生学习成绩的因素,必然有利于教学质量的提高。
  
  2 解决方案
  
  2.1 数据挖掘
  数据挖掘(DM ,Data Mining)就是从大量的、不完全、有噪声的、模糊的、随机的数据中,提取隐含在其中的,人们事先不知道的,但又是潜在有用的信息和知识(模型或规则)的过程,是一类深层次的数据分析方法。它是一门交叉学科,包括机器学习、数理统计、神经网络、数据库、模式识别、粗糙集、模糊数学等相关技术。将数据挖掘技术应用于教学评价无疑是非常有益的,它可以全面地分析考试结果与各种因素之间隐藏的内在联系。
  2.2 数据挖掘过程
  数据挖掘过程包括对问题定义、数据收集、数据处理、数据变换、数据挖掘、模式评估、知识表示等过程,以上的过程不是一次完成的,其中某些步骤或者全过程可能要反复进行。
  第一步,确定挖掘对象、目标清晰地定义出问题,认清数据挖掘的目的是数据挖掘的重要一步。挖掘的最后结果是不可预测的,但要探索的问题应是有预见的。
  第二步,数据采集这是一个工作量较大,占据时间较多的阶段。教师需要在以往的教学实践中,注意收集数据信息,有些数据的产生可以直接获得,有些数据需要对学生进行调查获得。
  第三步,数据转换将教师收集的不同数据信息集成并转换为一个分析数据模型,这一数据模型是针对算法而准备的,不同的算法可能需要不同的分析数据模型。
  第四步,数据分类挖掘的目的是为了建立一个分类模型。首先要选择合适的挖掘算法,并使用合适的程序设计软件实现这一算法;接着对经过转换的数据进行挖掘。
  第五步,分类规则结果分析这一步主要解释和评估分类结果,借以改进教学策略。
  第六步,模式评估对发现的规则、趋势、类别、模型进行评估,从而保证发现的模式的正确性。
  第七步,知识表示将挖掘结果以可视化的形式展现在用户面前。
  2.3 数据挖掘在学生管理决策中应用的主要功能
  数据挖掘的主要功能有关联分析,分类与预测,聚类分析,孤立点分析和演变分析等等。在此我们以关联分析技术为例,研究分析在学生管理决策中的应用。
  关联分析目的在于发现关联规则,这些规则揭示属性与属性值在数据集中一起出现的条件。比如在学生行为管理中,学生工作者要想知道学生行为之间的关联关系,就可以采用此方法计算在相关学生行为数据中频繁出现的行为数据集,这些数据集构成频繁出现的数据组,此数据组描述了学生行为之间的相互联系,学生工作管理者根据学生表现出A,B 行为时,预测可能会发生C 行为,并以此为依据作出合理的管理决策。
  
  3 基于关联规则数据挖掘在教学系统中的应用
  
  3.1 关联规则的基本挖掘算法简述
  关联规则的挖掘最基本的算法是由Rakesh Agrawal 最早提出的Apriori 算法[1,2]。其中引入支持度(support)和置信度(confidence)[1,2]两个概念来描述用户对挖掘出来的规则的感兴趣度。通过遍历一大堆事务数据中,从一个一个的单个项开始记数,每次遍历完所有的事务后,裁减掉支持度记数少于用户给定的支持度的项,然后逐步扩展到多项事务。最后保留下来的频繁项集,通过子集产生法来产生关联规则,然后去掉其中置信度低于用户指定的最低置信度的关联规则,最后剩下的就是满足用户需要的关联规则。
  3.2 架构于Oracle 数据库系统的挖掘系统核心
  常规的C/S或者B/S数据库应用系统的数据逻辑处理通常都是放在应用服务器层上,而主要把数据库当成一个数据存储介质来进行管理,通过专门的程序编程语言提取数据库中的特定数据,进行处理后再返回给数据库。
  Oracle数据库是一个十分完备的数据存储,数据转换,数据应用的中心系统。数据挖掘系统往往需要进行整个数据表,海量数据的遍历扫描,将尽量多的整体数据转换过程和处理过程放置于数据库系统内执行,效率普遍高于放置于应用服务器层[4]。
本文为全文原貌 未安装PDF浏览器用户请先下载安装 原版全文   现行很多常用的J2EE数据库服务系统通常都是多层架构,类似于上图1,中间应用层是多层架构。这样的多层次架构是以应用服务器为中心的服务,尽量隔绝数据层,除了使得系统更有通用性,移植性外,还可以进一步减轻数据库的负担[5]。但是,常规的J2EE 数据库服务架构并非是针对大规模数据处理为中心,而是数据应用为中心。在针对海量数据遍历的时候,采用常规以应用服务器为中心,则导致应用服务器和数据库之间很多不必要的数据交换。将这些大规模数据处理架构于数据库系统在进行,还能利用数据库系统内部很多优化的处理函数以及存储过程[4,6,7]。Oracle数据是一个十分完备的数据系统,除了数据存储和查询外,可以通过编写一系列的存储过程,触发器来实现数据内部的处理和转换。
  图1 以应用服务器为中心的数据库应用系统
  图2 以数据库系统为中心的数据库应用系统
  关联挖掘所需要的数据预处理以及挖掘算法使用SQL语言,以及PL/SQL 脚本[6]编写的处理代码,存放于Oracle 数据库自身进行解释执行,数据并不离开Oracle数据库,其数据库内部的各种优化处理大大提高了其数据转换的速度。而应用服务器只需要做启动数据库内的各种存储过程和接收最后的关联规则即可,完全可以不参与关联挖掘过程的数据处理。
  3.3 学生管理工作新模式
  该模式是一个闭合学生管理流程,通过学生浏览网站,收集大量的、复杂的学生历程信息,运用数据挖掘技术进行相关分析,找到育人管理的措施,体现真正的因材施教管理过程。从技术角度上分析采用动态网站(如ASP、PHP、ASP. Net)基于Browser/Server模式的三层体系结构和相应的数据挖掘方法就可以实现。学生管理工作模式基本框架如图3 所示。
  图3 学生管理工作新模式基本框架图
  3.4学生行为预测应用实例
  (1)问题提出
  当知道学生有A,B表现时,教育管理者想知道学生可能会发生C行为或取得成绩D。
  (2)数据分析方法
  关联分析的数据挖掘。
  (3)算法运用描述
  建立了学生行为数据库后,运用Apriori,AprioriTid 或AprioriHybrid 算法发现大的行为项目集,然后利用关联规则产生算法,产生行为关联规则[1]。
  (4)问题定义
  假设在基于网络环境的VB教学设计网站上建立信息管理系统,该系统收集了大量学生在校期间发生行为的信息记录,称每一个学生行为历程记录为一个事务,所有事务构成事务数据库D;每一个行为称为一个项目item,所有的行为构成项目集I。以一组学生行为信息如表1为例运用关联规则进行分析表2:
  表1 事实数据表
  表2 关联数据表
   3.5 结果描述
  数据挖掘将获取的信息以便于用户理解和观察的方式反映给用户,这时可以利用可视化工具。对于DM系统的挖掘结果,可以用自然语言、图形、表格等多种方式进行表示。在本系统中采用表格形式表示。设minsupport 为3 ,minconfidence70 %,{ B1 ,C1 ,D1}导出如下关联规则:学生如果道德素质好,且遵守纪律好,则该学生工作能力强(B1C1=> D1);但观察事实表会发现这种判断的精确度只有75%,因为学生4工作能力就差。当然导出规则还含有诸如B1D1=> C1 等关联规则。
  
  4 结束结
  
  因为关联规则挖掘算法需要遍历所有的数据信息,如果是海量数据,那么常规的以应用服务器为中心的数据处理架构在关联挖掘算法上显得不太容易。本文通过应用实例分析,介绍一种以Oracle数据库为核心的数据处理架构,能够比较高效地实现关联规则的挖掘,同时这种实施架构依靠Oracle数据系统的处理环境,具有较强的伸缩性,可以应对海量数据。学生工作者管理育人提供重要的、极有价值的信息或知识,从而产生不可估量的作用,在高校学生管理工作中推广应用是有现实意义的;需进一步研究的是运用数据挖掘技术开发智能学生管理育人系统。
  
  参考文献:
  [1]董彩云,曲守宁.数据挖掘及其在高校教学系统中的应用[J].济南大学学报,2004.
  [2]张梅峰,张建伟,张新敬,等. 基于Apriori 的有效关联规则挖掘算法的研究[J].计算机工程与应用,2005,39(19):196- 198.
  [3]刘红岩,陈剑,陈国青. 数据挖掘中的数据分类算法综述[J]. 清华大学学报( 自然科学版),2002;42 ( 6):
  [4]邵兴江. 数据挖掘在教育信息化中的应用空间分析[EB/OL] . http :/ / www. zjedu. org/ xdjyjs/ 107/64781thm.
  [5]张智军,方颖,许云涛. 基于Apriori 算法的水平加权关联规则挖掘[J].计算机工程与应用,2002,39(14):197- 199.
  注:本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文。
本文为全文原貌 未安装PDF浏览器用户请先下载安装 原版全文

猜你想看
相关文章

Copyright © 2008 - 2022 版权所有 职场范文网

工业和信息化部 备案号:沪ICP备18009755号-3