当前位置:首页 > 申请书大全 > 聚类分析技术在数字图书馆服务中的应用:数字图书馆的建设技术有哪些
 

聚类分析技术在数字图书馆服务中的应用:数字图书馆的建设技术有哪些

发布时间:2019-06-23 03:58:03 影响了:

  摘要: 聚类分析模型是数据挖掘手段之一,对图书馆自动化系统中保存的大量流通历史数据进行数据挖掘,可以揭示隐藏在数据背后的读者阅读倾向的变化,提升图书馆服务质量和服务水平方面的发挥的重要作用。
  Abstract: Clustering analysis model is one of the data mining methods. The data mining of the large amount of circulation historical data in library automation system can reveal the change of readers" reading trend, and play the important role in improving the library service quality and service level.
  关键词: 数字化图书馆;数据挖掘;聚类分析;读者行为特征
  Key words: digital library;data mining technology;the cluster analysis;readers behavioral characteristics
  中图分类号:TP39 文献标识码:A 文章编号:1006-4311(2012)24-0208-02
  0 引言
  数字图书馆作为人们学习、研究的信息重要中心,在人们心目中有举足轻重的地位。图书馆的采购结构合理的图书资料、满足广大读者的阅读个性需求,一直是人们对图书馆的工作期待。数据挖掘在图书馆系统的使用,为读者和图书馆馆员带来工作上的不少便利,同时系统中也存储了大量的读者阅读行为历史数据,而这些历史数据是量大、随机的、模糊的、有噪声及不完全的,可用信息往往被淹没其中,因此需要们对这些数据进行有目的聚内、挖掘,从数据中聚内、提炼出读者的阅读倾向等有用的信息,可作为图书馆服务决策工作提供支持。对于数据挖掘在图书馆系统的使用,已有不少文学[1-6]做了研究;本文以宝鸡学院图书馆图书管理系统的产生历史数据为背景,应用聚类分析原理及方法,从数据中聚内、提炼出读者的阅读倾向,为图书馆给读者提供个性化服务提供支持。
  1 数据挖掘实例操作
  在图书馆系统中,存在大量的借阅数据,通过对读者的借阅次数进行聚类分析,可得到哪些读者借阅频率较高,哪些读者的借阅频率较低。下面根据图书管理系统的实际数据,应用上面的挖掘过程和步骤,做了实际挖掘实验。
  1.1 数据的清理与准备 依据宝鸡职业技术学院图书管理系统提供的历史数据,提供的数据主要有读者姓名、系别、借书证号、借阅时间外,还有借阅总量、当前借阅量、借阅时间和诚信记录等信息。抽选取2000-2006年的图书分类流通的历史数据,踢除其中与聚内关系不大的属性,如图书的借阅馆员编号、馆藏地点等。首先要以ISO格式将其中的数据通过系统自带功能导出,然后以EXCEL格式把自带的软件进行转换,再进行数据清理和准备(在SQL Server 2000中)。删除存在聚内关系不大的不完整和含噪声、冗余空缺数据及注销了图书证的读者信息数据,即所谓的“脏数据”[5]。为了抓住要害,这里只选取其体现目标的几个关键字段,cardnum:借书证号,depart:读者单位,rname:读者姓名,rtype:读者类别,sumb:借阅总量,利用全部231954条借阅历史数据记录中的一部分进行聚内分析。
  1.2 模型的测试和检验 进行了数据清理后,为了得到更加准确的关联规则,首先可以对模型进行测试与检验。
  检验构想:训练和测试数据挖掘模型需要把数据至少分成两个部分:一部分用于模型训练,另一部分用于模型测试。如果使用相同的训练和测试集,那么模型的准确度就很难使人信服。用训练集把模型建立出来之后,就可以在测试集上先试验一下,此模型在测试集上的预测准确度就是一个很好的指导数字,它说明如果将来与训练集和测试集类似的数据用此模型预测时,正确的百分比会有多大。
  检验方法:把数据分为两部分,随机抽取原数据记录中的80%用来构建模型,将余下的20%用来修正和检验。将两个不同样本量水平下得出的关联规则进行比较,若两者差别不大,即可认为数据质量较好,可以进行实际模型的建立。通过检验可以看出,两者结果比较一致,特别是重要的规则是相吻合的,可以认为数据质量较好。下面将数据重新汇总,进行实际模型的建立和关联规则的挖掘。
  1.3 读者与各类图书之间的关联规则挖掘 在我们的图书借阅关系数据库中,数据是以多维形式定义存储的,不仅记录了有关每册被借阅图书的详细信息,也包含了一些有关读者的附加信息,如:读者专业、读者年级、图书借阅时间等。如果将数据库中的这些属性看成谓词,那么挖掘包含两个或多个谓关联规则就称为多维关联规则。
  下面进行关系数据库中图书和借阅该类图书的读者之间的关联挖掘。我们还是以转换为二元数据的数据集为基础进行分析,它的数据主要有按中国图书馆分类的A,B……Z等22类图书类别变量。读者属性(群体)数据是指读者所在院系、读者年级,借书月份等信息。由图1挖掘出的规则,我们可以把读者借阅的模式分为五种类型,接下来的问题就是要找出每种借阅模式下所对应的读者信息,以更好地了解读者借阅行为的特征。五种模式分别是:
  R1模式:借阅T工业技术和F经济类的读者;R2模式:借阅T工业技术和H语言类的读者;R3模式:借阅O数理化和F经济类的读者;R4模式:借阅G文体科教和B哲学宗教类的读者;R5模式:借阅J艺术和K历史地理类的读者。
  将图书借阅模式的数据作为规则的附件,读者专业、读者年级和图书借阅月份等背景信息数据作为规则的前件进行挖掘,确定一个理论上合适的挖掘模型。具体的操作方法是:(以模式R1为例)在字段选项中的导出栏将输出结点命名为T-F,在“导出为”栏中选择标志,判断条件的设置为“F=1 and T=1”,表示当读者借阅了F类和T类图书时该读者的借阅行为便属于模式R1。

猜你想看
相关文章

Copyright © 2008 - 2022 版权所有 职场范文网

工业和信息化部 备案号:沪ICP备18009755号-3