【Ｗｅｂ数据挖掘研究】数据挖掘 python

发布时间：2019-01-10 04:16:24　影响了：人

　　摘要：网络资源的迅速增长使Web挖掘研究日益重要，文章介绍了Web挖掘的概念、流程以及分类，并从挖掘对象、方法、过程等方面分别对Web内容挖掘、Web结构挖掘、和Web使用挖掘进行详细的阐述。
　　关键词：数据挖掘；Web；Web内容挖掘；Web结构挖掘；Web使用挖掘
　　中图分类号：TP302文献标识码：A文章编号：1009-3044(2007)18-31502-01
　　The Rearch of Web Data Mining
　　LI Xue-zhu1, WANG Feng2
　　(1.Computer Department Suzhou College, Suzhou 234000, China；2. Computer Department Automobile Manage College, Bengbu 233011, China)
　　Abstract:The rapid development of network resources has made the research of Web mining so increasingly important. This dissertation introduces the concept,process and classification of Web mining and also expounds detailedly the mining of Web content, structure and usage from the perspective of the object and method of Web mining.
　　Key words:data mining; Web content mining; Web structure mining; Web usage mining
　　
　　1 引言
　　
　　随着数据库与网络技术的飞速发展，尤其是自从internet产生以来，WWW资源迅速增长。为使用者提供了一个极其巨大的信息源，由于Web缩具有的开放性、动态性和异构性，又让使用者很难快捷准确地获得所需要的信息。为适应网络的快速发展及人们对知识的需求，以网络数据为挖掘对象的Web挖掘（Web Data Mining）就应运而生并快速成为目前信息技术中的研究热点。
　　IBM，NEC等机构对Web数据挖掘进行了大量的研究并取得了一定的成果；S.Charkrabarti对超文本数据挖掘进行了研究并指出基于知识的算法将会在Web数据挖掘中扮演重要的角色；B.Pinkerton对信息的收集和评价方法进行了讨论并引入了解雇挖掘来评价查询结果。Osmar R.Zaiane等还对Web多媒体数据挖掘进行了研究，并提出了一个多媒体数据挖掘的系统原型。Sbrin和L.page提出了Pagerank算法并将其应用到google。与国外相比，国内对Web数据挖掘的研究起步较晚。
　　
　　2 Web数据挖掘概念
　　
　　Oren Etioni在1996年首次提出Web数据挖掘这一概念，Web挖掘就是运用数据挖掘技术在Web文档与服务器中自动发现并提取有用信息。Web数据挖掘是一项综合技术，涉及很多领域，是数据库、信息检索、人工智能、机器学习、自然语言处理
　　等几个相关研究领域的集合。
　　
　　3 Web数据挖掘的流程
　　
　　与传统的数据挖掘相比，面向Web的数据挖掘要复杂的多。Web上的信息是异构的、动态的，并容易造成混淆。所以很难直接对Web网页上的数据进行操作，而必须经过必要的数据处理。典型的Web挖掘的流程如图1所示：
　　图1 Web挖掘的原理流程
　　2.1 资源查找
　　任务是从目标Web文档中得到数据。值得注意的是有时信息资源不仅限于在线Web文档，还包括电子邮件、电子文档、新闻组，或者网站的日志数据甚至是通过Web形成的交易数据库中的数据。
　　2.2 预处理
　　任务是从取得的Web资源中剔除无用信息和讲将信息进行必要的处理。
　　2.3 模式发现
　　自动进行模式发现。可以在同一个网站内部或在多个站点之间进行。
　　2.4 模式分析
　　验证解释上一步骤的模式，可以是机器自动完成，也可以是与分析人员进行交互完成。
　　Web挖掘作为一个完整的技术体系，在进行挖掘之前的信息获取IR(Information Retrieval)和信息抽取IE（Information Extraction）相当重要。最近几年在这两方面都有相应的研究成果和具体应用，特别是在大型搜索引擎中得到了很好的应用。
　　
　　3 Web数据挖掘的分类
　　
　　Web数据有三种类型：Web文档（主要是HTML、XML格式的）、Web结构数据（如Web文档中的超级链接）、用户访问数据（如服务器上的Web LOG日志信息）。相应地，Web挖掘也分为三类：Web内容挖掘（Web content mining）、Web结构挖掘（Web structure mining）和Web使用模式的挖掘（Web usage mining）。如图2所示：
　　图2 Web数据挖掘分类
　　以下就从挖掘对象、主要过程、方法等几个方面分别对这三种类型进行阐述。
　　3.1 Web内容挖掘
　　Web上的信息包罗万象，Web内容挖掘的对象包括文本、图像、音频、视频、多媒体和其它各种类型的数据。其中针对无结构化文本进行的Web挖掘被归类到基于文本的知识发现（KDT）领域，也称文本挖掘，是Web挖掘中比较重要的技术领域。Web内容挖掘就是针对这些大量的文档的集合进行总结、分类、聚类与关联分析来获取信息。其中多媒体数据的挖掘在近年来收到研究人员的关注。Web文本挖掘的基本过程如图3所示。
　　图3 Web文本挖掘的基本过程
　　3.2 Web结构挖掘
　　Web结构不仅含有不同页面之间的超链接，还包括以HTML或XML表示的树形结构、文档URL的目录路径结构。Web结构挖掘通过分析一个网页链接和被链接数量、对象，建立Web自身的链接结构模式。这方面研究工作的代表有pageRank和CLEVER，它们正是利用了文档间的链接信息，查找相关的Web页。有关方面研究的算法有：page－rank、HITS（Hyperlink－Included Topic Search）以及改进的HITS（将内容信息加入到链接结构中）、Hub/authourity。这些方法可以用来改进搜索引擎。
　　3.3 Web使用挖掘
　　Web使用挖掘又叫Web日志挖掘,是指从Web访问日志中发现用户的访问模式。运用Web使用挖掘技术能够从服务器浏览器端的日志记录和用户的个人信息中自动发现隐藏数据中的模式信息，了解系统的访问模式以及用户的行为模式，从而作出预测性分析。Web使用挖掘结合了数据挖掘、信息处理、可视化、数理统计等领域的成熟技术。Web使用挖掘基本过程可以分为四个阶段：数据采集、预处理、模式发现、模式分析。基本流程如图4所示：
　　图4 Web使用挖掘的基本过程
　　
　　4 结束语
　　
　　随着Web的迅猛发展，Web资源越来越丰富。如何更好的利用这些资源已成为大家关注的热点。Web站点设计、电子商务等工作变得更复杂、繁杂。由于Web数据挖掘在我国起步较晚，许多与之相关的技术都有待更新、提高和发掘。随着研究的进步，Web数据挖掘会变得更加轻松方便。
　　
　　参考文献：
　　[1]马保国，候存军，王文丰，钱方正. Web数据挖掘及应用[J]. 计算机与数字工程, 2006,34(6):20-22.
　　[2]将座东, 黄发良. 基于Web的数据挖掘研究综述[J]. 湖南工程学院学报, 2007,(3):61-64.
　　[3]王焱梁. Web数据挖掘技术应用[J].省略ki.net.
　　[4]顾晓燕. 关于Web挖掘技术的研究[J]. 电脑知识与技术, 2005,2:70-72.
　　[5]李琳, 吴成东, 韩中华, 胡静. 基于Web的数据挖掘技术[J]. 计算机应用, 2007,(2):74-77.
　　[6]朱德利. Web结构挖掘的XML实现策略[J]. 计算机工程与设计, 2006,(12):4447-4449.
　　注：本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文。
本文为全文原貌未安装PDF浏览器用户请先下载安装原版全文

上一篇：面向Ｗｅｂ服务的消息中间件模型_面向消息的中间件

下一篇：[用上网行为管理设备重新掌握失控的网络]对酒后行为失控或者

猜你想看

对高职院校男生厌学体育舞蹈状况的探讨:体育舞蹈(2019-01-17)
【运用现代教育技术,优化数学课堂教学】运用信息技术优化数学课堂教学(2019-01-15)
[中职学校网络信息技术教学应采用多元化评价]信息技术的采用必将(2019-01-14)
表达自寻烦恼的诗句【自寻的烦恼等】(2019-01-16)
边城在哪里【边城】(2019-01-16)
释放潜能,兴趣盎然释放学生潜能的课堂(2019-01-14)
[后现代课程理念对小学体育课程的影响]后现代黑白灰装修风格(2019-01-15)
[教师教学中存在的问题及其对策] 特岗教师存在的问题及解决对策(2019-01-14)
[谈职院电子商务人才培养] 电子商务人才培养方案(2019-01-17)
图书馆:中等职业学校德育不可或缺的重要途径中等职业学校德育目标(2019-01-13)

【Ｗｅｂ数据挖掘研究】数据挖掘 python

上一篇：面向Ｗｅｂ服务的消息中间件模型_面向消息的中间件

下一篇：[用上网行为管理设备重新掌握失控的网络]对酒后行为失控或者

猜你想看

最新文章

生物如何提高课堂效率_实现“四化”教学,提高专业课课堂

【数学教学中如何克服“高原现象”】如何克服高原现象

[谈新课程改革下的研究性学习]

【略论教师德育能力的提高】教师德育能力

图谱在音乐活动的运用 [浅谈图谱教学在诗歌散文中的运用]

【“伙伴型学习”在音乐教学中的积极作用】

_试谈中学生英语学习策略的指导

以问题为导向的高中数学课堂教学策略的研究与实践_素养导

chart of the day Researching,the,Position,of,Purc

【科学构设课堂活动,提高语文课堂效率】如何提高语文课

相关文章

【Ｗｅｂ数据挖掘研究】 数据挖掘 python

上一篇：面向Ｗｅｂ服务的消息中间件模型_面向消息的中间件

下一篇：[用上网行为管理设备重新掌握失控的网络]对酒后行为失控或者

猜你想看

最新文章

相关文章

【Ｗｅｂ数据挖掘研究】数据挖掘 python