当前位置:首页 > 述职报告 > WEB数据挖掘研究探析:数据挖掘 python
 

WEB数据挖掘研究探析:数据挖掘 python

发布时间:2019-02-21 04:03:12 影响了:

  摘要:WEB上的数据是一种介于结构化与半结构化之间的数据,以多种形式存在,非常不利于挖掘有用的信息。当前,随着WEB站点上的信息逐步采用XML规范,给WEB数据挖掘带来了新的解决方法。
  关键词:网络 数据挖掘 研究
  
  1 引言
   WEB数据挖掘就是从大量的网络数据中发现隐含的规律性的内容,提取并挖掘有用的知识。然而WEB上的数据以多种形式存在,是一种介于结构化与半结构化之间的数据,非常不利于进一步挖掘有用信息。当前,随着许多WEB站点上的信息逐步采用XML规范,给WEB数据挖掘带来了新的解决方法。
  
  2 WEB数据挖掘面临的问题
   面向WEB的数据挖掘要比面向单个数据仓库的数据挖掘要复杂的多,主要是基于以下几点原因:
   (1)异构数据库环境。Web上的每一个站点就是一个数据源,每个数据源都是异构的,因而每一站点的信息和组织都不一样,这就构成了一个巨大的异构数据库。(2)分布式数据源。Web页面散布在世界各地的Web服务器上,形成了分布式数据源。(3)半结构化。半结构化是Web上数据的最大特点。Web上的数据非常复杂,没有特定的模型描述,是一种非完全结构化的数据,称之为半结构化数据。(4) 动态性强。Web是一个动态性极强的信息源,信息不断地快速更新,各站点的链接信息和访问记录的更新非常频繁。(5)多样复杂性。Web包含了各种信息和资源,有文本数据、超文本数据、图表、图像、音频数据和视频数据等多种多媒体数据。
  
  3 WEB 数据挖掘中的技术问题探析
  3.1 非技术因素
   在WEB数据挖掘中,出于商业目的经常会对网站的某些方面提出一些分析,比如:流量分析(点击量)、广告分析、网站出入口分析、访问路径分析、用户来源分析、浏览器和平台分析等等。就这些方面作进一步分析,我们可以从中找出真正与数据挖掘相关的的要素,具体如下:
  3.1.1 网页相关性分析
   一些网页之间具有密切的关系,假设很多人具有a.html-〉b.html-〉c.html 这样的访问模式,则我们可以认定a.html 和c.html 之间有一定的关系,从而考虑是否在a.html 上直接加上c.html的链接。
  3.1.2 用户访问模式分析
   一般规律下,用户只要访问了网页其中的一页,则可以断定他也要访问其他的网页即按不同的用户访问模式,把网页分组得到一个一个的兴趣点。
  3.1.3 用户归类
   通过用户填写的信息把用户归入某一特定的类别,然后可对同一类别中的用户提供相似的服务。
  3.2 技术因素
   WEB数据挖掘的技术因素主要有以下几点:
   (1) 数据处理。如何得到分析和数据挖掘所用的数据,主要采用两种方法,一是直接使用Web Server的Log 文件,二是用网络监听的办法,在数据包中提取出HTTP 请求和应答。最后两种数据源都要转换成固定的格式存放在数据库或数据仓库内,供统计分析和数据挖掘使用。(2)统计分析。即在数据库的基础上,针对不同的数据运行各种统计函数。(3)数据挖掘。数据挖掘技术是实现智能分析得到隐藏在大量繁杂数据内部知识的关键。通过对用户访问网站的历史数据(即我们通过数据处理得到的数据)应用各种数据挖掘技术,得到高层知识,提供给用户作决策支持,并利用这些知识动态生成网页,为用户提供访问建议。(4) 关联规则。从服务器会话中发现请求网页的相关性,可用于优化网站组织,实现网络代理中的预取功能等。(5)聚集。使用Usage Clusters把具有相似浏览模式的用户分成组,可用于电子商务应用中market segmentation和为用户提供个性化服务,使用page clusters按内容的相似性把网页分类,可用于搜索引擎和Web assistance providers为用户提供推荐链接。(6)归类。根据用户的个人资料,将其归入某一特定的类,可使用决策树、Naive Bayesian
  Classifiers等算法。
  
  4 XML技术在WEB数据挖掘中的应用
  4.1 XML 技术简介
   XML(eXtsible Markup Language) 是SGML(Standard General MarkupLanguage)的一个子集,近年来被IBM、Microsoft 等公司大力推崇。和HTML(Hyper Text Markup Language)类似,XML 也是一种标示语言,可提供描述结构化资料的格式,它们都可以用于可视化和用户界面标准。
  4.2 XML的主要应用
   XML的应用主要分为文档型和数据型,具体有以下6类:
   (1)自定义XML+XSLT=>HTML,最常见的文档型应用之一。XML存放整个文档的XML数据,然后XSLT将XML转换、解析,结合XSLT中的HTML标签,最终形成HTML显示在浏览器上。(2)XML作为微型数据库,这是最常见的数据型应用之一。一般可利用相关的XML API(MSXML DOM、JAVA DOM等)对XML进行存取和查询。比如在留言板的实现中,就经常可以看到用XML作为数据库。(3)作为通信数据。最典型的就是Web Service,利用XML来传递数据。(4)作为一些应用程序的配置信息数据。常见的如J2EE配置WEB服务器时用的WEB.XML。(5)其他一些文档的XML格式。如Word、Excel等。(6)保存数据间的映射关系。如Hibernate。
  4.3 XML在WEB数据挖掘中的应用
   以XML 为基础的新一代网络环境是直接面对WEB 数据的,不仅可以很好地兼容原有的WEB 应用而且可以更好地实现WEB 中的信息共享与交换。XML 可看作一种半结构化的数据模型,可以很容易地将XML 的文档描述与关系数据库中的属性一一对应起来,实施精确地查询与模型抽取。
   当用标准的HTML 无法完成某些WEB 应用时,XML 更能大显身手。这些应用大体可分为以下四类:需要WEB 客户端在两个或更多异质数据库之间进行通信的应用;试图将大部分处理负载从WEB 服务器转到WEB 客户端的应用;需要WEB 客户端将同样的数据以不同的浏览形式提供给不同的用户的应用;需要智能WEB 代理根据个人用户的需要裁减信息内容的应用。显而易见,这些应用和WEB 的数据挖掘技术有着重要的联系,基于WEB 的数据挖掘必须依靠它们来实现。
  
  5 结语
   XML的扩展性和灵活性允许XML描述不同种类应用软件中的数据,从而能描述搜集的WEB页中的数据记录。同时由于基于XML的数据是自我描述的数据,不需要有内部描述就能被交换和处理,XML为组织软件开发者、WEB站点和终端使用者提供了许多有利条件。相信随着XML作为在WEB上交换数据的一种标准方式继续推广,面向WEB的数据挖掘将会变得异常轻松。
  
  参考文献
  [1] 韩家炜,孟小峰,王静等.Web挖掘研究.计算机研究与发展.2001.
  [2] 王静,孟小峰.半结构化数据的模式研究综述.计算机科学[J].2001 Vol.28.
  [3] 赵焕平等.WEB数据挖掘及其在电子商务中的应用.福建电脑[J].2008(1)167.

猜你想看
相关文章

Copyright © 2008 - 2022 版权所有 职场范文网

工业和信息化部 备案号:沪ICP备18009755号-3