当前位置:首页 > 工作计划 > [网页内容防采集策略的研究] 网页内容采集安卓
 

[网页内容防采集策略的研究] 网页内容采集安卓

发布时间:2019-02-21 03:56:38 影响了:

  摘要:网页内容采集主要是指把某一网站的整站网页内容或部分网页内容批量抓取到自己网站的一种技术手段,非法的网页内容采集,不仅使版权信息不能得到有效保护,而且,在批量采集时,尤其是含多媒体元素和软件的页面被采集时,会导致网站所在服务器负荷增大,正常用户的浏览速度下降。
  关键词:网站 网页内容 采集
  中图分类号: 文献标识码:A文章编号:1007-9416(2010)05-0000-00
  
  所谓网页采集无非是对我们浏览到的网页内容的采集,包括其中的文本信息、图片信息和影像、声音、软件信息等,采集者通过编写采集程序或者通过很多CMS系统本身具有的采集功能,编写采集规则,以获取所需内容。采集的方式总体上可分为截取和过滤两种,即截取指定区域的HTML代码,对该部分代码过滤其中不需要的内容,如广告信息、版权信息、标签标记等,以达到去伪存精的目的。采集的过程一般按照如下步骤进行:首先读取文章列表,然后根据文章列表中的链接逐次读取文章内容,并对文章内容进行过滤,获取所需要的信息。
  根据采集的方式和步骤,我们可以从两个方面来进行防范:增加列表采集难度,防范内容页面的采集。可以通过技术手段,尽可能的把采集者堵在外面,使之不能访问和读取被采集的页面。或者,对被采集页面内容进行处理,增加采集难度,使采集者即便采到了数据,采集到的信息也不可用或不能直接用。
  
  1 判断来源,杜绝访问
  判断同一IP在一定时间内对本站页面的访问次数,如果明显超过了正常人浏览速度,说明该来源ip有采集的可能,就拒绝此IP访问,否则放行。这种方法实现起来不难,在动态网站中可通过在页面头部增加一部分程序代码来实现,静态页面可通过javascript代码实现。
  该策略对防止采集非常有效,但会严重影响搜索引擎蜘蛛对本站内容的收录,对不过分依赖于搜索引擎的网站,可以采用此种方法。
  
  2 增加列表采集难度
  信息的批量采集,是从获取信息列表开始的,从信息列表中的超链接,继而采集二级页面内容,因此封住了列表页的采集,也就封住了对其他内容页的采集。一般采取的策略是改变列表方式,尽量使之没有规律,对方采集时难于获得正确的内容链接,增加其采集难度。
  2.1 打乱链接对应标签,使链接无规律。
  如:在列表中有以下链接:
  标题一
  标题二
  可改为:
  标题一
  标题二
  在第二个链接中链接地址去掉了引号,浏览器正常解析,但对方写采集规则时就会有一定难度。
  2.2 随机加入一些干扰链接,增加对方采集出错率
  例如在信息列表中穿插加入类似如下干扰链接:
  随机文字标题
  然后用跟其他内容页一样的模板创建网页文件aa.asp,aa.asp页面中标题和内容动态随机生成,目的是让对方能够采集到,因为有些采集程序对标题重复或空内容的页面是不采集的。然后在样式表中增加样式:
  #notext{display:none;}
  这样你所加的干扰链接在你的页面上就不会显示。但由于该链接及其对应的内容页面跟其他链接一样是正常的,因此可以同时被对方采集过去,而这些文章内容是毫无意义的代码,这样增加了对方采集后编辑修改的工作量,可以使对方知难而退。
  
  3 内容页面的防采集策略
  采集的最终目的是采集网页具体内容,只采集到文章列表而采集不到内容或采集到的内容不符合要求,这样的采集是没有意义的。可以从以下几个方面进行防范。
  3.1 加密页面内容
  通过Javascript对页面内容进行加密,然后通过Javascript代码解密后输出,这样,采集到的内容便只能是一些不规则的加密后的代码,没有任何意义,通过这种方式可以有效的防止采集,但会严重影响搜索引擎收录,且降低页面加载速度,适用于对搜索引擎要求不高,重视版权信息的一些网站,普通网站用的不多。
  3.2 改文本内容为图像格式或pdf、swf等其他格式
  这种方式是将网页正文内容通过一些转换软件或程序代码转换为图像格式或其他非html格式,并在图片背景加以含有版权信息的水印,通过这种方法形成的网页内容即使采集下来,要去除版权信息也是非常困难的。如腾讯读书频道,所有VIP阅读的部分都采取了这种方式。
  这种方式可以有效地保护知识产权,但仍然不利于搜索引擎收录,对于一些不依赖于搜索引擎的站点,可以采用。
  3.3 设定浏览权限,只允许登录后的用户才可以浏览网页内容
  该种方法适用于动态网站,但也会严重影响搜索引擎蜘蛛对其收录,不过此方法防范一般的采集程序,还是比较有效的。
  3.4 把内容页面里的特定标记替换为”特定标记+随机的隐藏版权文字”
  这是很多cms系统默认的防采集策略,被采集过去的信息会随机的显示一些被采集网站的版权文字,但这种方法对采集是完全放行的,同时,对方可以把采集过来的内容中的版权文字过滤掉或替换为其他信息。如果利用这种方式防范采集,建议尽量设定更多的随即字符串,以增加过滤难度。
  3.5 内容页面代码无规则
  现在的网站不管是动态网站,还是静态网站,一般是后台录入数据,前台按照统一模板显示,由于内容模板单一,html代码规律性强,书写采集规则容易,所以很容易被采集,因此在创建模板时,要尽量使代码规则不明显,以增加采集难度。
  3.5.1 利用重复标签
  采集页面内容时,一般包含被采集部分内容的标签作为采集标志书写采集规则,因此可以增加一些重复标签进行干扰,使采集程序无法正确定位采集内容而采集不到准确信息,例如防止被采集的内容所在的标签为,那么可以在该标签的前面再增加一个或多个相同的标签以起到干扰作用。
  3.5.2 多网页模板,多种显示方式
  如果条件允许,可设计多种网页模板,可以做到外观显示相同,但网页内容中html标记不同,如有的用div+css方式,有的用table方式,这样对方在采集时,只能采集到一种模板对应的网页内容。
  当然,在同一个模板内,也可以将防止被采集的内容所在的标签随机化处理,以增加对方的采集难度。
  
  4 结语
  要做到完全的防范采集是不可能的,防采集的各种策略都各有其优缺点,只能根据自己的站点特点,采取相应的策略,或者多种防范措施并用,尽大程度的进行防范。随着网络技术的发展,增强版权意识,遵守网络公德,加强监督机制,在自己站点上杜绝非法采集,只要每一个站长朋友都能做到这一点,那才是防采集的最有效策略。
  
  参考文献
  [1] (日本)小泉修著,王浩译.Web技术:HTTP到服务器端.科学出版社,2004.
  [2] 吴伟光.数字技术环境下的版权法危机与对策.知识产权出版社,2008.
  [3] 吴振丰.网站建设与管理.高等教育出版社,2006.

猜你想看
相关文章

Copyright © 2008 - 2022 版权所有 职场范文网

工业和信息化部 备案号:沪ICP备18009755号-3