当前位置:首页 > 工作总结 > 支持向量机在垃圾短信拦截系统中的实现_怎么拦截垃圾短信
 

支持向量机在垃圾短信拦截系统中的实现_怎么拦截垃圾短信

发布时间:2019-02-22 03:47:40 影响了:

  摘要:如何及时有效、准确的识别垃圾短信,并进行实时拦截是治理垃圾短信的重要条件。结合我国运营商目前垃圾短信处理现状,本文设计将支持向量机分类算法用于此套系统垃圾短信离线分类,并加以验证。
  关键词:垃圾短信 支持向量机 拦截
  中图分类号:TN915.08 文献标识码:A 文章编号:1007-9416(2012)01-0032-02
  
  1、引言
  随着移动通信技术的发展和终端的普及,垃圾短信问题日益严重,用户可能被恐吓、骚扰、欺骗。目前运营商主要采用的垃圾短信判定方法包括:发送流量判定、内容关键字判定、时段门限限定和根据被叫方号码特征判定。这些方法虽然对垃圾短信的治理有一定的效果,但也存在着明显的缺陷和不足。如误判、漏判严重[1],非实时性及省间垃圾短信难以控制。
  本文针对现有短信过滤技术的不足,将设计将支持向量机分类算法用于垃圾短信离线分类。
  2、垃圾短信处理现状
  采取短信中心自带拦截模块,通过离线分析短信息中心话单后生成黑名单实现封停[2]等方法治理垃圾短信,虽然在一定程度上控制了垃圾短信,但是并没有达到有效的控制。分析原因如下:其一,采用原始的人工流程,往往在垃圾短信发生后很长时间才实现限制, 即非实时性,不但不能及时限制非法信息造成恶劣影响,而且产生了大量的恶意欠费。其二,原有的判断和监控手段较为落后,仅能实现的手段如下:时间粒度为一个小时某个号码发送短信频次超过某个特定值,或时间粒度为一个小时的关键字和频次相结合,由于判定时间粒度长,导致在一个小时内无数垃圾短信发送到手机终端,且误判、漏判严重。其三,复制卡和群发器的使用致使短信流量不定期突然增多。其四,省间垃圾短信难以控制。
  3、关键模块SVM研究
  短信预处理模块和SVM模块,实现以下功能:
  (1)短信预处理模块。在短信预处理模块中对嫌疑短信进行前期处理,完成分词、文本表示和特征选择,把嫌疑短信表示成计算机能够处理的形式。
  (2)SVM模块。因为支持向量机具有较高的分类精度,但在处理大规模数据集时有收敛速度较慢的特点,在SVM模块中对嫌疑短信进行离线分类,将其用于校对和补充贝叶斯模块的判定结果,并计算关键词的权重,更新关键词库,以提高垃圾短信过滤准确率。[3] [4]
  本文结合短信文本的特点,提出了基于支持向量机的短信分类方法以及实现步骤。基于支持向量机的短信分类是通过提取短信文本内容,将短信识别看作文本的两分类问题,利用支持向量机方法对训练短信集进行训练学习,得到分类模型以及决策函数,再利用得到的分类模型对待分类短信进行分类,识别短信的属性,即判断短信是否属于垃圾短信的过程。其具体实现主要分为两个阶段,即训练阶段和分类阶段。如下图1所示:
  基于支持向量机的短信分类过程需要经过短信预处理,特征降维,短信文本表示以及构建分类器四个步骤。首先要对短信训练集和测试集(即已知样本短信和未知分类短信)进行预处理,对短信的属性类别,词条(即特征)进行统计,然后对特征集进行降维,进而完成特征的向量表示。在对样本特征集进行训练学习的过程中,根据训练集中的样本点计算出参数,从而得到分类模型(二元分类器)。接下来进行的分类阶段,通过分类模型的决策函数对未知的待分类样本进行分类,以判别待分类短信是否属于垃圾短信。
  4、系统实验结果分析
  4.1 分类性能评估
  实验中垃圾短信过滤的性能评价指标沿用垃圾邮件过滤的相关评价指标[4][5],即正确率、错误率、召回率。同时用查全率(R)和查准率(P)的评估方法对测试文档集中的文档进行评估。除了R与P外,本实验还用到了混淆矩阵方法对其进行评估。
  4.2 实验结果分析
  本实验在自建短信语料库的基础上完成对比工作,语料库来源为某运营商提供的16166万条不重复信息。将其随机分成873份训练样本和872份测试样本。使用不同的过滤算法的结果对比如表1和表2所示。
  通过对实验结果分析,可以看出,本文所设计的将支持向量机应用于垃圾短信过滤系统离线分类中,效果优于K最近邻(KNN),且准确率达99%,本系统可以达到对垃圾短信进行实时过滤的性能要求,运营商可借助此算法高效屏蔽垃圾短信。
  5、结语
  本文设计和实现了应用支持向量机模块对短信进行离线分类,提高垃圾短信过滤准确率。它为及时有效、准确的识别垃圾短信提供了依据。
  参考文献
  [1]梁作君.垃圾短信的防范与治理[J].通信管理与技术,2008.
  [2]闫红静,邸书灵.基于改进平衡Winnow算法的短信过滤系统[J].微型机与应用,2010.
  [3]张兢.基于朴素贝叶斯和支持向量机的短信智能分析系统[J].重庆理工大学学报,2010.
本文为全文原貌 未安装PDF浏览器用户请先下载安装 原版全文

猜你想看
相关文章

Copyright © 2008 - 2022 版权所有 职场范文网

工业和信息化部 备案号:沪ICP备18009755号-3