基于Apriori算法的旅游商务消费模式研究:零消费生活
摘要:该文将Apriori优化算法应用于旅游商务系统的个性化消费模式挖掘之中,阐述了旅游商务系统中个性化消费模式产生的过程,并对该过程加以实现和进行运行结果分析,既进一步验证了优化算法的实用性,又给出了旅游商务系统中个性化消费模式产生的有效途径。
关键词:Apriori算法;个性化旅游套餐
中图分类号:TP393文献标识码:A文章编号:1009-3044(2012)17-4119-04
数据挖掘能够使用的挖掘方法有多种,该文考虑到旅游消费者与所选消费模式之间存在着一定的关联,以及消费模式的内容与消费者个性化消费之间存在很多关联,所以本课题引入关联规则算法及其优化算法,探讨其在旅游电子商务个性化消费模式中的应用。
1关联规则挖掘算法——Apriori算法
1.1 Apriori算法概述
Apriori算法是关联规则算法中较为经典的算法,对关联规则算法的研究也是从Apriori算法开始的。Apripori算法充分利用了频繁项集的性质,既频繁项集的任一非空子集也肯定是频繁的,是一种极具影响的挖掘关联规则频繁项集的算法。其主导思想是首先大致统计出所有包含一个项目的项目集出现的频率,由此来产生频繁1-项目集,并把频繁1-项目集记M1,其次依据M1寻求频繁2-项目集M2,如此一直操作,直到找到某一项目集Mr,且Mr为空,则停止操作。
2改进的Apriori算法
Apriori算法效率不高的最根本原因在于反复生成候选集,并根据这个候选集在交易数据库中进行反复扫描计算。由此推出,如果一次性生成全部候选集,那么只要扫描一次数据库就能解决问题,效率自然也就大大提高。因此,我们首先对交易数据库进行扫描,并根据每一项交易求出所有的交易子集,然后我们根据该交易子集扫描数据库,并保留符合支持度的交易子集,整理后就能直接得出频繁交易集。
3改进的Apriori算法在个性化旅游线路产生过程中的应用
接下来我们以图表来演示用优化算法求解个性化旅游产品的产生过程。
表1交易数据表
4两种算法的比较
为了测试Apriori算法及其改进算法的性能,在挖掘过程中使用两个变量来分别存储挖掘运行的起始时间和结束时间,对相同的内容分别采用两种算法进行挖掘,来对二者的挖掘性能进行比较。挖掘同样条件的规则,Apriori算法运行的时间和规则条数如图1。
改进的Apriori算法运行时间及规则条数如图2所示。
从以上两图很容易就能看出,挖掘同样内容的数据时(年龄在30-40岁之间的旅游消费者信息),Apriori算法用了13分钟,而Apriori改进算法只用了4分钟。从效率这个角度来说,大大节省了挖掘时间;Apriori改进算法比Apriori算法少了9条规则,规则的有效性也有了明显的提高。
参考文献:
[1]刘同明.数据挖掘技术及其应用[M].北京:国防工业出版社,2001.
[2]龚晓君.数据挖掘算法研究及在电子商务中的应用[D].杭州:浙江大学,2005.
[3]李秋丹.数据挖掘相关算法的研究与实现[D].大连:大连理工大学,2004.
[4]何波,王越.基于数据挖掘的Web个性化信息推荐系统[J].计算机工程与应用,2006(3).
