当前位置:首页 > 思想汇报 > [一种改进的基于项目聚类的协同过滤推荐算法] 蜂群聚类协同过滤
 

[一种改进的基于项目聚类的协同过滤推荐算法] 蜂群聚类协同过滤

发布时间:2019-02-28 03:48:35 影响了:

  摘要 根据2010年7月 15日,中国互联网络信息中心(CNNIC)在京发布的《第26次中国互联网络发展状况统计报告》[1]显示,截至2010年6 月底,我国网民规模达4.2亿人,互联网普及率持续上升增至31.8%。网络的信息超载现象已日趋严重促使了信息过滤技术的快速发展。个性化推荐系统作为信息过滤中一种重要的应用方式,目前已经成为各大主流网站不可缺少的新一代个性化信息服务形式。
  关键词 项目聚类;协同过滤;推荐算法
  中图分类号TP31 文献标识码A 文章编号 1674-6708(2011)34-0205-02
  0 引言
  根据2010年7月 15日,中国互联网络信息中心(CNNIC)在京发布的《第26次中国互联网络发展状况统计报告》[1]显示,截至2010年6 月底,我国网民规模达4.2亿人,互联网普及率持续上升增至31.8%。网络的信息超载现象已日趋严重促使了信息过滤技术的快速发展。个性化推荐系统作为信息过滤中一种重要的应用方式,目前已经成为各大主流网站不可缺少的新一代个性化信息服务形式。
  协同过滤技术作为个性化推荐技术的主流技术,具有较高的学术价值并被广大电子商务网站所应用。它的基本思想[2]是:通过对用户的显式输入或隐式输入的历史数据收集并统计计算,预测与此用户兴趣相似的用户,并将其相似用户感兴趣的项目推荐给此用户。根据所使用事物的关联性分为:基于用户(User-based)的协同过滤推荐算法和基于项目(Item-based)的协同过滤推荐算法。协同过滤推荐一般可划分为三步:1)数据表示;2)近邻集合的查找;3)推荐生成。
  1 改进的基于项目聚类的协同过滤
  1.1 改进算法的提出
  近邻集合的生成是协同过滤推荐技术的关键步骤,查找结果的精确程度直接决定了推荐效果。而在计算用户或项目相似度时主要有三种算法:余弦相似性、皮尔森相关系数和修正的余弦相似性[4]。1)面对推荐技术面临的冷启动问题和数据库中明显的稀疏性问题,单靠相似性算法不能给目标用户提供高质量的推荐结果[5];2)用户对具有某一特征的事物往往会更容易产生兴趣,所以对于具有项目特征的项目集,综合考虑属性特征对于项目相似度的影响,会更为客观的针对用户实际偏好;3)人们对事物的兴趣度往往存在一定的从众心理,即用户常常会受到大众总体评价的影响。
  本文通过对具有可以统计数目的抽象属性特征这一类项目集,提出一种结合项目评分与项目属性的项目相似度算法,然后对项进行聚类,将用户评分与属性相似的项划到同一个聚类中。同时将用户被公众总体评价影响的这一部分偏好偏差代入进评分预测计算。
  1.2 算法描述
  项目集中项目属性特征可以用一个n×m维的布尔型项目属性矩阵A表示,其中1表示此项目具有此属性,0表示此项目不具有此属性。设项目的特征相似度可以表示为:
  Asim(i,j)=(1)
  通过对项目集中两两项目之间基于特征的相似度计算,我们可以获得一个基于项目特征的相似度矩阵A。设Rsim(i,j)表示基于项目评分得到的项目相似度,Asim(i,j)表示基于项目特征的项目相似度,则:
  sim(i,j)=αRsim(i,j)+(1-α)Asim(i,j) (2)
  其中,通过对项目进行聚类计算,将用户评分与项目特征两者均相似程度高的项目划分到一个簇里面。本文认为通过聚类分析形成基于项目的最近邻集合是十分有效的方式。设U表示项目集中所有对项目i进行过评分的用户集,表示项目i在U中的平均得分,则加入公众评价影响力的可以表示为:
  2 实验与分析
  2.1 评估标准与实验数据集选取
  在文实验中,我们使用MAE作为实验结果评价标准。MAE越小则表明评分预测越准确、推荐质量越高。将所有测试用户的MAE进行平均,便得到算法总的MAE[4]。
  本文实验基于MovieLens数据集[2],采用5折交叉验证法,将其平均分成5个互不相交的数据子集,训练集和测试集的数据比例为4:1,将实验结果的平均值作为最终结果[2]。
  2.2实验结果及其分析
  通过对数据的初步统计分析,我们发现对于MovieLens数据集改进的基于项目聚类的协同过滤算法在K=30时,推荐效果最优,并在K取值0~100之间时,一直优于传统基于项目的协同过滤算法。
  3 结论
  通过对实验数据集的测试和分析,发现更为合理化的考虑计算项目相似性,可以更为有效的得到项目最近邻集合,同时考虑在计算预测评分时,将项目的公众总体评分对目标用户的影响计算在内,更为合理的计算预测评分,通过这两部分的改进,提高了推荐算法的推荐质量。
  参考文献
  [1]中国互联网络信息中心.CNNIC.省略nic.cn,2010-07-15.
  [2]Movielens.https://www.省略/node/73,2001.
  [3]邓爱林,朱扬勇,施伯乐.基于项目评分预测的协同过滤推荐算法[J].软件学报,2003(9):1-8.
  [4]何钦铭,王申康.机器学习与知识获取[M].浙江大学出版社,1997.
  [5]徐博艺,姜丽红.电子商务环境下信息过滤中用户偏好调整算法.计算机工程,2001,27(10):102-104.
本文为全文原貌 未安装PDF浏览器用户请先下载安装 原版全文

猜你想看
相关文章

Copyright © 2008 - 2022 版权所有 职场范文网

工业和信息化部 备案号:沪ICP备18009755号-3