当前位置:首页 > 读后感 > [基于协同过滤技术的学习资源个性化推荐研究]
 

[基于协同过滤技术的学习资源个性化推荐研究]

发布时间:2019-03-19 04:41:43 影响了:

  [摘要]e-learning的调查发现,e-learning支持系统中学习资源推荐主要有Top-N和关键词检索两种方式,都无法向学习者个性化地推荐学习资源。受电子商务研究领域中相关研究成果启发,我们尝试将协同过滤推荐技术引入学习资源的个性化推荐研究中。通过综述学习资源个性化推荐中三种常用的推荐技术,介绍了协同过滤推荐技术的工作原理、实现方法及存在问题。在此基础上,提出了一个优化的基于协同过滤技术的学习资源个性化推荐系统的理论模型,重点讨论了模型的结构、隐式评分机制和算法的实现,并讨论了个性化学习资源推荐模型中的三个关键技术。以启发e-leaming研究人员从不同的层面和角度探索协同过滤技术在e-learning中的应用,提高学习资源个性化推荐的精度和效率。
  [关键词]e-learning;协同过滤技术;学习资源;个性化推荐
  [中图分类号]Tp391 [文献标识码]A [文章编号]1672-0008(2011)03-0066-06
  
  一、引言
  
  e-learning已成为企业开展员工培训的有效方式之一。目前,许多企业在企业内部网或互联网搭建了e-learning支持系统。随着e-learning应用实践的深入,e-learning支持系统中学习资源数量日渐增多,导致员工需要花费大量的时间和精力在平台中检索和查阅符合自己需要的学习资源,甚至找不到符合自己兴趣和工作岗位需求的学习资源。
  通过分析多个企业e-learning门户系统,我们发现,当前e―learning系统推送学习资源的方式有三种:
  (1)Top-N推荐方式,即采取将点击率最高的前N个热门资源推荐给用户。点击率的高低在一定程度上反映学习资源的受欢迎程度,但无法实现个性化推荐。在包含多种职业领域的学习资源管理系统中,学习者对资源类别、媒体类型需求迥异,点击率较高的学习资源,只能反映部分学习者的需求和偏好。
  (2)关键字查询方式。这种方式具有便捷和快速的优点,但是这种被动式资源查询方式只追求目标资源与所提供检索关键字的契合程度,无法体现目标资源质量的高低,无法实现资源主动式个性化推荐。
  (3)最新资源推荐。这种方式可以将资源库的更新情况在第一时间反馈给用户,增加最新学习资源被访问机会,但是资源的质量无法保证,个性化的推荐无法实现。鉴于以上资源推送方式存在的不足,如何解决e-learning系统中学习资源的主动式个性化推荐,成为当前教育技术学研究人员面临的研究主题之一。
  个性化推荐技术能克服传统资源检索方式的缺陷,其中,协同过滤推荐技术是一种应用最为广泛的个性化推荐技术。目前,协同过滤技术已成功应用于电子商务领域。本研究尝试将协同过滤推荐技术引入e-learning系统的学习资源个性化推荐中,以推进这一研究主题的深入。
  
  二、文献综述
  
  (一)个性化推荐技术
  个性化推荐是推荐系统根据用户的个性化特征,如兴趣、爱好、职业或专业特点等,主动地向用户推送适合其学习需要或可能感兴趣的信息资源的一种推荐技术。此外,个性化推荐技术可以共享用户间的经验,为目标用户推荐其相似用户群偏好的信息资源。其工作原理是:首先根据用户信息建立用户兴趣模型;然后,在信息资源库中寻找与其匹配的资源信息并产生推荐,以满足不同用户的个性化需求。按实现算法和实现方式的不同,个性化推荐技术可分为基于关联规则的推荐、内容过滤推荐、协同过滤推荐等三种,也可以综合以上三种推荐方式产生新的混合型推荐算法。
  1.基于关联规则的推荐
  基于关联规则的推荐技术的工作原理:首先由管理员定制一系列的规则条目,然后利用制定的规则度量项目间的相互关联性,将关联密切的项目推送给用户。在进行推荐时,系统分析用户当前的兴趣爱好或访问记录,然后按照事先制定的规则向用户推荐其可能感兴趣的资源项目。例如,对于一个正在学习网页设计技术的学习者来说,当他点播以ASP网页设计为主题的学习资源时,系统向他推荐了与HTML技术相关的学习资源。这是因为HTML技术是网页制作的基础知识,学习者有可能并未很好掌握,或者仍有兴趣深入学习。这样就形成了一个基于关联规则的推荐。
  基于关联规则的个性化推荐存在两个缺点:
  (1)规则无法由系统自动生成,必须由管理员手动定制,这无法保证推荐的精确度,而且规则的制定和维护的工作量大;(2)规则在制定之后不能动态变化。制定后的规则只能为用户推荐与其原始兴趣相符的资源条目,无法为其推荐其它高质量的资源,更不能发现用户潜在的兴趣点。
  2.内容过滤推荐
  内容过滤推荐技术是信息过滤中最基本的一种方法,是较早被提出的一种推荐技术。内容过滤的工作原理:采用概率统计和机器学习等技术实现过滤,首先用一个用户兴趣向量表示用户的信息需求;然后对文本集内的文本进行分词、标引、词频统计加权等,生成一个文本向量;最后计算用户向量和文本向量之间的相似度,把相似度高的资源条目发送给该用户模型的注册用户。
  内容过滤推荐技术适用于推荐文本类型的学习资源,不适用于推荐多媒体类型的学习资源。内容过滤推荐技术需要在分析文本资源结构的基础上,抽象出若干个代表文本特征的关键词,描述资源内容特征。对于其它形式的学习资源(动画、音频、视频等),该技术不能用几个关键词概括它们而无法做出较高精度的推荐。另外,内容过滤推荐只能根据资源向量同用户向量的匹配程度向用户推荐相关资源,无法筛选出优质的资源。
  3.协同过滤推荐
  与前两种推荐技术不同,协同过滤推荐需要在分析资源内容、计算资源和用户的匹配度的基础上产生用户推荐,产生推荐的依据是用户对资源的评分。协同过滤推荐的工作原理:首先分析用户特性,如兴趣、职业等信息;然后利用相似性算法计算用户间的相似性,找出与目标用户相似性最高的k个用户;最后参照邻居对资源的评分预测目标用户对资源的评分,将预测评分最高的n个资源推荐给目标用户。
  协同过滤推荐技术具有以下三个特点:(1)较好的普适性。与其它个性化推荐技术不同,协同过滤推荐算法所依赖的是用户对资源的评分,和资源的内容或者形式无关。这一特点使得协同过滤推荐不仅适用于容易抽象出特征向量的文本类资源,而且对动画、视频、音频等难以准确概括出特征向量的多媒体素材具有同样的推荐效果。(2)良好的推荐精度。用户对资源的评分反映了用户对资源的满意程度,在绝大多数情况下代表了资源的品质,使建立在评分数据基础上的协同过滤推荐具有出色的推荐准度,其推荐结果在质量上能够得到保证。(3)共享好友经验。由于协同过滤推荐通过目标用户(项目)的邻居预测评分,使得相似用户间彼此共享资源使用经验。通过分享邻居的经验发现目标用户的潜在兴趣点,能拓展其学习思路和提供学习支架,使得推荐更加高效。
  
  三、协同过滤推荐技术   
  (一)概述
  协同过滤概念的提出要追溯到上个世纪,在1992年由Goldberg、Oki、Nichols和Terry首次提出,首先应用在Tapestry系统中。作为协同过滤技术的第一代产品,Tapestry系统存在诸多缺陷,没有达到成熟的程度。发展至今,协同过滤技术在互联网的众多领域得到了广泛地应用,如电子商务领域的Amazon、Netflix、Taobao,国内主流的视频点播网站Youku、Tudou等。协同过滤推荐技术已成为流行的个性化推荐技术之一。
  协同过滤算法分为两大类:基于存储(Memory-based)的协同过滤算法和基于模型(Model-based)的协同过滤算法。目前,大部分协同过滤算法的实际应用都属于基于存储的协同过滤算法范畴。
  基于存储的协同过滤算法包括基于用户(User-based)的协同过滤算法和基于项目(Item-based)的协同过滤算法。它以用户――项目(信息资源)评分数据为基础,通过使用不同的相似性度量方法,计算用户或者项目之间的相似性值,形成邻居用户或者邻居项目集合;然后,以邻居集合中用户对项目的评分为依据,预测用户对未评分项目的评分,形成推荐项目列表,以合适的视图呈现给用户。
  基于模型的协同过滤算法首先建立一个用户――项目评价模型,以此模型为依据提供对项的推荐。基于模型的协同过滤算法同基于存储的协同过滤算法的区别在于,基于模型的方法不是基于一些启发规则进行预测计算,而是基于对已有数据应用统计和机器学习生成的模型进行预测。目前,基于模型的协同过滤算法主要有聚类模型、Bayes模型、关联规则模型、语义生成模型等几种。
  
  (二)协同过滤推荐技术的实现
  协同过滤推荐基于以下假设:如果用户对一些项目的评分比较相似,则他们对其它项目的评分也比较相似;如果大部分用户对一些项目的评分比较相似,则当前用户对这些项目的评分也比较相似。协同过滤推荐系统使用统计技术搜索目标用户的若干最近邻,然后根据最近邻对项目的评分预测目标用户对项目的评分,产生对应的推荐列表。协同过滤推荐的实现流程包含三个关键步骤:获取及表示用户信息、形成邻居和产生推荐。
  1.荻取及表示用户信息
  用户数据包括三类:用户注册信息、用户学习数据和用户行为记录。推荐系统获取用户行为数据有显式评分和隐式评分两种方法。显式评分是指用户通过直接打分的形式给资源的评分过程。隐式评分是记录用户行为数据,将其加权转化为用户对资源的评分。显式评分和隐式评分各有其优缺点,前者比较直观,能准确反映用户对资源喜好程度,但由于评分操作可能中断用户的学习行为,所以会给用户带来一些不便;后者通过分析用户相关信息而间接得到评分,不需要增加用户额外的操作,但其缺点是相关用户数据在某些情况下不能准确地反映用户的喜好,使评分的准确性下降。
  协同过滤技术将获取的数据以用户一资源评分矩阵的形式表示,如表1所示。其中,第i行第j列的元素R代表第i个用户对第i个资源的评分。
  2.形成邻居
  寻找目标用户的邻居是协同过滤技术的最核心步骤。所谓邻居,即与目标用户i具有相同或者相似兴趣的用户群。计算目标用户i和其他用户i之间相似性的过程:首先筛选得到用户i和用户j共同评分的所有资源集合Resli=Resln Res,,然后通过相似性度量方法计算两个用户之间的相似性。目前常用的相似性度量方法有:余弦相似性、相关相似性和修正的余弦相似性。
  余弦相似性是最为传统的相似性计算方法,而修正的余弦相似性算法的计算过程为:推荐系统中的不同用户在学习经历、对资源的要求、价值标准等各方面都存在较大地差异,用户对资源的评分在很大程度上建立在用户的主观判断上,所以会体现出对资源的评价尺度上的差异性,为了适应这种状况,需要适当地修正余弦相似性算法。修正的余弦相似性算法在计算用户对资源评分时减去用户对资源的平均评分,弱化由于用户间评价尺度的差异性带来的评分误差,因此较传统的余弦相似性算法得到更为准确地相似性值。
  3.产生推荐
  产生推荐是协同过滤推荐算法的最后一个步骤。产生推荐的计算过程是通过邻居集对资源的评分预测目标用户学习资源的评分:用户i对项目s的打分R,通过其他用户(即邻居集x中的用户)对s的打分计算得到,在预测了用户i对资源集s的评分R之后,取R值最大的前若干项资源推荐给用户i基于协同过滤的推荐算法流程如图1所示。
  
  (三)协同过滤推荐系统的案例分析
  协同过滤推荐算法作为一种高效的资源推荐技术,在电子商务及网上视频点播领域已经得到广泛、成功的应用。全球最大的图书销售网站Amazon(亚马逊),国内最大的电子商务网站Taobao(淘宝网),以及国内知名的视频网站Tudou(土豆网)等。在本节中,我们将Amazon网站的协同推荐算法作为案例加以分析。
  Amazon网站的协同过滤推荐算法与传统的算法有一定差异,它采用的是所谓的item-to-item协同过滤算法,类似于传统协同过滤推荐算法中基于项目(itern-based)的推荐算法,其算法流程如图3所示。
  与传统的协同过滤算法相比,hem-to-item~法的优点是:商品(项)之间的相似度计算可以离线进行,这提升了系统对用户请求的响应速度;同时,由于不同用户共同购买的商品数量很小,所以商品间的相似度计算更为快速。其不足之处在于:离线计算的形式不能实时地反映用户对商品的评价情况,影响了相似度计算以及推荐的精度。
  我们通过一个简单的实例进一步说明该算法的计算机过程。表2中的数据是一个简化的图书购买信息表,其中“1”表示购买,“O”表示未购买。
  对于上表,以“赵大”为例,说明item―t0一item协同过滤算法的计算流程:
  (1)根据用户购买行为生成“资源――用户”向量。将表中以书名划分的每一个条目转化为向量,各条目及对应向量如下:《TCP/IP协议解析》:Vecl=;《算法导论》:Vee2=;《人工智能》:Vee3=;《Linux~作系统》:Vec4=;《概率统计》:Vec5=。
  (2)两两计算资源条目间的相似度。此过程的计算操作可以离线进行,采用的是前文介绍的修正的余弦相似性计算方法。“赵大”购买了《TCP/IP协议解析》和《人工智能》两书,他们与其它书目的相似度为:《TCP/IP协议解析》:Sirel:=0.82,Sire=0.82,Siml4=0.82,Siml,=0.41;《人工智能》:Sim2l=0.82,Sim23=0.5,Sim24=0,Sim25=0.5。
  (3)产生推荐结果。通过对比得出,与《TCP/IP协议解析》有最大相似度的是《算法导论》和《人工智能》,与《人 工智能》最为相似的是《TCP/IP协议解析》、《算法导论》、《概率统计》,最后,推荐系统取两者的交集,将《算法导论》推荐给“赵大”。
  (四)协同过滤推荐算法存在的缺陷
  从Amazon的案例分析我们看到,协同过滤推荐技术可以为用户找到与其原有兴趣点最为契合的资源。然而,该技术产生精确推荐的前提是要有足够多的评分数据,即较高的用户――资源评分率。然而,对于大型的应用系统(电子商务网站、e-learning平台等)来说,其数据库中的资源项目的数量异常庞大。目前,在Amazon网站上销售的书目已超过310万之多,每个用户访问并评价的资源数目只占其中很小的一部分,这将导致用户――资源评分矩阵极为稀疏,由此产生协同过滤算法的第一个缺陷:数据稀疏。这种情况使得系统难以成功的产生邻居用户集,用户间的相似性计算非常耗时,产生的推荐结果也难尽人意。
  协同过滤推荐技术的第二个缺陷是“冷启动”问题。一方面,对于一个新注册的用户来说,由于系统中没有该用户的任何资源访问记录,所以系统无法为其找到邻居用户集,更无法对其进行推荐;同样的,对于一个新加入的资源,系统中也不存在对该资源的任何评分记录,因而无法被协同过滤算法所推荐。这两种“0评分”情况构成了协同过滤算法的“冷启动”问题。
  在下一部分,笔者将综合相关学者提出的协同过滤优化算法,形成一种组合的协同过滤推荐算法,提出个性化的学习资源推荐模型,以在一定程度上降低两大问题给推荐带来的负面影响。
  
  四、基于协同过滤技术的学习资源个性化推荐模型
  
  (一)两大缺陷的解决思路
  首先,对于“数据稀疏”问题,目前流行的有两种解决方法:一种是缺省值法,也就是将用户对未评分项目的评分统一设置设为一个固定的缺省值(通过情况下取用户对项目评分的平均值,如5分制中的2.5分),这个方法虽然简单,但可以在一定程度上缓解数据稀疏问题;另一种方法是项目评分预测法,可通过计算资源条目之间的相似性,由用户对相似项目的评分来预测用户对未评分项目的评分,使得用户之间共同评分的项目比较多,从而有效地解决用户评分数据极端稀疏情况下传统相似性度量方法存在的不足。
  其次,对于“冷启动”问题,我们引入内容过滤克服协同过滤推荐算法的不足。具体实现方法:对用户――资源的评分率设定一个阈值,当评分率小于阈值时即可认为处于“冷启动”状态,此时采用内容过滤推荐的方式。由于内容过滤是根据用户兴趣模型与资源向量空间模型的匹配来产生推荐,其对每个用户的操作都是独立的而不依赖其他用户对资源的评价,因此能够比较好地解决“冷启动”问题。
  
  (二)个性化推荐模型结构
  前文我们已经对协同过滤推荐算法从算法原理到实现过程都作了细致的分析,并提出了对协同过滤算法两大问题的解决思路。在此基础上我们构建了一个基于协同过滤技术的学习资源个性化推荐系统的理论模型,该模型主要包括数据支持、协同过滤推荐引擎和新进资源推荐等三个模块,如图4所示。
  1.数据支持
  数据支持模块为一个信息数据库,其中包含四个数据表:用户信息表、学习行为数据表、资源信息表、资源评分数据表。(1)用户信息表:存放学习者的个人信息,包括注册时填写的基本信息,以及通过Web数据挖掘技术得到的其它相关信息,如兴趣、习惯、资源偏好等。为了提升协同过滤推荐的准确度,要求系统对用户个人信息的掌握越详细越好。(2)学习行为数据表:保存学习者在学习过程中产生的学习行为记录。系统通过跟踪、记录学习者的各种行为数据,经过分析后抽取其中能较好体现学习者对资源偏好的行为数据(如对资源的下载、阅读、收藏、推荐等)记录到该数据表中。学习行为数据是用户对资源条目隐式评分的数据来源。(3)资源信息库:保存了系统中各种学习资源信息,如课件、案例、试题、新闻、文献等。(4)资源评分数据表:保存学习者对学习资源的评分信息。该表是协同过滤算法的主要数据支撑。协同过滤算法通过分析用户――资源评分数据、计算用户或者资源之间的相似度来为用户产生推荐。
  2.协同过滤推荐引擎
  该引擎是推荐系统的核心模块,学习资源个性化推荐实现的中枢,其实现流程如图5所示。
  整个推荐引擎的算法流程可以概括为以下几步:第一步,检索数据库,形成用户――资源评分矩阵;第二步,计算数据稀疏度,在此把数据稀疏度定义为:
  第三步,根据稀疏度值选择用何种方法对协同过滤算法进行修正。此处,我们设置了一个阈值,Th value’作为选择进行评分预测或者内容过滤的临界值。当SparsityTh value时,将采用评分预测算法进行修正;第四步,形成邻居,并最终对用户产生推荐。
  3.新进资源推荐
  该模块主要针对协同过滤推荐技术中“冷启动”问题而设计。它的主要功能是分析每个学习者的兴趣、爱好与专业(职业)类别,并为其推荐相关领域的最新资源,以提高最新资源的被访问率。协同过滤推荐的基础是用户对资源的评分,但是一个刚加入到资源库的资源如果还没有被学习者访问和评价而一直处于被访问的等待队列中,那么它将永远没有机会为系统所推荐。通过新增这一模块,能在一定程度上克服协同过滤中的冷启动问题,提高新人库的学习资源被访问的机率。
  
  (二)隐式评分的引入
  协同过滤推荐算法的一大优点是对各种不同的资源类型都具有很好的适用性,这使得该算法可以轻易地从电子商务领域移植到e-learning系统中。然而e-learning系统中学习者的学习行为有异于电子商务领域中消费者的购买行为,前者要考虑的因素更多。考虑到e-learning系统存在这样的情况:即有一部分未被评分的学习资源事实上已经被学习者点播或者学习。我们可以通过分析用户对于这一部分资源的学习行为,形成一个隐式评价模型。用户的学习行为中如果出现了表示用户对资源喜好的行为因素(下载、收藏、推荐、学习时长等),就可以把这些行为加权转化为用户对资源的隐式评分。
  隐式评分是通过计算用户各特定行为或者行为组合的分值而得到的。如表3所示,为了方便期间,我们用D、c、R、T四个字母分别代表下载、收藏、推荐、学习时长(>30min)等四种行为,资源评分的最高分为10分。
  在e-learning系统中引入隐式评价有两个好处:第一,通过用户自身的学习行为来计算其对资源的评分,具有比预测更高的可靠性;第二,可以增加资源的评分率,使得预测算法有更多地评分数据可以参考。这将在一定程度上缓解协同过滤算法的“数据稀疏”问题,从而间接地提高了预测评分的准确性。
  
  (三)有关模型的几个关键问题的讨论
  为了满足学习者的个性化学习需求,我们从学习资源人 手,提出了基于协同过滤技术的学习资源个性化推荐系统模型。该模型能有效指导e-learning个性化学习环境的设计,提高e-learning绩效。但是,这其中有多个因素会影响个性化推荐的精度,降低算法的推荐效率,从而导致推荐结果难以满足学习者的个性化学习需求。
  1.学习者兴趣偏好的获取及更新
  在个性化推荐系统中,学习者的兴趣和偏好的地位相当于坐标系中的参照点。因为一个好的个性化推荐系统所推荐的资源应能够很好地符合每个用户的兴趣、偏好,所以,学习者兴趣、偏好的抽取过程与方法在推荐系统中显得极为重要。另外,由于学习者的兴趣、偏好和知识水平不是一成不变的,推荐系统应能够很好地追踪这些变化并及时地更新相关信息,以满足学习者新的个性化需求。
  2.学习者学习行为的跟踪
  学习者特定的学习行为能体现出学习者当前的学习偏好。例如,他学习了哪份教材第几章第几节的内容,这就说明他当前比较热衷于学习这一节所涵盖的知识点,可以对其进行有针对性地推荐。同样,学习者收藏、下载、推荐学习资源的行为说明学习者对这项资源感兴趣。因此,系统应该有效跟踪这类学习行为,并将行为数据记录到数据库,作为协同过滤推荐中隐式评分的重要依据。除此之外,推荐系统应力求更全面地掌握其它能够体现用户偏好的行为要素,以期能够更为精确地掌握用户的兴趣、爱好,并对其产生最为合适的资源。
  3.协同过滤推荐中两大问题的进一步研究
  虽然在我们提出的组合协同过滤推荐算法中引入了项目评分预测和内容过滤推荐的方法,以解决协同过滤算法存在的“数据稀疏”和“冷启动”两大问题,但组合协同过滤推荐算法中仍有两个关键点需要进一步深入考虑:(1)阈值的选取。阈值决定了何时用项目评分预测与何时用内容过滤推荐,那么阈值在何值时才能使推荐引擎具有最优的推荐精度?这需要进一步的考证;(2)两大问题更优解决方法的探寻。诚然我们提出的组合算法能在一定程度上缓解协同过滤算法的两大问题,但是否还存在更为有效的解决办法,需要我们开展进一步的工作去探究、找寻,以期找到更为完美的解决方案
  
  五、结论与未来研究展望
  
  协同过滤推荐技术诞生于电子商务领域,并取得了较为成功的应用。由于电子商务系统中的商品条目与e-learning系统中资源条目具有某些相同属性,在本研究中我们尝试着将这一技术引入到e-learning学习环境设计中。通过分析协同过滤推荐技术的工作原理及其关键算法,我们提出了基于协同过滤技术的学习资源推荐系统的模型。通过分析学习资源个性化推荐系统模型的构成要素,我们重点讨论了协同过滤推荐技术中的三个关键问题。
  本文介绍了笔者对协同过滤技术在学习资源个性化推荐中的应用所作的探索性研究,呈现了后续需要重点突破的关键问题:(1)学习者学习兴趣的动态变化与跟踪问题;(2)除显式评分之外,学习者的其它学习行为如何转化为资源的隐式评分;(3)如何有效解决协同过滤技术中冷启动和数据稀疏性问题。在后续的研究中,我们将重点深入研究以上三个问题,并开发一套面向中小企业培训的e-learning资源个性化推荐系统。

猜你想看
相关文章

Copyright © 2008 - 2022 版权所有 职场范文网

工业和信息化部 备案号:沪ICP备18009755号-3