当前位置:首页 > 思想汇报 > 数据挖掘前景 [数据挖掘技术在寿险客户购买行为分析中的应用]
 

数据挖掘前景 [数据挖掘技术在寿险客户购买行为分析中的应用]

发布时间:2019-01-10 04:11:47 影响了:

  摘要:随着中国加入WTO,我国寿险市场的竞争日益白热化。我国寿险行业经过近二十年的发展,取得长足进步,积累了大量客户数据。本文的目的就是希望在这些公司所积累的寿险客户对产品的购买记录上,通过数据挖掘的方法,发现客户对险种类型选择的模式。在数据挖掘中,通过对客户的数据进行抽取、清洗和预处理,生成数据挖掘库,并使用SPSS Clementine数据挖掘工具,利用C5.0算法建立决策树模型,并对不同的模型进行了分析和对比,以发现客户在寿险产品选择上的一些模式。
  关键词:数据挖掘;数据仓库;寿险;决策树;C5.0
  中图分类号:TP311文献标识码:A文章编号:1009-3044(2007)18-31481-03
  Application of Data Mining Technology to Analyze Life Insurance Customers" Purchase Behavior
  ZHANG Xiao-yan1,QI Chun-ying2
  (1.Educational Information Technology Center,South China Normal University,Guangzhou 510631,China;2.Xuzhou TV University,Jiangsu 221006,China)
  Abstract:With China"s entrance to WTO, the competition of domestic life insurance market is becoming red-hot day by day.With two decades" development, our life insurance has achieved rapid progress and accumulated a large amount of data of their customers.To find the rule that the customers selected their life insurance policy.the data mining technology is used based on their purchasing records.Data deriving, data cleaning and data pre-processing are necessary steps before data mining. After that, decision tree models were set up with C5.0 algorithm in SPSS Clementine tool and different models were compared and analyzed to find out some useful rules in the customers" decision about different life insurance product..
  Key words:data mining;data warehouse;life insurance;decision tree;C5.0
  
  1 引言
  
  1.1研究的背景和动机
  随着计算机技术和信息技术的发展,信息的增长速度呈指数上升。有数据表明,进入二十世纪90年代,人类积累的数据量以每月高于15%的速度增加。面临浩瀚无际的数据,如果不借助强有力的分析技术,仅依靠人的能力来理解这些数据是不可能的,因此,人们需要强有力的数据分析技术来满足对海量数据分析的需求。在这种情况下,从数据库中发现知识及其核心技术――数据挖掘技术应运而生,并显示出强大的生命力。
  寿险行业在我国虽然起步较晚,但自改革开放以来,寿险业在我国取得长足发展,每家寿险公司都积累了自己庞大的信息库,面对这些海量的数据,如何加以合理分析与利用,是每家公司急于要解决或正在解决的问题。基于这样的一个背景,本文提出了在寿险行业中应用数据挖掘的方法对客户对寿险产品购买行为进行分析的研究
  1.2研究现状
  国内的寿险业经过近二十年的发展,积累了大量的客户数据和代理人数据,目前国内的各大寿险公司已经从数据仓库着手,建立自己公司的BI系统,从目前的规模、IT人员技术的积累、市场竞争的加剧等客观情况来看,数据挖掘在寿险业的应用的时机和条件都日趋成熟,只是在目前的条件下,数据挖掘在寿险行业的成功应用并不能一蹴而就,而需要一个循序渐进的过程。
  1.3寿险行业数据挖掘应用范围
  在寿险产品的销售过程中,一共有四种角色参与:投保人和被保人、寿险代理人和保险人,其中投保人与被保人都称作公司的客户,数据挖掘在寿险业的应用范围非常广泛,具体包括以下方面:
  对客户而言,数据挖掘的应用范围主要包括:客户利润分析、客户生命周期价值分析以及客户聚类分析;
  对代理人而言,数据挖掘的应用范围主要包括:为代理人队伍的正确部署准备决策依据和潜在优秀代理人的发掘;
  对保险公司而言,数据挖掘的应用范围主要包括:风险模型的建立和索赔分析;
  
  2 数据挖掘技术及其现状
  
  2.1数据挖掘的概念
  数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。这些数据可以是结构化的,如关系数据库中的数据,也可以是半结构化的,如文本,图形,图像数据,甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的,可以是演绎的,也可以是归纳的。发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等,还可以进行数据自身的维护。数据挖掘借助了多年来数理统计技术和人工智能以及知识工程等领域的研究成果构建自己的理论体系,是一个交叉学科领域,可以集成数据库、人工智能、数理统计、可视化、并行计算等技术。
  2.2数据挖掘的主要步骤、任务、方法和应用
  数据挖掘一般有以下几个主要步骤:数据收集、数据整理、数据挖掘、对数据挖掘结果的评估以及最终的分析决策。数据挖掘过程需要多次的循环反复,才有可能达到预期的效果。
  数据挖掘技术的目标就是从大量数据中,发现隐藏于其后的规律或数据间的关系,从而服务于决策。
  数据挖掘主要任务有:数据总结、分类、关联分析和聚类分析。
  数据挖掘工具采用的主要方法包括决策树、相关规则、神经元网络、遗传算法,以及可视化、OLAP联机分析处理等,另外也采用了传统的统计方法。
  目前,数据挖掘的研究和应用非常热门,应用主要集中在以下几个领域:金融、市场业、工程与科学研究、产品制造业、司法和证券业。
  2.3数据仓库与数据挖掘
  数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。数据仓库本身是一个非常大的数据库,它储存着由组织作业数据库中整合而来的资料,特别是指从联机事务系统OLTP(On-Line Transactional Processing)所得来的资料。企业数据仓库的建设,是以现有企业业务系统和大量业务数据的积累为基础,整个数据仓库系统包含四部分:数据源、数据的存储与管理、OLAP服务器和前端工具。
本文为全文原貌 未安装PDF浏览器用户请先下载安装 原版全文   数据挖掘是在数据仓库的基础上进行的,若将数据仓库比喻作矿坑,数据挖掘就是深入矿坑采矿的工作,若没有够丰富完整的资料,是很难期待数据挖掘能挖掘出什么有意义的信息的。
  
  3寿险客户购买行为数据集市设计
  
  3.1数据集市总体结构和开发模型
  在多年开发和维护寿险客户分析系统的基础上,为了减少开发与维护的工作量,同时为了在客户的购买行为上开展数据挖掘,作者决定在SQL Server数据库上通过对业务数据的抽取、清洗与转换,建立有关客户购买行为的数据集市,并通过建立多维数据集,对不同的决策层采用不同的工具展示他们所需要的数据,其总体结构如图1所示:
  图1 数据集市总体结构
  本文的实验是采用数据集市(Data Mart)的形式。数据集市开发模型的建立如图2所示:
  图2 数据集市开发模型
  
  4 客户购买行为的决策树分析
  
  4.1数据预处理
  4.1.1数据抽取
  总公司可以直接从数据库中提取数据,分公司则采用了微软的DTS(数据转换服务),通过定义一个源数据端和一个目的数据端,通过DTS在两端之间传输数据。建立好抽取的模型后,再用SQL Server的企业管理器,定义作业,指定每天凌晨定时从总公司的业务系统里取数据。
  4.1.2数据清洗
  寿险业的数据与其他数据一样,常常是含有噪声、不完全和不一致的,数据预处理能够帮助改善数据的质量,进而帮助提高数据挖掘进程的有效性和准确性。
  对数据的清理,主要包括一下几个方面:遗漏数据清理、噪声数据处理和错误数据处理。
  4.1.3数据转换
  (1)日期的转换
  在业务系统上,日期都是用数值型表示。对于生效这类日期是以8位的数值表示,如20040101,而对于客户的出生日期是用5位数值表示,如20040101表示为40101,所以在向数据装载数据之前,需要把这两类日期表示方法进行统一处理,如把40101作如下转换:40101+20000000 = 20040101
  (2)保费的转换
  对于寿险产品,缴费方式分为年缴与趸缴,趸缴是一次性缴完所有保费,所以趸缴保单的保费是远远大于年缴保单的。而年缴保单不同的缴费年期的缴费金额也不同的。而对于寿险公司来讲,对这些保单的管理的投入也是不同的,所以通常会对这些单做标准保费的转换。
  对于年缴保单,标准保费是一倍自然保费的,对于趸缴保单,标准保费是等于自然保费的10%。
  4.2 数据分析与数据展示
  对于公司不同层级的决策层,由于使用电脑的频率不同,采取了不同的展示方法,对于中层的决策层,由于使用电脑机会较多,通过多维数据模型,向他们展示不同维度的数据分析。维度是经过对业务部门需求分析得出的,下例是分成三个维:
  时间维:表明该保单同意承保日期
  险种维:根据被保险人所购买险种类型归类的层次结构
  区域维:对各分支机构进行归类的层次结构
  多维数据集的数据展示如图3所示:
  图3 营销数据的多维分析
  4.3 数据记录的选取
  根据预处理后的数据,可以从中得到被保险人的详细资料,包括被保险人的年龄、性别、家庭年收入、职业、婚姻状况、学历及所购买的寿险产品代码等,其数据片断如图4所示。
  其中的职业分类(典型职业):1表示普通文员,2 表示外务员,3表示司机,4表示厨师,5类表示采矿工人,6类表示伐木工人。由于客户在选择寿险产品的时候,主要是看它的主险部分,而且无论从保费还是从保障来讲,都是主险占绝对影响力,而且在寿险公司对保单的件数的统计都是以主险为单位的,而不考虑附加险。所以对于客户对险种的选择,只选取了以主险为单位的那些记录。这样,结合被保人与客户对主险的选择一共有24736条记录。
  图4 所选择的数据片段
  4.4决策树模型的建立
  按照保险对象来分,分为人寿险、健康险和意外险三类。由于意外险的在我们公司是以卡单的形式存在的,没有特定的主险形式,所以我们对这些单分成两类。这种分类方法是从保险专业的角度来讲的,所谓人寿保险就是仅以人的生命为保险对象,以人的自然生死为保险金给付责任的人身保险。健康保险是以人的身体或生理机能为保险对象,以疾病或意外伤害事件所致的医疗费用支出或收入损失为保险责任的人身保险。我们公司的健康险包括三个险种:D01P、D05P和P01P,这几款险种的特点是全消费型,而且比较贵,都是对重大疾病的保障。按此类方法,我们把健康险定为A类,非健康险分为B类,记录片段如图5所示。
  图5 分类数据片段
  记录分布如图6所示:
  图6 记录分布
  分类的决策树模型如图7所示:
  图7 分类的决策树模型
  决策树产生的分类规则如图8所示:
  图8 决策树产生的分类规则
  4.5结果分析
  从分类产生的结果来看,可以明显看到以下规则:
  (1)年龄在17岁以下和45岁以上的客户购买健康险的比率较少:
  分析:对于17岁以下的那些客户,由于本身罹患重大疾病的机率较小,而国内的寿险客户在选择寿险产品的时候多从自身所处的情况出发,对周围比较容易发生的风险比较关注,而对离自己较远的那些风险则是相对关注较少,所以这类客户多数是不考虑购买重大疾病的保险。而对于年龄45以上的那些客户,考虑到费率的原因,这类客户在这个年龄段购买重大疾病保险费用高,举例来讲,对于一个25岁的健康男性,如果购买保额为1000元的重大疾病保险,按20年缴,只需要33元/年,而同样的保额对于一个45岁的人来讲,则需要56元/年,所以多数客户如果要选择健康险,都是趁比较年轻时费率相对较低的时候购买,而不会在上了一定年纪后费率较贵的时候购买。
  (2)对于在17岁到45岁之间的客户,是否购买健康险首先是由其家庭年收入多少决定,对于年收入在41000元以下的那些客户较少选择健康险,分析其原因是与健康险本身的特点有关,前面已经分析过,这三款健康险都是纯消费型的产品,既没有储蓄的性质,也没有投资的性质,也就是在保障期满,所缴纳的保费是没有返还的,而一般的人寿险特别是养老型的险种都具有一定的储蓄性质,就算是纯保障的产品,也会相对比较便宜。所以对于家庭年收入较低的家庭,考虑健康险的也比较少。而对于这个年龄段的客户,如果收入在41000元以上的家庭,职业类别是1类和2类的,也就是那些办公室文员、行政内勤、商店经营人员选择健康险的比较多,分析这类人员的特点多为企事业白领阶层,工作紧张压力大,平时活动和运动量都相对较少,但是对自身的身体健康却非常在意,而不太看重保险的投资与养老的功能,所以这类人更多会选择健康型的险种。
  (3)对于三类职业,结果中没有明显的规则发现,但是异常数据比较多,共9287条记录,占总数的35%,而第3类职业在我们的职业分类表里,多为司机类职业。由于寿险公司在对被保险人的风险类型进行评估的时候,如果出现多个类型,是取高风险的职业类别。因此要根据该类客户所从事的职业进行进一步分析,如从事的职业是与驾驶车辆有关的职业,则购买健康险的客户比较多,否则,符合前两类分析结果。
  
  5 总结
  
  本文在数据挖掘理论研究的基础上,利用数据挖掘的决策树的方法,对寿险公司客户在选择寿险产品的规则上进行了分析与研究。较为系统性地研究了数据挖掘方法在寿险客户购买行为分析上的应用。提出并建立了我公司寿险客户产品选择的决策树模型,以便能对寿险代理人在展业过程中,有针对性地为客户设计寿险计划有所帮助。
  
  参考文献:
  [1]Jiawei Han,Micheline Kamber.Data Mining Concepts and Techniques[M].San Mateo:Morgan Kaufmann Publishers Inc,2001.
  [2]Microsoft Corporation(Microsoft SQL Server 7.0的经典指南分析服务})[M].北京:清华大学出版社,2001.8.
  [3]Jiawei Han Michaline Kamber(加)范明,孟小峰.等.译.数据挖掘概念与技术[M].北京:机械工业出版社,2001.8.
  [4]朱明.数据挖掘[M].北京:中国科学技术大学出版社,2002.5.
  [5]飞思科技产品研发中心.SQL Server 7.0 OLAP服务设计与应用[M].北京:电子工业出版社,2002.1.
  [6]郑纬民,黄刚.数据挖掘工具及其选择.计算机世界,1999年第20期.
  [7]单承戈.决策支持系统问题模型的可视化构造方法[J].计算机应用研究,2000,23(9):25-27.
  注:本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文。 本文为全文原貌 未安装PDF浏览器用户请先下载安装 原版全文

猜你想看
相关文章

Copyright © 2008 - 2022 版权所有 职场范文网

工业和信息化部 备案号:沪ICP备18009755号-3