数据整合进入高潮 数据整合
在经历了2004、2005年的基础设施的广泛建设浪潮后,从今年开始,各企事业单位都基本进入了数据大集中及数据整合0的时期,怎样把前期投入的设施用起来,真正为企业带来效益成了他们又一轮追逐的目标。本文通过分析义乌人劳社保局在数据整合技术方面的理论研究及实践应用,旨在给广大的读者一个借鉴。
义乌市人事劳动社会保障局(以下简称义乌人劳社保局)依托有利的经济条件、社会环境等方面的优势,在“金保工程”信息化建设中取得了非常大的进步,养老、医保、就业、人才四大数据资源的建设成为整个“金保工程”信息化建设的核心。
为了全面、准确、及时地收集整个义乌人事劳动社会保障业务信息,充分挖掘数据库中数据的价值,需建设一个宏观决策分析系统,借助现代信息技术,对数据进行汇总、整理、交换和分析等加工处理,形成宏观决策数据库,为人事劳动社会保障政策的制定提供依据和支持,对政策执行情况进行监测。
宏观决策支持系统建设采用先进的数据整合技术,充分整合养老、医保、就业、人才数据资源,并建设一个统一的数据整合平台。该数据整合平台能将四大数据生产库的数据,经过抽取、规则转换、清洗、加载,形成整合资源库,该数据库主要存储人事劳动社会保障业务统计信息、结果性数据等,同时该整合数据库还为宏观决策提供数据支持。
数据整合存在的问题
在信息化时代新环境下,劳动和社会保障部门领导要做出一项决策,往往依赖于信息系统。比如: 实现常规统计分析、监测预警、预测分析、风险分析等; 进行数据、图表、多媒体等各种形式的查询; 对比计划和执行情况; 对比本期和历史情况; 对比部分和总体情况; 要求能够进行数据挖掘; 监测劳动保障政策的执行情况; 预测政策出台效果; 监测劳动力资源结构、市场需求、就业趋势、就业率变化状况; 预测就业结构及变化趋势; 监测基金收缴、发放、运转、储备和调剂状况; 预测基金支付风险; 监测劳动保障待遇享受对象动态变化; 预测人数变化趋势等等,通过多手段综合运用,建立完整而科学的决策方法。
这些决策分析需要的数据通常都是统计数据,但是在现有信息系统下进行决策分析会比较复杂,因为现有数据主要存在如下几个问题:
数据源利用问题 劳动和社会保障的信息化建设已经进入了全面的实质性应用阶段,各个应用系统积累了大量的数据。但是这也给决策分析带来一个问题:做出一个决策分析往往需要查询多个基于各种异构数据源的业务系统和外部系统后,进行大量数据分析后才能作出此决策。其工作量大,数据利用率不高,且容易出现人为差错,从而影响决策的质量。
数据源质量问题 现有业务信息系统的数据为大量的业务数据,这些数据无法提升为信息,及时提供给决策部门; 并且已有的业务信息系统平台及开发工具互不兼容,直接提取这些业务数据比较麻烦。
数据源标准问题 每个业务系统都有对于大量的数据,但是没有统一的数据接口,也没有一种通用的标准和规范:如各个业务系统使用不同的指标代码体系和编码体系、使用不同的数据格式等,导致各个业务数据库之间无法直接集成。
历史数据问题 统计分析需要大量的历史数据作为它的基础,而现阶段的业务系统的历史数据存放不是非常完整。
基于以上问题,需要建设一个数据整合平台,按照宏观决策的需求,利用数据整合技术,将相关数据提取、分类与整理后,经过数据计算与变换,最后形成宏观决策所需的数据和信息,保存在数据整合资源数据库中,为决策系统提供数据支持。
数据资源分析
数据整合资源库的数据都是一些统计和分析数据,如:每月各险种基金缴费统计、各年龄段基金缴费统计等。这些来源都是生产数据库,所以在数据整合之前,需对现有生产数据资源进行归类分析。经过简单的数据归类分析,现阶段义乌人劳社保信息系统生产数据资源主要分为公共信息数据集、养老基金数据集、医保基金数据集和就业基金数据集等。
1. 公共信息数据集是实现各险种基础信息统一管理的基础数据集。主要包括:
● 个人基本信息:包括个人信息库、IC卡信息库等。
● 单位基本信息:包括单位基本信息库、单位所属分支机构信息库、社保机构信息库、社保机构经办人员库、银行信息库等。
● 参保基本信息库:包括单位参保信息库和个人参保信息库等。
● 参数信息库: 职工平均工资信息库、帐户记帐利率信息库、银行利率信息库、社会保险缴费比例信息库、代码库、帐户记帐利率信息库、银行利率信息库等。
2. 养老基金数据集主要包括:
● 单位应付信息库: 单位应付信息库、单位实付信息库等。
● 离退休人员信息库:离退休人员变更信息库、离退休人员帐户信息库、离退休人员待遇信息库等。
● 养老保险待遇信息库:养老保险待遇支付信息库、养老补发退发信息库、养老供养亲属基本信息库、养老供养亲属待遇信息库等。
3. 医疗基金数据集主要包括:
● 医疗参保人员信息库:医疗保险参保人员基本信息库、医疗包干人员基本信息库、参保人员及帐户变动信息库、人员就诊档案信息库等。
● 医疗机构信息库:定点医疗机构结算参数库、定点医疗服务机构信息库、定点医疗机构预付费用信息库、定点医疗机构应付信息库、定点医疗机构年度结算信息库、定点医疗机构药品目录库等。
● 医疗待遇信息库: 费用分类信息库、医疗保险结算费用信息库、医疗包干人员预付费用库 、医疗包干人员费用结算库、医疗保险个人帐户返还库、医疗费用分段个人自付比例库、定点医疗机构预付标准库等。
4. 就业相关数据集主要包括:
● 就业服务机构信息库:社保代发机构基本信息库、社保代发机构拨付记录库、就业机构服务情况库等。
● 参保人员机构信息库:参保人员失业保险信息库、人员失业情况信息库、失业人员变更信息库、个人职业指导和介绍就业情况库等。
● 失业待遇信息库: 失业待遇信息库、失业人员待遇支付明细库、失业保险补发退发信息库、失业待遇金额标准库、失业保险金享受期限标准库等。
● 人才交流信息库: 人才引进信息库、人才派遣信息库、人才就业信息库、人才调动信息库、再就业信息库、人事代理信息库、毕业生落户信息库、企业招聘信息库、个人应聘信息库等。
数据整合的实现方式
义乌人劳社保局信息系统数据库大多为Oracle数据库,数据整合实现方式通常可以采用数据库开发技术和ETL技术实现。
数据库开发技术 利用数据库开发技术的数据整合主要指利用数据库(主要是ORACLE数据库)本身的功能,如触发器、PL/SQL存储过程、DBLINK等功能完成,完成对各个业务系统所需要数据的抽取、查询和关联等。
该数据整合实现技术运用在义乌人劳社保信息系统有如下优势:
1. 由于义乌人劳社保信息系统都是ORACLE数据库,采用ORACLE的开发技术,适合于ORACLE数据库之间的数据集成。
2. 投资少,基本都是靠开发人员手工编程为主,只需要一些开发费用。
但是该数据整合实现技术也存在一些局限性:
1. 扩展性较差。由于都是开发人员手工编程,后期的维护成本较高,特别是在决策需求发生变化时,需要开发人员修改程序源代码。
2. 数据整合效率问题。由于数据库都靠开发商编写,在系统日趋庞大的情况下,在面对复杂的数据整合问题上,效率难以得到保证。
ETL技术 通过ETL技术及专业ETL软件,即数据抽取(Extract)、转换(Transform)、装载(Load)能将数据从原业务数据库经过抽取,进行转换,最后加载到目标数据库,实现业务数据之间的整合。
该数据整合实现技术运用在义乌人劳社保信息系统有如下优势:
高效率。ETL软件的数据抽取、转换、加载的效率非常高,特别对于大数据量的抽取。并且支持对Oracle9i增量数据抽取。
改进数据质量。能够根据各种条件校验源数据和目标数据质量,对垃圾数据进行清洗。
强大管理功能。能够通过WEB管理界面对数据抽取策略执行制定时间触发方式,对抽取结果进行分析等。
多平台、多数据源支持。支持各种平台、各种数据库系统(如Oracle、SQLServer等)以及不同版本数据库之间的数据抽取。
具备多种数据转换控件,能够完成各种非常复杂的数据转换工作。
但是该数据整合实现技术也存在一些局限性: 投资费用较为昂贵,实施周期通常较长。
数据整合的实施
数据整合实施工作大致可以分为4个阶段:
第一阶段为业务分析阶段。 该阶段主要包括了解需要采集的数据结构定义,和数据表之间的业务联系,例如:需要了解系统中如社保个人信息及帐户、单位个人信息及账户、退休人员信息等业务表的具体数据结构定义,表之间的相互关联等。
第二阶段为设计实施阶段。该阶段主要定义数据整合规则及策略。数据整合规则定义包括字段映射、合并、函数计算等,来实现业务需求定义的数据转换功能。数据整合策略主要定义时间策略(定时策略、自动重试、手工策略、事件触发等)。
第三阶段为数据校验阶段。数据校验阶段是数据整合阶段最重要的阶段。由于不同业务信息资源之间存在着语义上的区别,这些语义上的不同会引起各种不完整甚至错误信息的产生,语义冲突会带来数据集成结果。在系统正式运行之前,必须建立严格的数据校验机制,以保证生产数据和整合平台数据的一致性,可建议采用如下方法:
● 数据的采样:每张表采集定量的数据作为参照,跟转换后数据进行比较。
● 数据的条数:每张表记录原始数据的记录总数,跟转换后数据进行比较。
● 数据的重要指标汇总:对于各主要指标,要跟转换后进行比较。
第四阶段为系统上线阶段。将设计好的数据整合流程正式发布,并可以设定计划定时执行 ,系统管理人员可以通过监控界面,进行任务监控和跟踪。随着数据转换业务逐渐增加,管理人员还可以根据具体的业务需求,进行数据转换加载任务的时间计划修改和维护,管理人员可以自己修改计划任务,合理安排所有的数据转换任务能够在规定的时间范围内完成所有的数据转换和加载任务。
数据整合平台能够实现多个业务应用系统、多种异构数据源信息的综合利用,为宏观决策水平的提高提供基础数据。但是,数据整合是一项复杂而又基础性的工作,在实际整合过程中会遇到许多想象不到的问题,只有将这些问题一一化解,对数据转换的结果认真校验,才能确保数据整合的准确性,才能最终达到数据整合平台建设“完整、正确、统一、及时、安全”的要求。