当前位置:首页 > 演讲稿 > 国地税数据清理【ETL技术在地税数据集中项目中的应用探讨】
 

国地税数据清理【ETL技术在地税数据集中项目中的应用探讨】

发布时间:2019-05-06 04:00:43 影响了:

  摘要:随着国家税务部门对涉税数据精确化管理的需要,迫切要求将各级税务机关的征管数据汇总,并进行分析和预测。鉴于我省核心征管系统省、市两级部署,分散应用,所以在数据集成的过程中对数据的准确性和及时性要求比较严格,就必须使用ETL技术来实现三级数据的集成。
  关键词:ETL技术;税务部门;数据集成应用
  中图分类号:TP311文献标识码:A文章编号:1009-3044(2012)21-5255-03
  ETL Technology in Land Tax Data Centralized Project
  TANG Liang
  (Local Taxation Bureau of Anhui Province,Electronic Tax Information Management Center,Hefei 230061,China)
  Abstract:Along with the national tax authorities on tax data accurate management needs, requires the tax authorities at all levels of adminis tration and data collection, analysis and prediction. In view of our province core collection system of provincial and municipal levels, de ployment, distributed application, so the data integration in the process of data accuracy and timeliness requirements more stringent, you must use ETL technology to achieve level three data integration.
  Key words:ETL technology;tax department;data integration application
  为了加大地税系统数据向国家税务总局集中的力度,进一步提高税务系统税源监控和分析的能力,不断深化“信息管税”工作,国家税务总局于2010年5月底下发了《国家税务总局关于做好抽取全国地方税务系统税收征管有关数据准备工作的通知》(国税函〔2010〕235号),要求各省地方税务部门做好数据抽取相关准备工作,为了推进这一项目的实施,我省于2012年1月~3月启动了这项工作,经过近半年时间的施工和试运行,实现了全省17个市局核心征管数据的集中工作,系统目前运行情况比较稳定。
   1系统功能
  本项目为了完成从17个市局征管系统抽取数据的功能,将系统分别从功能、数据、技术三个角度描述系统的设计内容。功能实现方面,系统提供配置管理、数据抽取、质量管控、系统管理四个功能域。数据存储方面,将源系统表、目标系统表、系统配置表归属到抽取数据层、目标数据层、控制数据层三个层面中。技术实现方面,系统按照分层的思想将系统划分为了数据层、控制层、展现层三个层面。数据层采用Oracle、Sybase等主流数据库以及ETL平台进行数据的实际存储和抽取;控制层采用先进的工作流技术,完成抽取流程的定制和控制;展现层主要使用Ext/Flex等富客服端技术实现友好的客户界面。
   2 ETL过程
  数据抽取过程是首先检查17个市局系统数据库中的数据合理性,检查正确后将数据抽取到抽取数据层。系统进一步根据控制数据层的内容对抽取数据层的数据进行转换,将转换后的结果加载到目标数据层,目标数据层的数据供总局进行数据抽取。上述过程构成一个数据抽取的流程作业,每个作业都可以配置自动后台执行或页面上手工抽取,在执行过程中的某个环节一旦出现异常时,将通过异常管理模块进行通知和干预。
  2.1数据检查环节
  在数据检查环节,主要从接口数据的正确性、及时性和完整性等三个方面进行检查,同时根据入库是否异常、接收文件的时间等角度进行分析;对于业务应用系统的数据库接口,则主要从接口的及时性和一致性方面进行检查,通过比较源系统的相关指标,分析数据的可信度。
  2.2数据抽取环节
  数据抽取是指从数据源系统中获取数据,抽取策略包括抽取方式(增量、全量)、抽取周期等。
  系统支持多种不同系统平台和数据类型的数据抽取。包括各种关系型数据库系统和各种文件格式的源数据等。
  本次的数据抽取是从17个市局征管系统中把征管相关数据抽取到本系统的抽取数据层。每月初,系统17个市局征管系统将数据以数据文件的形式,完成全量复制;每天通过数据库接口通过数据抽取工具以增量复制方式完成数据同步。
  2.3数据转换环节
  数据转换包括格式和类型数据的转换、数据翻译、数据匹配、数据聚合以及其它复杂的计算等。多数情况下,数据源到本系统之间主要的转换是格式转换、数据翻译、数据匹配。
  本次系统的数据转换主要是将各个数据源的数据按照国家税务总局的代码表进行转换,将转换的结果放到目的数据层。
  2.4数据加载环节
  数据加载是指将抽取转换后的数据加载到本系统中,包括数据行加载和数据块加载。在综合考虑效率和业务实现等因素基础上确定数据加载周期和数据追加策略。
  2.5异常管理
  主要通过计数/统计数平衡、拒绝数据量等方便评估数据复制、ETL的具体运行情况,以发现数据整合过程中有关数据的问题,并进行必要的处理。
  支持检验点。当外部数据记录特别庞大时,如果因为某种原因发生故障中断后,可以从最近的校验点开始处恢复处理。支持外部数据记录的错误限制定义,同时将发生错误的数据记录输出。

猜你想看
相关文章

Copyright © 2008 - 2022 版权所有 职场范文网

工业和信息化部 备案号:沪ICP备18009755号-3