1.企业异构数据分析
企业在信息化建设中,由各个业务系统的建设和实施数据管理系统的技术性、阶段性以及其它经济和人为等因素影响,从而使企业在发展过程中积累了大量不同存储方式的业务数据,同时采用的数据管理系统也各不相同,包括简单的文件数据库和复杂的网络数据库,构成了企业异构数据源。在很多情况下,业务管理系统分布在不同位置的网络上,多个业务管理系统中的数据被访问才能作出一个决策。因此在企业的信息化过程中,异构数据源的整合和集成式经常遇到的问题,影响了数据共享程度,也是造成信息化建设投资重复的一个主要因素。总的来说,数据源的异构是由于它所依赖的应用系统、数据库管理系统、操作系统的不同以及在存贮模式上的不同而引起的。
企业数据源异构性主要有以下几个方面的表现:
(1)来源异构,主要是企业内部和外部数据源之间的异构。
(21系统异构,数据源所依赖的操作系统和业务应用系统以及数据库管理系统的不同构成的系统异构。
2.数据集成的模式
数据集成提供了具有一致性、完整性、安全性的数据,这些数据可以用来进行信息查询、数据访问、决策支持访问,为运行在平台上的各种应用和系统服务。数据集成解决了在不同应用和系统间的数据交换和共享的问题,在数据源和数据库上进行的数据集成模式主要有以下三种:
(1)数据联邦模式
数据联邦模式指不同的应用共同访问一个全局虚拟数据库,通过全局虚拟数据库管理系统为不同的应用提供全局信息服务,实现不同的应用和数据源之间的信息共享和数据交换。数据联邦模式的具体实现由客户端应用、全局信息服务和若干个局部数据源三部分组成。客户端应用程序发出数据访问请求,全局信息服务对请求进行简单的分析处理,对于必须由全局虚拟数据库处理的访问请求,通过底层通信系统将请求信息发给全局虚拟数据库。全局虚拟数据库管理系统接收到请求后,进行分析处理,来访问全局数据字典及局部数据源,最后将处理结果汇总返回给客户端应用程序。如图1所示。
(2)数据复制模式
数据复制模式是在底层数据源一致的前提下,通过一个数据复制中间件或者代理,实现各种应用间的信息共享、互操作。其中间件的功能是,从一个应用或者数据库系统中获取数据、转换数据、传输和导入数据到另一个应用数据库中。
3.ETL技术
在数据集成的实施过程中,不同用户提供的数据有可能来自不同的途径,其数据内容、格式和质量差别很大,有时甚至会遇到数据格式不能转换或者数据转换格式后丢失信息等棘手问题,严重影响了数据在各部门与各应用系统中的共享和流动。因此,为了增强企业商业竞争力,对数据进行有效的集成管理已成为一种必然选择,ETL是实现数据集成的主要技术。ETL具有易用性、稳定性、可靠性、执行效率高等特点。
ETL(Extract、Transform、Load)即对数据的抽取、转换、加载。数据抽取:即为从源数据源系统抽取目的数据源系统需要的数据,ETL处理的数据源除了关系数据库外,还可能是文件,例如仅t文件、excel文件、xml文件等。对文件数据的抽取一般是进行全量抽取,一次抽取前可保存文件的时间戳或计算文件的MD5校验码,下次抽取时进行比对,如果相同则可忽略本次抽取:数据转换是将从源数据源获取的数据按照业务需求,转换成目的数据源要求的形式,并对错误、不一致的数据进行清洗和加工。数据加载是将转换后的数据装载到目的数据源将转换和加工后的数据装载到目的库中通常是ETL过程的最后步骤。
4.应用实例
应用背景
基于以上有关信息系统集成的相关理论,对锦天化实现了信息集成平台的应用。锦天化在信息化建设过程中,先后投用了24套系统,这些系统都是孤立的,并且采用了不同厂商、不同技术的管理系统。在流程和业务上存在重叠,数据上存在冗余,数据、流程、业务存在交叉而又无法界定,是建立了多个大的信息孤岛,主要表现在以下四个方面:
(1)不同厂商的DCS、PLC、APC、RTDB的控制系统的技术标准、接口标准、通讯协议不匹配:
(2)不同厂商的MES、ERP、EAM、CRM等管理系统数据结构各不相同,数据逻辑关系封闭,业流程逻辑关系各自为政,没有依据企业组织架构的全局流程管理思想;
(3)企业的组织架构和管理流程条块分创,业务执行不完全是全局协同,执行力和执行效率不是很高,缺乏过程控制下的协同工作环境,不同过程和阶段的连续性差。
5系统结构设计
本系统采用的是建立数据中心的模式进行数据集成,所采用的ETL工具为kettle, Kettle是一款国外开源的etl工具,它允许你管理来自不同数据库的数据,从原有的企业资源计划系统(ERP)、人力资源系统iHRI.(制选执行系统)MES等各个子系统,采集基础业务数据,进行抽取、转换、清洗、装载处理,保存到平台数据库,通过报表工具的报表设计工具设计平台展现报表样式,报表工具根据报表设计模版提供报表服务。平台调用时根据登录用户权限调用报表服务。把各个系统的业务都能提到平台上,实现了教据共享,同时能进行跨系统的业务操作。
锦天化信息系统集成主要基于Web的BIS结构三层体系架构,即数据层、中间层,应用层.分别由三台服务器支持运行,即数据库服务器、中间伺服服务器、应用展现服务器。开发环境采用系统运行效率离的页面语言JAVA数据库系统采用Sql SERVER 2008,支持集成平台所需大量数据的运算、管理和维护。该系统逻辑架构分为:基础软件服务、统一安全服务、应用支撑层、业务应用层。
6结束语
实践表明,数据的联邦模式在中小型企业中能很好的解决应用之间的数据共享和互通的问题,ETL的易用、稳定、高效等特点使其成为异构数据集成平台下理想的采集工具,通过平台数据库建立,最终实现了各系统的业务平台展现和跨系统的业务操作。
CIO之家 www.ciozj.com 公众号:imciow