如今的市场中充斥着有关大数据无所不在、无所不能的新闻、轶事和传闻。市场营销人员正竭力将数以 ZB 计的海量数据转化为收入,而全球各地的数据科学家则在挑灯夜读学习新技术(例如流式处理、Hadoop 和其他 NoSQL 存储)、商业软件和云计算,致力于改变整个世界。
组织将这些技术视为改变游戏规则的因素,特别是由于其中某些技术支持原生格式的数据,无需对这些数据进行转换或建模即可对它们加以处理。在大数据生命周期的这一时刻,组织并非总是了解哪些数据源是有价值的,不一定会投入大量资源来收集需求并赞助正式的信息治理计划。
Goals:目标
Business Outcomes:业务成果
Enablers:支持要素
Organizational Structures & Awareness:组织结构和认识
Stewardship:管理人员
Data RiskManagement:数据风险管理
policy:策略
Core Disciplines:核心准则
Data Quality Management:数据质量管理
Information Lifecycle Management:信息生命周期管理
Information Security and Privacy:信息安全性和隐私
Supporting Disciplines:支持准则
Data Architecture:数据架构
Classification & Metadata:分类和元数据
Audit Information Logging & Reporting:审计信息日志记录和报告
显而易见,大数据“特殊研发团队”项目的探索阶段推动了业务价值,最终导致正式计划,组织也随之将其注意力转向信息管理领域的基本问题:
? 我们是否已经完全认识到与处理大数据相关的责任?
? 大数据将如何改变信息的传统概念,将其转变为一种企业资产?
? 与隐私相关的新型需求有哪些?
? 所有这些大数据技术与我们的当前 IT 基础架构有怎样的关系?
所有这些有关大数据的传闻都给 CIO 带来了超出其心理准备的更多疑虑。根据我们的经验,许多组织都缺乏足够的治理策略,他们相信大数据“有所不同”,这在一定程度上回避了真正的问题。简而言之,大数据技术逐渐融入运营(而非探索),因此需要使用与传统数据管理方法相似的治理准则。
在实施信息治理计划时,首先采取的步骤之一就是评估当前成熟度状态,预测所需的未来成熟度状态。土耳其 Akbank Information Technologies 公司的商务智能副总裁 Banu Ekiz 表示:“从治理的角度来看,大数据具备‘小数据’的全部特征。惟一的差别就是大数据来源渠道的复杂性和多样性。尽管组织在治理大数据时需要付出更多精力、更多资源,但业务价值方面的收益也更为可观。如果能分析来自 Web 的大数据,并采取必要的措施,企业的利润就会受到显著影响。在这个过程中,大数据治理成熟度模型是至关重要的第一步。”
我们利用了 IBM 信息治理委员会成熟度模型(如图所示)的十一种分类。下面给出了一组用于评估大数据治理成熟度的示例问题:
1.
业务成果
? 您是否已经确定了大数据治理计划的关键业务相关人员,例如:
o 市场营销部门负责社交媒体治理
o 供应链部门负责 RFID 治理
o 法律部门负责数据保留策略
o 人力资源部门负责治理与员工相关的社交媒体
o 运营和维护部门负责传感器数据治理
电信业的计费部门负责通话详单治理
o 医疗保险业的医疗信息和索赔管理部门负责索赔记录治理
? 您是否对大数据治理能提供的财务收益进行了量化?例如:
o 降低了因数据违规而造成的罚款和法律诉讼风险
o 降低了遇到违约事件的可能性
o 避免有关数据不当使用的负面宣传对品牌产生不利影响
o 降低了因命名方法不一致而两次付款购买同一数据集(例如地震数据)的可能性
o 通过社交媒体与主数据环境的集成增加交叉销售和向上销售机会
o 可预测的维护计划、传感器数据、一致和优质的资产数据相结合,缩短了设备停机时间。
2. 组织结构和认识
? 您是否为应用于您组织的大数据提供了一个确定的范围?
o 大事务数据(例如,医保索赔、电信通话详单、电子医疗记录和呼叫中心客服备注)
o Web 和社交媒体数据(例如,Facebook、Twitter 和 LinkedIn)
o 机器间数据(例如,职能仪表读数、钻井平台传感器、车载远程信息技术和 RFID)
? 您是否为需要治理的大数据类型划分了优先级?
? 您是否已扩充了信息治理章程,使其覆盖了大数据?
? 负责大数据存储库与传统系统的团队之间是否存在明确的交接流程?
? 关键角色的职位说明中是否包含大数据治理,例如首席数据管和信息治理官?
? 对于数据科学家等新兴技能,其角色是否得到了明确的定义?
? 信息治理委员会是否已经解决了所有大数据问题?
? 信息治理委员会是否已经解决了大数据和主数据(例如,将社交媒体集成于客户主数据之中)的融合问题?
3. 管理人员
? 您将如何解决大数据的管理问题?
对现有管理人员的职位描述加以扩展(例如,客户数据管理人员需负责社交媒体方面的工作)
o 额外指任大数据管理人员(例如,社交媒体管理人员负责处理该领域特有的隐私问题)
o 他们的职务和数据操作任务是否得到了归档,是否可重复?
? 数据管理人员是否要负责从法律、市场营销和其他部门收集有关可接受的大数据使用的输入意见(例如,将社交媒体与主数据管理相集成)?
? 您是否已经建立了责任分配 (RACI) 矩阵,定义了关键数据元素的角色和责任?
? 数据管理角色是否由人力资源部门加以规范?
? 数据管理人员是否能够定义策略,根据法规要求和业务需求保留大数据?这些策略与传统系统中的相应策略是否一致?
4. 数据风险管理
? 风险管理是否是大数据治理中的关键组成部分?
? 您是否在大数据治理与风险管理之间建立了联系?
? 从运营角度来看,是否有切实可行的业务连续性计划(Hadoop 等技术并非设计为解决传统企业灾难恢复考虑事项)?
5. 策略
? 您是否已经归档了一组大数据治理策略?
? 能否检查这些策略的实施情况?
? 您是否已将这些策略转为一组运营控制?
? 您是否在利用治理、风险和合规性 (GRC) 框架对这些运营控制的符合情况进行监控?例如,一家组织在其 CRM 环境内利用社交媒体。该组织设定了一项策略,要求定期删除此类数据,以保持客户隐私。大数据治理计划需要建立一项运营控制,确保已删除此类数据定义。大数据治理计划可使用治理、风险和合规性 (GRC) 工具,归档此策略的遵循情况。
6. 数据质量管理
? 您对于与大数据相关的质量问题(数据可能有较高的价值,也可能价值并不显著)是否达成了一致意见?
? 在您的组织中,数据质量策略是否同时应用于实时技术(流式传输)和静态(Hadoop)技术?
? 您是否直接在 Hadoop 中处理数据质量?
? 您是否使用非结构化数据提高稀疏数据的质量?例如,患者在医院问诊过程中并不总是提到他们是吸烟的。但预测分析团队可以利用医嘱、出院结单和患者体检来判断患者是否吸烟,从而计算他们在充血性心力衰竭治疗的 30 天后病情复发的可能性。
? 您是否考虑过与机器间通信相关的数据质量问题(例如,在某些读取角度和高湿环境中,RFID 读数可能易于出错)?
? 更适合应用于大数据而非传统企业数据的数据质量维度有哪些?例如,机器日志数据的及时性(时间戳和准确性)对于高端机器和医疗设备的传感器数据更为关键。
? 数据质量的哪些维度不太适用于大数据(例如,Twitter 和 Facebook 数据的准确性)?
? 您如何通过可重复、归档的方式检查数据质量问题?
7. 信息生命周期管理
? 大数据的存储量是多少?预计年增长率是多少?
? 大数据的存储成本是多少?预计年增长率是多少?
? 您是否理解治理大数据保留的法规要求?例如:
o 发生石油泄漏时,监管机构可能要检查钻井平台的传感器数据
o 意外事故调查人员可能需要检查火车车头传感器数据
? 您是否理解推动大数据保留的业务需求(例如,市场营销部门可能需要将电话通话详情记录单保留数个月,以便生成客户流失率模型)?
? 您是否扩展了保留计划,包含了大数据?
? 您的保留计划中是否包含促使需要按国家、州和省保留大数据的法律引证?
? 您是否创建了从保留计划到大数据物理存储库的指导指针?
? 您是否制定了流程,依法保留仍在诉讼期的大数据?
? 您是否制定了流程,根据法律和业务要求合法处理不再需要的大数据?
? 您是否会在 Hadoop 中或其他工具中压缩大数据?
? 您是否会存档大数据,以便降低 IT 成本,提高应用程序性能?
8. 信息安全性和隐私
? 首席信息安全官是否是大数据治理计划的关键支持者?
? 您是否理解各国、州和省中影响大数据(特别是社交媒体)的隐私法规?
? 您是否理解使用 Facebook、Twitter 和其他类型的社交媒体数据的条款?
? 您是否制定了有关客户社交媒体数据可接受用法的指导准则?
? 您是否定义了有关客户地理定位数据可接受用法的策略?
? 您是否与人力资源部门合作,建立了有关员工和应聘者社交媒体与地理定位数据使用的策略?
? 您是否对生产系统中的敏感大数据进行了加密?
? 您是否在开发、业务智能和测试环境中使用未加密的敏感大数据?
? 利用客户在您的网站中的活动数据生成完整的个人资料和产品推荐时,您是否会使用审计跟踪记录来记录和跟踪用户权限?
? 您是否已经准备好处理您的推荐引擎的高级预测功能引发的公共关系问题和法律责任,特别是有关性别和年龄的敏感问题(例如,一家零售商向一名少女推销孕妇产品,但这名少女的父母可能并未发现她已经怀孕)?
Concur Technologies 的 IT 规划和项目管理经理 Nina Vredevoogd 认为:“大数据是全球性的。数据的隐私、法律和法规概念却并非如此。对于全球化企业来说,制定全面的信息管理计划和策略来治理大数据势在必行。消费者越来越关注在线隐私。采用并积极宣传以负责任的方式控制消费者数据访问权限的企业更有可能在快速发展的在线商务市场中取得竞争优势。”
9. 数据架构
? Hadoop、NoSQL 以及与您的当前架构相关的其他新兴大数据技术的共存战略是怎样的?
? 您是否确定了哪些应用程序应该转入大数据基础架构平台?
? 您是否确定了哪些应用程序应该保留在大数据基础架构平台以外?
? 我们的现有 ETL 工具如何才能将数据转入大数据基础架构平台或转储在大数据基础架构平台上?
? 您要如何在大数据基础架构平台内利用数据压缩和存档技术?
? 您是否考虑过主数据对于大数据的影响?例如:
o 客户主数据:利用 10-K 和 10-Q 财务报表,在所有权位置发生变化时更新客户风险管理层次结构
o 资产主数据:如果传感器数据表明某个工厂中有一个泵发生故障,那么可以利用一致的资产命名,更换其他工厂内的类似泵
o 产品主数据:消费类包装食品企业利用详尽的零售点交易数据,促进有关哪些店铺有哪些产品库存的分析,但如果不同的零售商为相同产品使用不同的命名方法,那么这样的分析就会产生不一致的结果
? 您是否考虑过参考数据对于大数据的影响(例如,医保索赔数据的 ICD-9 和 ICD-10 编码)?
? 您能够在大数据基础架构平台中原地处理数据质量,而无需创建中间数据结构?
? 您如何处理大数据的沿袭?
SymphonyIRI Group 技术研究副总裁 Jay Yusko 博士表示:“大数据的信息治理绝对必要。究其本质而言,大数据是从多种异构数据源开发得出的,需要通过集成才能成为可分析的有用信息。为了实现这样的集成,来自所有不同数据源的数据需要通过一组相同的规则进行标准化,随后进行验证和监控。这实际上就是大数据信息治理计划的核心。”
10. 分类和元数据
? 您的组织级业务术语(业务词汇表)是否包含与大数据相关的关键业务术语(例如,针对点击流数据的“惟一访问者”)?
? 企业是否指任数据管理人员来管理大数据的关键业务术语?
? 业务和技术元数据的刷新频率如何?跨业务部门和 IT 部门保持同步的频率如何?
? 您要如何处理大数据基础架构平台内大数据的沿袭?
? 您要如何处理大数据基础架构平台内的大数据影响分析?
? 您是否会捕获关键运营元数据,以便识别未加载大数据的场景?
11. 审计信息日志记录和报告
? 您的企业中是否有数据库管理员、承包商和其他类型的第三方能够对敏感的大数据进行未加密的访问,例如地理定位数据、电话通话详情记录单、公共事业智能仪表读数和医保索赔等?
总而言之,组织需要将大数据作为与其他数据类型相似的企业资产处理。作为一项经验守则,与数据库或数据仓库有关的治理考虑事项同样适用于大数据技术。
CIO之家 www.ciozj.com 公众号:imciow