有一次我在美国碰巧遇到谷歌的前数据部门leader,他跟我说了一件他觉得很痛苦的事:提出数据需求的人往往70%的情况又不用提供给他的数据。他为此非常生气,便质问业务方:为什么你们老问我要数据,结果却不用?业务方回答说:是的,因为我用完之后才知道这些数据没有用。对于一个每天都要准备数据的人来说,这好比你是一家餐厅的老板,厨师每天让你准备很多菜却只用一小部分材料一样痛苦。所以,我从事大数据行业一直有个梦想:如果有一天可以把数据的处理自动化该多好!
说起数据处理的自动化,不得不提一家在数据领域有着突破型创新的公司Paxata,它是美国少有的一个接地气的自助型数据开发(data preparation)平台。 这家公司的着眼点令人兴奋,因为目前市场上几乎所有的数据分析, 包括BI软件和创新都聚焦在解决数据分析的算法,可视化,模型等等的自动化,却忽略了一个事实:现实工作中, 数据科学家和分析师首先需要花费80%甚至更多的时间在数据清洗和准备。Paxata采用机器学习的创新方法解决data preparation。 其功能如下:
第一,读取数据: 读取任何形式的数据,自动解析,自动识别数据的类型(如日期,产品名称等), 以及数据的意义;
第二,数据探索: 通过人机交互的形式,帮助用户主动发现数据质量问题。比如提供全文搜索,数据质量热力图, 发现规律, 发现数据中的错误,重复,稀疏,缺失等问题;
第三,数据清洗和修改: Paxata平台的核心是语义融合和机器学习引擎。 该引擎基于算法智能识别并进行数据变换以改善数据;
除以上功能外, Paxata还能够通过人机交互的形式完成数据合并、发布、改进、分享、安全控制等数据准备的所有环节。其中一个有趣的功能是数据富集, 即它能基于第三方数据库建议用户增加更多的变量以提升数据挖掘价值, 并自动完成数据的转化。他山之石可以攻玉,同类公司所关注的変量及挖掘路径是可以互相借鉴的。
今天大数据之所以说起来容易做起来难,主要是因为两个问题,一是数据的易用性,二是数据处理的成本。随着大数据的使用越来越普遍,这两个问题也将越来越突出。因此,底层数据处理的自动化将愈加重要。我们需要将使用数据的经验数据化,并把这些经验转化为其他公司对自己数据的理解和使用能力。或许在不久的将来,我们就会发现只要我们对某一个领域使用数据的经验有足够的沉淀,哪怕给我一堆毫无关系的数据,我也能根据数据经验库告诉你我从中看见了什么。这个世界日新月异,变化之快令人咋舌,我们数据人也只有不断颠覆自己使用数据的能力,不断创新,才能找出大数据未来的方向。
CIO之家 www.ciozj.com 公众号:imciow