大数据变革在数据本身

来源:微信公众号 作者:车品觉

有一次我在美国碰巧遇到谷歌的前数据部门leader,他跟我说了一件他觉得很痛苦的事:提出数据需求的人往往70%的情况又不用提供给他的数据。他为此非常生气,便质问业务方:为什么你们老问我要数据,结果却不用?业务方回答说:是的,因为我用完之后才知道这些数据没有用。对于一个每天都要准备数据的人来说,这好比你是一家餐厅的老板,厨师每天让你准备很多菜却只用一小部分材料一样痛苦。所以,我从事大数据行业一直有个梦想:如果有一天可以把数据的处理自动化该多好!

说起数据处理的自动化,不得不提一家在数据领域有着突破型创新的公司Paxata,它是美国少有的一个接地气的自助型数据开发(data preparation)平台。 这家公司的着眼点令人兴奋,因为目前市场上几乎所有的数据分析, 包括BI软件和创新都聚焦在解决数据分析的算法,可视化,模型等等的自动化,却忽略了一个事实:现实工作中, 数据科学家和分析师首先需要花费80%甚至更多的时间在数据清洗和准备。Paxata采用机器学习的创新方法解决data preparation。 其功能如下:

第一,读取数据: 读取任何形式的数据,自动解析,自动识别数据的类型(如日期,产品名称等), 以及数据的意义;

第二,数据探索: 通过人机交互的形式,帮助用户主动发现数据质量问题。比如提供全文搜索,数据质量热力图, 发现规律, 发现数据中的错误,重复,稀疏,缺失等问题;

第三,数据清洗和修改: Paxata平台的核心是语义融合和机器学习引擎。 该引擎基于算法智能识别并进行数据变换以改善数据;

除以上功能外, Paxata还能够通过人机交互的形式完成数据合并、发布、改进、分享、安全控制等数据准备的所有环节。其中一个有趣的功能是数据富集, 即它能基于第三方数据库建议用户增加更多的变量以提升数据挖掘价值, 并自动完成数据的转化。他山之石可以攻玉,同类公司所关注的変量及挖掘路径是可以互相借鉴的。

今天大数据之所以说起来容易做起来难,主要是因为两个问题,一是数据的易用性,二是数据处理的成本。随着大数据的使用越来越普遍,这两个问题也将越来越突出。因此,底层数据处理的自动化将愈加重要。我们需要将使用数据的经验数据化,并把这些经验转化为其他公司对自己数据的理解和使用能力。或许在不久的将来,我们就会发现只要我们对某一个领域使用数据的经验有足够的沉淀,哪怕给我一堆毫无关系的数据,我也能根据数据经验库告诉你我从中看见了什么。这个世界日新月异,变化之快令人咋舌,我们数据人也只有不断颠覆自己使用数据的能力,不断创新,才能找出大数据未来的方向。

相关文档推荐

基于LLM的智能数据分析平台在腾讯的落地实践.PDF

1738713220 谭云志 5.29MB 22页 积分6

火花思维数据分析体系建设和实战.PDF

1737424874 冯俊晨 2.8MB 17页 积分5

StarRocks在电商数据分析场景的实践.PDF

1737423810 王新春 2.2MB 15页 积分5

LLM和Agent助力下的数据分析智能化转型研究与实践.PDF

1737365070 谢苑珍 4.52MB 54页 积分6

零售商业门店经营数据分析要点.PPTX

1736728744  4.15MB 45页 积分8

企业经营数据分析 第7章 企业效益分析.PPTX

1734569820  4.07MB 65页 积分8

相关文章推荐

数据分析方法论及经验总结

数据学堂 歪老师 

数据分析规范

架构师修炼之道  

数据架构师、数据分析师、数据工程师,有啥不同

CIO之家的朋友们 CIO之家的朋友 

数据分析能力模型

CIO之家的朋友们 饼干哥哥 

活动效果的数据分析

CIO之家的朋友们 CIO之家的朋友