大数据分析：谁比你更了解自己

网友网络

一位刚毕业的大学生来应聘公司数据分析师的职位，这位学习应用统计的文静小伙子从上万份简历中脱颖而出，又和其他49名幸运儿一起通过了第一轮的笔试。笔试结束后，作为HR负责人，默默召集这些职场新人们开了一个简单的说明会，提示了笔试后第一轮面试的注意事项。“我叫默默，大家有什么问题，可以问我。”默默不知道，就是这句话，让自己开启了一场不为人知的历险。

　　5个工作日后，第一轮面试开始，HR部门是主考官。那位小伙子走进房间，拿出了一个文件夹，说：“虽然我没有相关工作经验，但是这份报告可以证明，数据分析师的职位很适合我。”默默接过文件夹，倒吸一口凉气，封面上赫然写着“默默女士的2.0洞察报告”。报告不厚，只有十几页，可是关于默默的兴趣爱好、常去的地方、最关注的人(经常@的人)，亲密圈子(互相关注的博友)，包括经常谈论的话题，以及网络口头禅等等，一一用数据、图表展现无遗。

　　默默肯定是呆了几秒钟，内心翻江倒海，难以形容。因为，这份报告描绘出的自己，既熟悉又陌生。

　　难道我最爱吃的是麻辣香锅，3月内提及这个词汇10次？难道我如此渴望得到某个人的回应？3个月内@了他12次？难道，一个素未谋面的小伙子，比自己更加了解自己？

　　默默的经历，也许以后将会在无数个普通网民身上上演。

　　和迄今为止都很盛行的星座算命不同，社会化媒体的个人轨迹不是前瞻性的，是日复一日累积的推演，也是最真实自我的记录和展现。

　　很多时候，这些隐藏在电脑背后的庞大数据就像一个麻乱的大线团，只需要找到那个线头一拎，就能清晰再现一个个的网络人格，就能再现一个个连你都不知道的自己。

　　据统计，互联网上的信息总量正以每年50%的增速不断膨胀，其中90%的信息来自近三年，包括每个月Facebook上分享的30亿条内容，每天12TB的Twitter信息。在中国，新浪微博、腾讯微博每天也在由数亿用户创造大量的数据，新浪微博发送峰值时每分钟就能产生73万条数据。这些社会化媒体的数据中，近80%是由个人用户产生的。这些庞大、繁多、复杂的数据，在多种算法模型的演绎下，就能产生超出人类头脑和感知的洞察结果。

　　比较近的一个例子是，英剧《黑镜》第二季中，女主角在痛失男友后，加入了一个高科技的测试项目。该项目利用其男友在Facebook、Twitter等社交网络上留下的大量数据，重建了一个模拟人格的AI(即人工智能)。这个“复活”了的男朋友，模仿逝者生前的语调、语气，以及思维模式，和女主角聊天，最后甚至变成了一个具有行动能力的机器人。

　　而整个过程，全赖于这位男友在社交网络上留下的大量个人信息和行为轨迹。利用大数据的方式，科研人员对这些个人数据进行分析，获得模型、发现规律、统计比较，最终实现了“预测”——如果他活着，会怎么做。

　　作为大数据最有名的例子，一位美国17岁少女怀孕的事情传播到了世界各地。某日，美国一名男子向一家零售连锁超市投诉，称给他17岁的女儿发婴儿尿片和童车的优惠券。一个月后，这个愤怒的父亲打来电话道歉，因为婴儿用品促销广告并不是误发，他的女儿的确怀孕了。

　　原本属于个人私事的信息，通过某些购物机构数据库的整合和计算，产生了巨大的商业价值，同时也造成了上述家庭啼笑皆非的经历。

　　近日《纽约时报》网络版撰文称，人类即将迎来大数据时代，在大数据的发展过程中，隐私问题不容忽视。

　　美国一家著名的医疗机构利用大数据的方式，已经积累了900万名病人的超级大数据库。

　　利用这份数据库，新的患者能迅速找到和自己接近的病患用药方案，老的病患可以追踪病情并提高医疗质量。显然，大数据将推动医疗科学进入黄金时代，但也有医生担心，各界对隐私的关注，很有可能会推迟这一时代的到来。

　　无论如何，人类已经无法阻挡大数据滚滚前进的步伐。

　　我想，再过几年，也许大家都不再痴迷于星座大师的运程预测，而是找家大数据机构出份个人洞察报告，跟着命运赐予的一个一个预兆，一点一点去了解那个不熟悉的自己。

CIO之家 www.ciozj.com 公众号:imciow

关联的文档

也许您喜欢