如何为互联网上的用户建立“数据档案”

宋星 199IT

我们如何为互联网上的用户建立“数据档案”，从而能够不仅仅识别他的唯一性，还能够进一步了解他是什么样的人——他在真实世界中的情况如何、他在互联网行为又是什么样的。人群画像的基础在于对个体的准确描述（profiling），如果个体描述不准确，人群画像也会有偏差。对每一个个体的描述，我们使用一种被称为“标签”的东西。

个体画像的标签

普罗大众对于画像或许会相当反感，一个极为重要的原因是他们会认为自己的隐私正在被窥视。

理论上这种担忧是多余的，但现实情况则复杂的多。在这方面，从理论入手反而简单，所以我们先看看理论上事情应该是什么样的，然后在后面的内容中我再带大家看看现实世界。

个体画像的构成要素包含三块，一块是描绘这个人的人口学上的属性，诸如年龄性别什么的，这些属性短期内不怎么发生变化，所以也被称为静态属性。此外，你的姓名住址电话号码属于静态属性吗？——当然属于，但这些东西非常敏感，所以我们后面再说。另一块则是描绘这个人更为个性的东西，主要是他们的行为，以及行为反映出的兴趣爱好是什么，这些属性容易发生变化，甚至是发生突然的变化，所以也被称为动态属性。

第三块是个体所处的环境属性。例如，他某个时刻所在的位置，当时的天气和温度，他使用的终端的信息，他浏览的网页或者使用的APP的信息，等等等等。这些信息描述了与他紧密关联的自然、地理和虚拟世界三类环境。

静态属性

所有的人群画像服务提供商都宣称，他们的画像是准确的，而且用诸如80%、90%之类的高比例证明这种准确性。但实际上现实骨感的可怕。

先来看看静态属性。

静态属性中有一部分内容且不说能否获得，在法律上不允许。这些信息就是我上面说的你的姓名、住址、电话号码、身份证号码等，这些信息有一个共性，就是能够跟现实生活中的你映射起来。任何能够在现实世界中找到你的信息，理论上都是不可以被记录下来的敏感信息，这些信息被称为PII，即个人识别信息（Personally Identifiable Information）。

　　不过，在中国，由于缺乏技术和法律上的充分保护，所以公民的PII实际上早就已经烂大街。亲爱的读者朋友，你或者你的朋友一定被“猜猜我是谁”、“老板要你明天去他办公室”之类的骗子电话骚扰过，他们是如何知道你的电话号码和真实姓名的呢？这些事情不能说，说出来拽起萝卜带着泥，能吓死人。

正常的广告投放不可以利用这些信息，而且正常渠道是不可能获取这些信息的，但是很多追求立即变现的营销操盘手们却会千方百计的去搞这些信息。这些信息总是能够在黑市被交易，所以，你时常收到骚扰电话和短信就不足为奇。总之，这是一个非常灰色的产业链，从来没有消亡过。这些数据从哪里来？——太多可能性，因为你在网站、各种机关单位、购物过程中等等日常生活中留下了大量PII，然后任何一个环节的管理不善（更多是放任不管）就会造成信息的有意窃取或无意泄漏。

有很多公司宣称他们拥有运营商的数据，其中包含PII信息。一家新创立不久的数据公司曾经拿出他们号称所有的运营商的原始数据给我看，确实令我大感震惊，这些数据中间不仅仅包含一段时间内某个人访问网站的全部URL信息，还包括他在各个广告公司中的cookie信息，以及他的电话号码，他的QQ号码，乃至QQ昵称。这些信息，理论上，是绝对不应该被第三方获得的，但似乎正在暗地流通。这段讲的东西都是灰色地带，真实与否大家自行辨别。

上图为某号称运营商数据的数据，已经略去了敏感信息

那么，大家会问，为什么你前面说静态数据的准确性“骨感的可怕”呢？

如果没有真实的PII信息，而完全靠其他方式来判断每个人的静态属性，是一个非常困难的事情。

举一个例子，如果给你一个人在一个星期内的所有网站的访问记录，但你并不知道这个人是男是女，你能否从网站的访问记录中判断出他或者她的性别？

你会说，这有啥难的。男人喜欢运动和汽车，女人喜欢衣服和化妆。所以，看看网站访问记录中浏览的网站类型偏好，这个问题不难解决。

但实际情况是，这个问题的难度挺大。

首先，人们浏览网站没有这么决然的分水岭，人们的性别差异会导致互联网使用行为的差异，但在视频网站、购物网站、部分垂直网站上的差异最为明显，在其他很多网站上的差异并不非常显著。即使是前面的例子，让你根据一个人的浏览记录来判断，如果记录中间没有购物信息和视频浏览信息的话（这些网站的浏览信息凭什么让你知道？这可是人家的关键商业机密），也存在误判的可能，更不用说让机器识别。

其次，机器识别最大的问题在于，它能有多么聪明？如果没有人事先把网站URL和内容输入给机器，它能够准确识别一个网页的主题内容或者一个网站的主题吗？NLP（自然语言处理）对于大多数广告公司而言，只是一个概念，即使是互联网巨头，对汉语的NLP的应用也都还很初级。

不过，最麻烦的还不在上面两个，最大的问题在于，一个第三方，它根本就没有一个人浏览网站的所有记录，事实上，它能看到的极为有限，原因很简单，他没权限，没有运营商数据，也不能使用黑客技术。因此，如果一个女士看了10个化妆品网站，你没有记录到，而她又看了1个汽车网站恰好被你记录到了，你会认为她是一个男士。

　　所以，没有PII，通过人们的互联网行为来判断性别是很难滴，或者换句话说，准确率不会太高。

有些公司会说，我们有大数据技术，我们会以一个已经确定性别的人群组（panel）为基础，用这些人的准确互联网行为数据去对照更大的未知人群的行为数据，从而通过不断的相似性比较去确定未知人群的性别。这种方式用技术一点的语言，叫做train数据。这个嘛，大家听听也就ok了，原因参照前面说的几点。

不过，性别其实是所有静态属性中间，相对容易推断的，而年龄、收入、学历、婚姻状态等等这些信息，通过人们互联网使用行为就更加困难了，准确率不会超过你掷骰子。所以，对于绝大部分广告公司而言，静态属性其实就是个噱头。

那么，你会问，行业中流传的这些静态属性数据是不是根本就不能用？接着看。

谁的静态属性靠谱？

答案是，还是有很多地方有人的准确静态属性的。我只是说，通过人们的互联网行为去推断静态属性是很困难的，但并没有说，我们就没有其他的数据来源。

一种准确的静态属性可能来源于人的真实的PII数据。前面所讲的人的真实PII数据，肯定是准确的，谁拥有这些数据呢？

运营商肯定有，然后是政府的各个服务老百姓的部门（工商税务街道社保教育等等等等），后者的数据肯定非常准。然后是各种公共事业单位，再然后是各个快递公司，再然后是各个电商公司……就不穷举了。反正大家都知道。

但是，上面的部门虽然都有PII数据，但并不是说他们都能成为个人画像的数据。原因很简单，个人画像是互联网用户的画像，是数字化的。虽然政府很多部门有人的准确PII，但是这些数据都是线下的，要关联到个人的互联网唯一身份标识（比如关联到cookie上，见人群画像的经典构成要素小节），就很困难了，所以这些部门的数据虽准，但对互联网营销的作用几乎可以忽略。

唯有一类，他们的PII特别牛逼，那就是运营商。运营商不仅有人的准确PII（因为我们国家法律要求办理运营商服务都需要实名制），它们手上还有人们的互联网唯一身份标识，比如上网的MAC地址，比如手机的IMEI号码等等。所以它们的数据老厉害啦，既是线下的，也都是线上的，能真正用在互联网营销上。