走近算法：受众行为分析与人群定向

蒋云染网络

引言

　　"物以类聚，人以群分"这句古语不仅揭示了物与人的自组织趋向，更隐含了’聚类’和’人群’之间的内在联系。例如在现代数字广告投放系统中，最为关键的’人群定向’功能正是通过’聚类’算法得以实现的。如果您厌倦了隔靴搔痒的空大宣传，不妨就随笔者一起钻进系统内核，抽丝剥茧般探究技术的黑盒，还原受众行为分析的真相。

　　广告传递信息的受众是每个在浏览器前的自然人，然而互联网上的分析手段无法触达自然人，只能以他们上网的痕迹和记录作为在数字世界中的代表，这就是Cookie. 于是，以物拟人，以物窥人，才是比任何大数据都要更大的前提。明白了这一点，也就触摸到了人群定向的天花板--不可能百分之百精准。

　　如何从广泛的受众中提炼目标人群呢? 正是依靠受众行为分析。它以cookie为单元，根据cookie的海量历史行为，推断其行为特征，兴趣爱好，并以此为依据，将最合适的、最有可能产生转化的广告展示给用户。受众行为分析一方面能够提高用户对于广告的反馈程度，增加转化率；另一方面能够降低广告主进行广告投放的成本，以更低廉的价格产生最佳的投放效果。

　　下面我们以易传媒的广告投放算法为例，浅析一下怎样由预先标注的关键词标签，一步步建立完整的受众行为分析模型，挖掘出具有相似行为特征的人群，提炼人群的属性特征，最终进行最合适的广告投放的。

　　关键词标签

　　关键词标签从何而来？从网页中来。一个Cookie会被贴上什么样的标签，是由这个Cookie浏览过的网页等历史行为所决定的。这个预处理过程，大致可分为以下三步：

　　（1）记录受众的历史行为，包括产生浏览、点击、搜索、注册、购买等行为的网页地址（URL），积累原始数据；

　　（2）以商品内容和新闻内容为导向，建立关键词标签库，作为受众行为分析的基础元数据；

　　（3）针对所有受众相关的URL，通过网络爬虫程序和语义分析（分类和关键词提取），生成每个cookie的初始标签集合。

　　定义1：关键词标签模型

　如图1所示，在每个关键词标签模型中，考察多种典型用户行为，如：浏览，点击，搜索，注册和购买等其它行为。在图中，每个标签就像是一根竹签，上面串着五粒或更多的糖葫芦。举例来说，关键词标签 Valentino (id为1) 的模型 σ={1,100,5,0,0,1} 表示在用户浏览的网页中共含有关键词Valentino 100个，在他/她点击过的页面中含有关键词Valentino 5个，而在他/她进行购买下单的页面中含有1个关键词Valentino。这个标签表征该用户对奢侈品品牌Valentino有相当的兴趣和关注度。

　　从上述关键词标签模型可以看出，通过提取用户感兴趣的特征标签集合，并以此为依据进行广告精准投放，主要的优点在于：

　　（1）能够细颗粒度地刻画出受众对某件事务或者领域的兴趣程度，从而使得投放更加精准。

　　（2）可以实现"协同过滤"的功能，即利用受众类别之间相似性，预判出受众潜在的购买意向。

　　受众对象模型

　　关键词标签模型记录了最原始关键词信息，将爬虫所得的非结构化文本抽象成为结构化的标签信息。接下来对标签的五个行为计数器进行加权归一化处理，遍历受众的全部关键词标签，量化每个关键词标签对于受众的重要程度，就形成了受众对象模型。

　　定义2：受众对象模型

　　如图1所示，受众对象模型刻画的是受众Cookie的历史行为特征，而其维度就是不同的关键词标签，通常可达几十个乃至上千个维度。这就好比一杆草桩上密密麻麻地插满了不同口味的糖葫芦。映射函数θ(?)使得标签的行为被加权归一化，θ(?)可以根据不用的业务需求进行设计。一般而言，购买行为是最强的信号，权重最高；点击则属于次强级别，表明用户的主观兴趣，有明确的目的去了解相关信息；而浏览在很多情况下是被动行为，故权重值最低。

　　在第一节的例子中，假设白领女性Amanda的cookie ID为1，拥有关键词标签Valentino： σ_1={1,100,5,0,0,1}，被加权归一化后系数θ(σ_1)=0.75；同时， Amanda还拥有另一关键词标签宝马微型车品牌Mini Cooper: σ_2={2,90,15,0,0,1}, 则被加权归一化后可能有θ(σ_2)=0.8（点击行为的权重比浏览高）；此外受众A还拥有其它一些标签，但权重系数比较低。那么该受众Amanda的模型就可表示为ρ_1={1,0.75,0.8,0.1,…}。至此，自然人的兴趣属性和特征，通过其浏览器Cookie为代表，经过上述建模手段被抽象和重构出来了。

　　受众对象模型是受众聚类的原子单元，可以形象地理解为多维聚类空间中的一个"点"。通过受众聚类算法，将含有相似关键词标签集合的用户聚合在一起，就组成了受众聚类模型。

　　本文介绍的整个受众行为分析的模型流程图如图2所示：

　　聚类模型和算法

　　累积受众对象模型后，我们已经坐拥成亿量级的受众’矿山’，其中每块矿石具有几十乃至上千的标签维度。如何才能有效地开采矿山，提炼金子呢？这得有请在计算机届鼎鼎有名的数据挖掘工：聚类（Clustering）。聚类是一个将数据集划分为若干类的过程。聚类的宗旨和评判标准是使得同类对象相似度尽可能大，而各个类之间的相似度尽可能小。相似或不相似的描述是基于数据描述属性的取值来确定的，通常是用各对象在多维空间中的距离来表示。

　　定义3：受众聚类模型

　　常用的聚类分析算法大致包括划分方法，分层方法，基于密度的方法和基于网格的方法等几类。易传媒的投放系统所搭建的受众行为分析模型借鉴了CURE (Clustering Using REpresentatives) 层次聚类算法，并在其基础上参考了其他聚类算法（例如：BIRCH等），融合改进，试图使整个聚类算法更加符合实际的广告业务需求。CURE算法将分层方法与划分方法结合到了一起。它克服了偏向发现相似大小和圆形形状聚类的问题；同时在处理高维数据和异常数据时也表现得更加高效稳定。相比其他算法，CURE算法主要有以下几个优点：

　　（1）通过使用"代表点"表示一个聚类，从而使得聚类算法能够适应各种不规则形状的类，而不仅仅是球形的。

　　（2）通过因子α将代表点向聚类中心进行收缩，从而使聚类算法抵抗离群点的能力更强。

　　（3）通过随机抽样和划分技术，使得CURE算法能够处理超大规模的数据，以加快聚类算法的执行效率。

　　为了验证该模型的可靠性，易传媒技术团队根据统计学中一些经典的方法设计了验证系统，结果证明误差被控制在一个比较理想的范围内。

　　定义4：聚类效果指标

　　该指标R^2的取值范围在0与1之间，它总是随着分类的个数减少而变小，而类的个数进一步减少不应以R^2大为减小作为代价。测试结果R^2的值在0.80左右，这表明易传媒这套算法的聚类效果比较好。

　　继续前面的例子，已有受众A ρ_1={1,0.75,0.8,0.1,…}，若还有受众B ρ_2={2,0.78,0.81,0.2,…}，受众C ρ_3={3,0.77,0.82,0.1,…}等等。他们有极其相似的标签属性，并且规模足够大，那么运行聚类算法后，很可能会产生一个独立的受众聚类φ。这个受众聚类包括了相当数量的类似受众，其聚类属性就是标签集合"Valentino&Mini Cooper"。这个人群就是经过多道工序处理之后，数据挖掘工最终给我们淘出的亮灿灿的金子。

　　人群定向投放

　　作为人群定向广告正式投放前的最后一步，受众聚类和结构化的人群分类将进行匹配映射。这种映射是利用二者标签集合的重合度来实现的。其结果，受众聚类φ可能被同时映射到人群分类"奢侈品-Valentino"，"汽车-宝马"和"汽车-微型车"。根据第一节所述关键词模型的优势，它至少有如下两个用途：

　　（1）当一个投放策略的人群定向选择了"奢侈品"或者"汽车"时，广告允许被指定投放给受众聚类φ所包含的Cookies.

　　（2）利用两个标签在一个细分人群中的内在关联性，推测喜欢Valentino的人对Mini Cooper也感兴趣，可尝试进行交叉投放，例如把Mini Cooper的广告投放给曾购买过Valentino商品的回头客，反之亦然。

　　结语

　　综上所述，基于关键词标签和自然聚类的受众行为分析具有很强的扩展性和实用性。易传媒持续大量的实践统计结果表明这套受众行为分析方法使得人群定向的精准度相比于原始的分类标签法提高了30%以上。并且，易传媒在所有涉及受众行为分析的产品中都已推广这一技术方法，包括防作弊监控和人群自然属性分析等。通过搭建这样的统一分析平台，能将所有采集到的受众信息最大限度地整合利用起来，产生规模效应。对于广告需求方来说，借助这样先进的行为定向技术，同时结合地域，人口属性定向，回头客定向等手段，多管齐下，将大大提高广告投放的精准度和投资回报比，切实做到有的放矢。

CIO之家 www.ciozj.com 公众号:imciow

关联的文档

也许您喜欢

hadoop-2.2.0多个队列资源分配
博客园网友
数据挖掘的入门概念
简书程sir
用户画像的技术和方法论
知乎专栏姚凯飞
大数据技术名词解释
51CTO CIO之家的朋友
有赞数据中台建设实践
有赞技术 CIO之家的朋友
大数据分析工具选用标准
中国大数据浩宇