客户数据平台(CDP)中什么样的大数据能被建模提升营销效率?

客户数据平台(CDP)中什么样的大数据能被建模提升营销效率?今天我们讲一个很多用户建模背后都需要考虑的问题:什么样的大数据才能被AI算法使用建立模型提升营销效率呢?我们尝试给一个最简单直观的判断原则。

我们前面谈了一些用户需求和第三方数据,一个普遍的需求是:能不能用第三方数据提升营销的效率?或者是从大量号码列表中找到精准的客户,降低电话的成本;或者是找到更多的精准客户,降低广告投放的成本,提升转化的效率,等等。

在回答这个问题之前,我们先谈从什么角度观察大数据里的数据,然后再给出判断原则。对于任何大数据,我们首先看大数据里的属性(列/字段/标签)反映的是“事实”还是“观点”。举例来说,属性“身份证号码”,如果数据准确,就是一个典型的“事实”,从这个“事实”能够派生出性别、年龄、地区等信息。属性“游戏用户”,就是“观点”。打上游戏用户标签的原因,可能是浏览过网游内容,下载过网游APP等等。但是,形成这个观点的行为是事实。比如,如果有这个属性“下载网游APP”,记录APP下载的时间、类别、名称,这些细节数据是事实。因此,观点是基于多粒度事实的判断。从这个意义上说,我们前面讲的兴趣标签,基本都是“观点”数据。当然,也有复杂的情况,比如“性别”属性,如果是从身份证推出的,能确定是准确的,就是事实,如果是从浏览行为推出的预测数据,就是观点。这里讲一个我们测试的实际的数据,我们将公司所有员工的手机设备号信息提交给某大数据服务商,观察打出的标签信息,在性别属性上,多次测试,准确性只有50%左右,和猜差不多。这个“性别”就是观点。


判断原则就是:只有基于“事实”的大数据,才有可能建模提升营销效率。“事实”的维度越高,时间越及时,粒度越细,价值越大。

观点数据为什么不适合呢?从两个逻辑来看,一是现在优化算法基本都是高维甚至超高维的,而第三方数据基本是“低维”粗粒度”的数据,用低维的观点数据补充高维的事实数据,去建模,本身逻辑就是有问题的;第二是观点数据是事实数据的抽象和概述,我们从上面“性别”字段就能看出,准确性比较差,难以满足模型提升的需求。再举个例子,某人在8月份看了一页有某A品牌汽车的介绍网站,又看了几十页关于B品牌汽车的内容,那么该用户会被打上“A”、“B”、“汽车”的标签。我们很容易发现问题,标签的粒度、时间新鲜度、准确性都无法有效保障。建模需要的是底层细节粒度的事实数据,比如“观看时间”,“A”“A的次数”,“A网站停留时长”“B”,“B的次数”,“B网站停留时长”等。

这样,我们就能直观理解,为什么拿一些第三方的所谓标签大数据,对于建模没有价值,原因就是这些数据是“观点”数据,欠缺细粒度的及时的事实信息。同样,也能理解,为什么将人群提交到大平台,大平台利用初始的人群建模,是能提升效率的。原因就是,大平台对这部分人群,用了最底层的细粒度的事实数据建模。

总结来说,对提升模型而言,需要细节粒度的、及时的、事实数据,而不是抽象的高层级的观点数据。这是一个直观简单的判断原则。