用户相关的数据是什么(用户数据是啥)

对于用户相关数据的分类,引入一种重要的分类思想:封闭性的分类方式。分类有二种方式,一种是前面所说的封装方式,就是分类是等价分类。分类之间是互斥的,如:世界上分为两种人,一种是学英语的人,一种是不学英语的人;客户分三类,高价值客户,中价值客户,低价值客户;产品生命周期分为,投入期、成长期、成熟期、衰退期…所有的子分类将构成了类目空间的全部集合。



还有一种是不等价分类,分类属性间不是互斥方式,比如人类:大人,小孩和老年女人。这里指的是前一种,那后一种在什么情况下需要呢?通常前一种的假设是所有的分类在同一时间出现的,可实际情况有时分类随时间出现的,不一定是等价互斥的,这时就是需要不同的视角来分析时,我原来在分析数据服务时,出现这个情况,我们数据服务类型有报表,查询,多维分析,ADHOC,数据分析和数据挖掘这几类,但是这几类就不是等价的,我列出这几种类型,也不是说明它们在同一时间只出现一种,而是说明目前存在的几种类型。

这样的分类方式,有助于后续不断枚举并迭代补充遗漏的信息维度。不必担心架构上对每一层分类没有考虑完整,造成维度遗漏留下扩展性隐患。另外,不同的分类方式根据应用场景,业务需求的不同,也许各有道理,按需划分即可。



通常静态的信息就是以前数据库或数据平台中直接或经过加工计算所得信息,也就是以前所说的事实指标,这部分叫静态标签,还有一部分是不能直接从交易或事实中得到或计算,而是根据日志或流水等用户的行业数据中挖掘或分析得来,这部分信息和时间相关的,需要机器学习和数据挖掘等方法来获取,这部分信息通过映射,根据历史的信息和行业来预测未来可能出现变量间的关系,这种关系不是因果的关系,是基于概率的相关性的关系,这会极大丰富了我们对用户的认知,这部分的信息就是规则标签和预测标签,这部分信息是标签的重点。