0%

【特征工程】关联规则

关联规则衡量指标

关联规则常利用支持度、置信度和增益等三个衡量指标来分别表示其显著性、正确性及价值,通过给定最小支持度最小置信度作为支持度与置信度的门槛值,再评估该规则的信息价值和增益。若该规则的支持度与置信度大于或等于所规定的门槛值,表示该规则有助于进行推论,若该规则的增益满足大于1的条件,则表示其发生的条件概率有比原先的概率提高,即该规则有效。

  1. 支持度(support)
    支持度衡量的是前提项目X与结果项目Y一起出现的概率P(XY)P(X \cap Y),表示该规则在全部交易记录中出现的比率。去除较小的组合。

Support(X=>Y)=P(XY)Support(X=>Y) = P(X \cap Y)

  1. 置信度(confidence)
    置信度衡量的是前提项目X发生的情况下,结果项目Y发生的条件概率P(YX)P(Y|X),表示在前提项目X发生时,可推得结果项目Y的概率。置信度是衡量关联规则是否具有可信度的指标,通常置信度水平置为0.5。

Confidence(X=>Y)=P(YX)=P(XY)P(X)Confidence(X=>Y)=P(Y|X)=\frac{P(X \cap Y)}{P(X)}

  1. 增益(lift)
    增益衡量用于比较置信度与结果项目Y单独发生时两者概率间的大小P(YX)/P(Y)P(Y|X)/P(Y)。增益值的物理意义是比较关联规则置信度与原本结果项目Y发生的概率以衡量该规则的价值和相对效益,因此增益值至少要大于1,表示该关联规则的预测结果比原本表现好,亦即其置信度大于原本结果项目Y发生的概率。
    Lift(X=>Y)=P(YX)P(Y)=P(XY)P(X)P(Y)Lift(X=>Y)=\frac{P(Y|X)}{P(Y)}=\frac{P(X \cap Y)}{P(X)P(Y)}

关联规则衡量指标总结
进行数据挖掘时,通常会先设定挖掘所得的规则的支持度与置信度的阈值作为挑选准则。当满足这两个条件后,再判断这些规则的增益值是否大于1,大于则保留。

关联规则的类型

  1. 以规则中属性值的形态为基础
    布尔关联规则: 指的是数据中只存在是与否的概念,比如买与不买,贵于不贵。
    量化关联规则: 拥有具体数量产生的相关性,比如买多少,贵的具体价格。

  2. 以规则中所涵盖的数据维度为基础
    单一维度关联规则: 规则的项目或属性针对单一维度,比如无论买书还是买笔都是着眼于“买”这个维度。
    复合维度关联规则: 规则的项目或属性到达两个以上,比如涉及到用户年龄、性别等多个维度。涉及多个维度时,计算复杂度就会上升,所以可以自定义维度的范围,只对重要的几个维度关联处理。

  3. 以规则集合中所涵盖的抽象层级为基础
    单一层级关联规则: 比如购买书与购买笔。
    多阶层级关联规则: 比如购买文具到购买笔。

-------------本文结束感谢您的阅读-------------

欢迎关注我的其它发布渠道