0%

数据规约

数据维度规约

特征选取法

决定特征的衡量准则

  1. 一致性测量法(consistency measurement)
    每一个特征在不同取值下目标值不一致的数据笔数的总和,越少表示相应特征越重要。(先判断最多笔数的取值,剩下的都是不一致取值)
  1. 关联性测量法(association measurement)
    每一个特征在不同取值下,最多相同目标取值的笔数占总数的比率的乘积越大表示关联性越强。
  2. 判别测量(discriminant measurement)
    判断每一个特征不同取值的判断能力。
  3. 信息增益测量(information measurement)
    又称决策树特征选取法,其目的是通过决策树的熵来衡量变量对目标变量的区分能力,去除较不相关或多余的变量。

组合特征产生方法

  1. 逐步向前挑选法(sequential forward generation)
    首先依据特征测量法选取第一层最优特征,然后逐步增加一个数据维度得到第二层成对特征组合,接着计算第二层测量值,按测量值进行特征选取。
  2. 逐步向后删减法(sequential backward generation)
    该方法只是与逐步向前挑选法相反,是从最上层开始,最上层是所有单一特征的组合,然后向下逐步减少一个维度。
  3. 混合法(bidirectional generation)
    结合了逐步向前挑选法与逐步向后删减法同时操作。
  4. 随机选取法(random generation)
    随机决定逐步向前挑选法与逐步向后删减法和随机组合特征。

特征选取策略

特征选取策略取决于特征维度,假设数据中存有N个维度,所有可能的特征组合为2N2^N,其中2的意思是选取或不选取这个特征。由于计算复杂度随着维度的增加指数级增长,所以一般情况,我们可以自行控制算法结束的时间,例如,不一致的数据笔数少于3、信息增益大于0.8、相关程度大于0.95、数据特征组合大于5等。以下将介绍两种常用特征选取策略。

  1. 穷举搜索策略(exhaustive search strategy)
    该方法采用广度搜索的策略,将所有可能的组合列出,比较不同特征维度,以找出最佳特征组合的策略,非常耗时。
  2. 启发式搜索策略(heuristic search strategy)
    该方法采用深度优先搜索,从各个特征中选取N个最佳特征,接着根据所选的特征产生N个维度的组合,并挑选最好的N个组合,以次类推。虽然不能保证能得到最佳解,但有较高的执行效率。
  3. 随机搜索策略(random search strategy)
    随机搜索策略是以所选的特征为衡量基准,以随机增加或删除特征的方式,任意增删特征的维度,不断改进不同的特征组合以产生较佳的组合,直到符合所设定的停止条件。

主成分分析法

利用主成分分析法降低特征维度。

数据数值规约

离散化

有时候离散型的数据比连续型的数据更容易解释。此时就必须将连续型数据离散化,以符合工具能处理的数据格式。在数值规约方面,通过将属性值阈划分区间范围,离散化技术可以减少连续尺度的数据个数。

概念阶层

连续型数据数值具有具有大小顺序关系,通过离散化技术可将其划分为几个不同的区间。离散型数据数值因为本身往往仅具有名目上的意义,并无法得知其数值是否相同或数值差异大小等,所以无法使用相同的方法达到数据数值规约的目的。而需要使用概念层阶将数据一般化,并用高阶层概念替换低阶层的原始数据。例如将小时时间映射到天,周月这些更高层的概念;还有5寸到100寸的液晶屏可以规范到小中大。概念阶层的转换需要专家确认,防止反作用的转化。

-------------本文结束感谢您的阅读-------------

欢迎关注我的其它发布渠道