数据维度规约
特征选取法
决定特征的衡量准则
- 一致性测量法(consistency measurement)
每一个特征在不同取值下目标值不一致的数据笔数的总和,越少表示相应特征越重要。(先判断最多笔数的取值,剩下的都是不一致取值)
- 关联性测量法(association measurement)
每一个特征在不同取值下,最多相同目标取值的笔数占总数的比率的乘积越大表示关联性越强。 - 判别测量(discriminant measurement)
判断每一个特征不同取值的判断能力。 - 信息增益测量(information measurement)
又称决策树特征选取法,其目的是通过决策树的熵来衡量变量对目标变量的区分能力,去除较不相关或多余的变量。
组合特征产生方法
- 逐步向前挑选法(sequential forward generation)
首先依据特征测量法选取第一层最优特征,然后逐步增加一个数据维度得到第二层成对特征组合,接着计算第二层测量值,按测量值进行特征选取。 - 逐步向后删减法(sequential backward generation)
该方法只是与逐步向前挑选法相反,是从最上层开始,最上层是所有单一特征的组合,然后向下逐步减少一个维度。 - 混合法(bidirectional generation)
结合了逐步向前挑选法与逐步向后删减法同时操作。 - 随机选取法(random generation)
随机决定逐步向前挑选法与逐步向后删减法和随机组合特征。
特征选取策略
特征选取策略取决于特征维度,假设数据中存有N个维度,所有可能的特征组合为,其中2的意思是选取或不选取这个特征。由于计算复杂度随着维度的增加指数级增长,所以一般情况,我们可以自行控制算法结束的时间,例如,不一致的数据笔数少于3、信息增益大于0.8、相关程度大于0.95、数据特征组合大于5等。以下将介绍两种常用特征选取策略。
- 穷举搜索策略(exhaustive search strategy)
该方法采用广度搜索的策略,将所有可能的组合列出,比较不同特征维度,以找出最佳特征组合的策略,非常耗时。 - 启发式搜索策略(heuristic search strategy)
该方法采用深度优先搜索,从各个特征中选取N个最佳特征,接着根据所选的特征产生N个维度的组合,并挑选最好的N个组合,以次类推。虽然不能保证能得到最佳解,但有较高的执行效率。 - 随机搜索策略(random search strategy)
随机搜索策略是以所选的特征为衡量基准,以随机增加或删除特征的方式,任意增删特征的维度,不断改进不同的特征组合以产生较佳的组合,直到符合所设定的停止条件。
主成分分析法
利用主成分分析法降低特征维度。
数据数值规约
离散化
有时候离散型的数据比连续型的数据更容易解释。此时就必须将连续型数据离散化,以符合工具能处理的数据格式。在数值规约方面,通过将属性值阈划分区间范围,离散化技术可以减少连续尺度的数据个数。
概念阶层
连续型数据数值具有具有大小顺序关系,通过离散化技术可将其划分为几个不同的区间。离散型数据数值因为本身往往仅具有名目上的意义,并无法得知其数值是否相同或数值差异大小等,所以无法使用相同的方法达到数据数值规约的目的。而需要使用概念层阶将数据一般化,并用高阶层概念替换低阶层的原始数据。例如将小时时间映射到天,周月这些更高层的概念;还有5寸到100寸的液晶屏可以规范到小中大。概念阶层的转换需要专家确认,防止反作用的转化。