数据规约 | DeepLearning

数据维度规约

特征选取法

决定特征的衡量准则

一致性测量法（consistency measurement）
每一个特征在不同取值下目标值不一致的数据笔数的总和，越少表示相应特征越重要。（先判断最多笔数的取值，剩下的都是不一致取值）

关联性测量法（association measurement）
每一个特征在不同取值下，最多相同目标取值的笔数占总数的比率的乘积越大表示关联性越强。
判别测量（discriminant measurement）
判断每一个特征不同取值的判断能力。
信息增益测量（information measurement）
又称决策树特征选取法，其目的是通过决策树的熵来衡量变量对目标变量的区分能力，去除较不相关或多余的变量。

组合特征产生方法

逐步向前挑选法（sequential forward generation）
首先依据特征测量法选取第一层最优特征，然后逐步增加一个数据维度得到第二层成对特征组合，接着计算第二层测量值，按测量值进行特征选取。
逐步向后删减法（sequential backward generation）
该方法只是与逐步向前挑选法相反，是从最上层开始，最上层是所有单一特征的组合，然后向下逐步减少一个维度。
混合法（bidirectional generation）
结合了逐步向前挑选法与逐步向后删减法同时操作。
随机选取法（random generation）
随机决定逐步向前挑选法与逐步向后删减法和随机组合特征。

特征选取策略

特征选取策略取决于特征维度，假设数据中存有N个维度，所有可能的特征组合为 $2^N$ ，其中2的意思是选取或不选取这个特征。由于计算复杂度随着维度的增加指数级增长，所以一般情况，我们可以自行控制算法结束的时间，例如，不一致的数据笔数少于3、信息增益大于0.8、相关程度大于0.95、数据特征组合大于5等。以下将介绍两种常用特征选取策略。

穷举搜索策略（exhaustive search strategy）
该方法采用广度搜索的策略，将所有可能的组合列出，比较不同特征维度，以找出最佳特征组合的策略，非常耗时。
启发式搜索策略（heuristic search strategy）
该方法采用深度优先搜索，从各个特征中选取N个最佳特征，接着根据所选的特征产生N个维度的组合，并挑选最好的N个组合，以次类推。虽然不能保证能得到最佳解，但有较高的执行效率。
随机搜索策略（random search strategy）
随机搜索策略是以所选的特征为衡量基准，以随机增加或删除特征的方式，任意增删特征的维度，不断改进不同的特征组合以产生较佳的组合，直到符合所设定的停止条件。

主成分分析法

利用主成分分析法降低特征维度。

数据数值规约

离散化

有时候离散型的数据比连续型的数据更容易解释。此时就必须将连续型数据离散化，以符合工具能处理的数据格式。在数值规约方面，通过将属性值阈划分区间范围，离散化技术可以减少连续尺度的数据个数。

概念阶层

连续型数据数值具有具有大小顺序关系，通过离散化技术可将其划分为几个不同的区间。离散型数据数值因为本身往往仅具有名目上的意义，并无法得知其数值是否相同或数值差异大小等，所以无法使用相同的方法达到数据数值规约的目的。而需要使用概念层阶将数据一般化，并用高阶层概念替换低阶层的原始数据。例如将小时时间映射到天，周月这些更高层的概念；还有5寸到100寸的液晶屏可以规范到小中大。概念阶层的转换需要专家确认，防止反作用的转化。