0%

范数介绍

向量范数:
向量范数定义了向量的距离,而距离满足正定,齐次,三角不等式。范数的使用可以帮助特征选择,使得模型更具解释性

向量的范数一般有L0, L1, L2与L_infinity范数,

L0范数:
定义:x0=i=1kxi0\|x\|_{0}=\sum_{i=1}^{k}\left|x_{i}\right|^{0}
L0范数表示非0元素的个数。利用该特性,我们可以用来规则化机器学习中的参数w,可以使得w大部分元素为零,寻找最少最优的稀疏特征。但是,L0范数的最小化问题是NP难问题,而L1范数是L0范数的最优凸近似,L1范数比L0范数更容易求解。所以实际中会用L1范数来代替L0范数求解。

L1范数:
定义:x1=i=1kxi\|x\|_{1}=\sum_{i=1}^{k}\left|x_{i}\right|
L1范数表示向量中各个元素绝对值的和,也被称作"Lasso regularization"(稀疏规则算子)。在机器学习中,稀疏规则化能够实现特征的自动选择,将无用的特征权重置为0来剔除。

L2范数:
定义:x2=i=1kxi2\|x\|_{2}=\sqrt{\sum_{i=1}^{k}\left|x_{i}\right|^{2}}
L2范数中的一个代表是欧式距离。L2范数被广泛应用在解决机器学习里面的过拟合问题,L2范数不会像L1范数那样将不重要的特征置为0,而是将所有参数最小化,只是接近于0。所以,L2范数下的特征重要性更均匀,但是不像L1范数突出显示最重要的特征。

矩阵范数:
矩阵范数又名为相容范数,除了要满足向量范数中的要求外,在矩阵为n阶方正的情况下,需要满足相容性,即ABAB\|A B\| \leq\|A\| \cdot\|B\|
矩阵范数一般有1-, 2-, infinity-, F-范数。

1-范数:
定义:A1=maxji=1maij\|A\|_{1}=\max _{j} \sum_{i=1}^{m}\left|a_{i j}\right|
1-范数又名为列和范数,即所有矩阵列向量绝对值之和的最大值。

2-范数:
定义:A2=λ1\|A\|_{2}=\sqrt{\lambda_{1}}
其中λ\lambdaATAA^{T} A的最大特征值。又名为谱范数,表示ATAA^{T} A矩阵最大特征值的平方根。

infinity-范数:
定义:A=maxij=1maij\|A\|_{\infty}=\max _{i} \sum_{j=1}^{m}\left|a_{i j}\right|
\infty-范数又名为行和范数,即所有矩阵行向量绝对值之和的最大值。

以上范数都是诱导范数,由向量Lp范数诱导得到。非诱导范数常见的为F-范数,即Frobenius范数以及核范数。

F-范数:
定义:AF=(i=1mj=1naij2)12\|A\|_{F}=\left(\sum_{i=1}^{m} \sum_{j=1}^{n}\left|a_{i j}\right|^2\right)^{\frac{1}{2}}
Frobenius范数,即矩阵元素绝对值的平方和再开平方。

核范数:
定义:A=i=1nλi\|A\|_{*}=\sum_{i=1}^{n} \lambda_{i}
λi\lambda_i为矩阵A的奇异。秩可以度量矩阵中数据的相关性,如果相关性很强,表示数据中含有冗余信息,则表示该数据矩阵可以降维,也可以利用冗余信息对缺失值进行填充。由于求解矩阵的秩很难,所以寻找了它的近似凸函数即核范数来求解。

-------------本文结束感谢您的阅读-------------

欢迎关注我的其它发布渠道