0%

关联规则衡量指标

关联规则常利用支持度、置信度和增益等三个衡量指标来分别表示其显著性、正确性及价值,通过给定最小支持度最小置信度作为支持度与置信度的门槛值,再评估该规则的信息价值和增益。若该规则的支持度与置信度大于或等于所规定的门槛值,表示该规则有助于进行推论,若该规则的增益满足大于1的条件,则表示其发生的条件概率有比原先的概率提高,即该规则有效。

阅读全文 »

**概述:**统计学中,似然函数是一种关于统计模型参数的函数。当给定输出xx时,关于参数θ\theta的似然函数L(θx)L(\theta | x)似然值等于给定参数θ\theta后变量xx的发生概率L(θx)=P(X=xθ)L(\theta | x)=P(X=x | \theta)

阅读全文 »

概述:在机器学习领域中,通常将特征表示为向量的形式,所以在分析两个特征向量之间的相似性时,常用余弦相似度表示。例如将两篇文章向量化,余弦距离可以避免因为文章的长度不同而导致距离偏大,余弦距离只考虑两篇文章生成的向量的夹角。

阅读全文 »

假设检验介绍:
由于样本的抽样存在误差,所以出现了假设检验。假设检验是用来判断样本与样本,样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。假设检验的结论是概率性的,不是绝对的肯定或否定。

检验假设是针对总体特征而言,包括相互对立的两个方面:零假设备选假设,它们在逻辑方面是互补的,也就是说,如果其中一个假设为真,则另一个假设为假;如果我们推翻了其中一个假设,那就必须承认另一个假设。

阅读全文 »

简述: 决策树是一种自上而下,对样本数据进行树形分类的过程,由节点和有向边组成。节点分为内部节点和叶子节点,其中每个内部节点表示一个特征或属性叶子节点表示类别。决策树常用于分类问题于回归问题,完全生长的决策树模型具有简单直观、解释性强的特点。

阅读全文 »

为什么要剪枝
一颗完全生长的决策树难免会遇到过拟合的情况。因此,我们需要对决策树进行剪枝,提升模型的泛化能力。
决策树的剪枝操作通常有两种方法,预剪枝与后剪枝。

阅读全文 »

内容范围:正态分布,泊松分布,多项分布,二项分布,伯努利分布

**简述:**正态分布是上述分布趋于极限的分布,属于连续分布。其它属于离散分布。

阅读全文 »