归档: 2016/12

采样方法

对一些常用的采用进行总结,主要参考了PRML。 整个采样的关键思想:求$$E[f] = \int f(z)p(z)dz$$ 但是通常数值分析的方法很难求,寻求一种近似的方法$$E[f] = \frac{1}{L}\sum f(z^{(l)})$$ 其中$z^{(l)} \sim P(z)$,通常来说10~20个样本就可以很好的拟合,并且这个方法是不取决于z的维度的。 但是通常情况下,可能一些非常小

决策树

常用分类方法的一种,对于训练数据来说,每次找到最优的一个特征,对该特征进行划分。划分之后得到不同的子集,再分别在不同的子集进行划分,直到满足某个划分标准则停止。 如何选择最优的特征有不同的算法。常见的决策树算法有ID3,C4.5算法,对于ID3算法,采用信息增益最大的特征来选择最优的特征。算法流程如下:对于在未划分之前,首先算出该数据集$D$的熵。假设该数据集有$K$类,训练集大小为$N$.其中属