博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Data Minig --- Classification(supervised learning)
阅读量:4941 次
发布时间:2019-06-11

本文共 920 字,大约阅读时间需要 3 分钟。

一、决策树:tree construction & tree pruning

a.ID3算法

Gain(A)=Entropy(S) - Σ(Sv/S)*Entropy(Sv)

b.C4.5算法

GainRatio(A)=Gain(A)/SplitInfo(A)

SplitInfo(A)=-Σ(Sv/S)log(Sv/S)

c.Gini Index算法

定义Gini系数如下:

若将数据分成两个子集,则分割后的Gini系数为:

提供最小的Ginisplit就被选为分割的标准。

 

二、朴素贝叶斯分类

p(c|x1…xn)=p(c)*p(x1|c)…*p(xn|c)/Σp(c)*p(x1|c)…*p(xn|c)

 

三、BP神经网络

BP神经网络模型如下,其目的是根据实际的输入(输入正传)与输出数据更新模型的权系数(误差反传),BP神经网络结构如下:

对噪声容错强,很适合连续值的输入输出,缺点是训练时间长且确定隐层神经元个数需要经验知识。

 

四、k近邻

欧式距离:L=norm(x-x')

距离测试点最近的K个点所属的类即测试点的类别。

 

五、集成学习:Bagging\Boosting

a.Bagging算法(bootstrap)

for t=1…T

    s'为从给定训练集s中的随机抽样(有放回)

    在s'上训练弱学习器,得到第t轮的预测函数ht

end

对未知样本x分类时,每个弱分类器ht得到一个结果,得票最高的就是x的类别。

b.Boosting算法

初始分布:D1(i)=1/N

for t=1…T

    计算弱分类器在分布Dt上的误差:et=P(ht(xi)!=yi)

    更新弱分类器的权重:αt=(1/2)*ln((1-et)/et)

    更新训练样本分布:Dt+1(i) = Dt(i)exp(-αt*yi*h(xi))/Zt = Dt/2et 或 Dt/2(1-et)

end

强分类器:H(x)=sign(Σαt*ht)

 

六、分类准确度

confusion matrix

accuracy=(t-pos+t-neg)/(pos+neg)

转载于:https://www.cnblogs.com/jizhiyuan/p/3466269.html

你可能感兴趣的文章
智能合约安全前传-基础知识入门
查看>>
Myeclipse反编译插件
查看>>
Dubbo和Zookerper的关系
查看>>
centos 5 系统安装MYSQL5.7
查看>>
docker数据卷(转)
查看>>
地图定位及大头针设置
查看>>
oracle常用小知识点
查看>>
CATransform3D参数的意义
查看>>
怎么自己在Objective-C中创建代理
查看>>
Under Armour Drive 4 Performance Reviews
查看>>
C#操作目录和文件
查看>>
警惕数组的浅拷贝
查看>>
百度地图 导航
查看>>
SQLServer 错误: 15404,无法获取有关 Windows NT 组
查看>>
html5全局属性
查看>>
【转】Android Hook框架Xposed详解
查看>>
Android 有用代码片段总结
查看>>
英语各种时态例句
查看>>
从下往上看--新皮层资料的读后感 第三部分 70年前的逆向推演- 从NN到ANN
查看>>
(转)系统引导管理器GRUB详解
查看>>