数据挖掘.docx
《数据挖掘.docx》由会员分享,可在线阅读,更多相关《数据挖掘.docx(9页珍藏版)》请在冰豆网上搜索。
![数据挖掘.docx](https://file1.bdocx.com/fileroot1/2023-2/9/ebc1c9f1-4f6e-4be9-b4db-490c7edccb08/ebc1c9f1-4f6e-4be9-b4db-490c7edccb081.gif)
数据挖掘
第3章监督学习
3.1基本概念
图3.1基本的学习过程:
训练和测试
3.2决策树推理
图3.2对应于表3.1中数据的一棵决策树
图3.3对应于表3.1中数据的一棵更小的决策树
3.2.1学习算法
图3.4决策树算法
3.2.2混杂度函数
图3.5两种可能的根节点的选择
3.2.3处理连续属性
图3.6数据空间的一个划分以及相应的决策树
3.2.4其他一些问题
图3.7剪枝后的数据空间划分和决策树
3.3评估分类器
3.3.1评估方法
3.3.2查准率、查全率、F-score和平衡点(BreakevenPoint)
3.4规则推理
3.4.1序列化覆盖
图3.8算法1
图3.9算法2
3.4.2规则学习:
Learn-One-Rule函数
图3.10learn-one-rule-1函数
图3.11基于熵值的评估函数
图3.12learn-one-rule-2函数
3.4.3讨论
3.5基于关联规则的分类
3.5.1使用类关联规则进行分类
图3.13一个简单的CBA算法
3.5.2使用类关联规则作为分类属性
3.5.3使用古典的关联规则分类
3.6朴素贝叶斯分类
图3.14一个训练数据集的例子
3.7朴素贝叶斯文本分类
3.7.1概率框架
图3.15混合模型中两个分布的
3.7.2朴素贝叶斯模型
3.7.3讨论
3.8支持向量机
图3.16(a)一个线性可分的数据集;(b)可能的决策边界
3.8.1线性支持向量机:
可分的情况
图3.17分离超平面以及支持向量机的边距:
支持向量已被圈出
3.8.2线性支持向量机:
数据不可分的情况
图3.18数据不可分的情况:
xa和xb
3.8.3非线性支持向量机:
核方法
图3.19从输入空间变换到特征空间
3.9k-近邻学习
图3.20k近邻算法
图3.21k近邻分类图示
3.10分类器的集成
3.10.1Bagging
3.10.2Boosting
图3.22AdaBoost算法