数据挖掘.docx-资源下载

数据挖掘.docx

1、数据挖掘第二章：假定用于分析的数据包含属性age。数据元组中age值如下（按递增序）：13 ，15 ，16 ，16 ，19 ，20 ，20，21 ，22 ，22 ，25 ，25 ，25 ，25 ，30 ，33 ，33 ，35 ，35 ，35，35，36，40，45，46，52，70. 按箱平均值和边界值平滑对以上数据进行平滑，箱的深度为3. 使用最小-最大规范化，将age值35转换到0.0,1.0区间使用z-Score规范化转换age值35 ，其中age的标准差为 12.94年。使用小数定标规范化转换age值35。画一个宽度为10的等宽直方图。该数据的均值？中位数？众数？数据的峰？中列

2、数？ Q1 Q3 给出数据的五数概括画出数据的盒图第三章假定数据仓库包含三个维：time doctor和patient；两个度量：count和charge；其中charge是医生对病人一次诊治的收费。画出该数据仓库的星型模式图。由基本方体day, doctor, patient开始，为列出2004年每位医生的收费总数，应当执行哪些OLAP操作。如果每维有4层（包括all ），该立方体包含多少方体（包括基本方体和顶点方体）？第五章数据库有4个事务。设min_sup=60%,min_conf=80% TID Itmes_bought T100 K,A,D,B T200 D,A,C,E,B

3、T300 C,A,B,E T400 B,A,D 分别使用Apriori和FP-增长算法找出频繁项集。列出所有的强关联规则（带支持度s和置信度c ）与下面的元规则匹配超级市场的事务数据。假定发现关联规则”hot dog = hamburgers”。给定最小支持度阈值25% ，最小置信度阈值50% ，该关联规则是强的么？根据给定的数据，买hot dog独立亍买hamburgers么？如果丌是，二者存在何种“相关”关系？第六章该元组status的朴素贝叶斯分类是什么？departmentstatusagesalarySalesSenior313546K50KSalesJunior263026K3

4、0KSalesJunior313531K35KSystemsJunior212546K50KSystemsSenior313566K70KSystemsJunior263046K50KSystemsSenior414566K70KMarketingSenior364046K50KMarketingJunior313541K45KSecretarySenior465036K40KSecretaryJunior263026K30K给出学生的期中和期末考试成绩。预测其中成绩为86分学生期末成绩。第七章将如下的八个点聚类为三个簇。 A1（2,10），A2（2,5），A3（8,4），B1（5,8），B2

5、（7,5），B3（6,4）， C1（1,2），C2（4，9）。假设初始我们选择A1，B1和C1分别为每个簇的中心，用k均值算法给出在第一轮执行后的三个簇中最后的三个簇什么激发了数据挖掘数据爆炸，数据丰富，但信息匮乏解决方案：数据仓库、数据挖掘联机事务处理 OLTP online transaction processing 数据仓库和联机分析处理OLAP online analytical processing 从大型数据库中挖掘有趣知识（规则、模式）OLTP关系型数据库的主要应用基本的事务处理，eg.银行交易关系技术作为大量数据存储、检索、管理的主要工具OLAP数据仓库主要应用支持复杂分析

6、操作侧重决策支持直观易懂的查询结果具有汇总、合并、聚集、不同角度观察信息功能，支持多维分析决策区别OLTPOLAP面向顾客，事物和查询处理市场，数据分析管理当前数据历史数据，提供汇总聚集机制DB设计实体关系模型，面向应用星型/雪花型，面向主题视图关注当前数据关注历史数据、不同组织数据访问模式访问由短的原子事务组成系统需要并行、恢复机制访问大部分是只读操作数据挖掘：从大量数据中提取/挖掘知识的过程从海量数据中提取出有用的、非常识性的、隐藏的、当前未知的、潜在有益的模式/知识是数据库技术的自然进化，在很多应用中有巨大需求知识发现：数据清理、集成、选择、变换、挖掘、模式评估、知识表示数据挖掘可以基于

7、多种类型的数据库数据挖掘功能：概念/类描述，关系规则，分类、预测、聚类、孤立点检测、趋势分析数据挖掘系统和构架数据挖掘中的主要问题相近名词：知识发现KDD knowledge discovery in databases，知识提取knowledge extraction，数据/模式分析data/pattern analysis，数据考古data archeology、数据捕捞data dredgingKDD步骤；数据清理消除噪声、不一致数据数据集成多种数据源组合数据选择检索分析相关数据数据变换数据变换/统一成适合挖掘的形式，eg.汇总、聚集操作数据挖掘智能方法提取数据模式模式评估根

8、据兴趣度度量，识别表示知识的有趣模式知识表示可视化知识表示技术，向用户提供挖掘的知识典型数据挖掘系统为什么要数据挖掘？-潜在应用数据分析、决策支持市场分析管理目标市场、CRM、超市购物篮分析、市场划分公司分析&风险管理公司规划、资产评估、资源计划、竞争分析欺诈检测、异常模式检测聚类&欺诈模型构造，离群点分析其他应用文本、web、流数据挖掘，DNA、生物数据分析数据挖掘基于何种数据？关系数据库数据仓库事物数据库高级数据库、信息库：对象-关系数据库，空间时间，时间序列数据库、流数据、多媒体数据库，文本数据库、异构、遗产数据库、万维网数据挖掘功能：概念/类描述：数据特征化、数据区分，关联

9、规则，分类和预测，聚类分析，离群点分析，演变分析数据挖掘涉及：数据库技术、统计学、信息科学、可视化、机器学习数据挖掘系统分类：一般功能：描述性、预测性数据挖掘数据库：关系数据库、数据仓库、数据流、对象-关系数据库知识：关联规则、分类、聚类、趋势分析、离群点分析技术：数据库、OLAP、统计、可视化、机器学习应用分类：零售电信银行欺诈分析股市分析 web挖掘数据挖掘查询语言 DMQL data mining query language数据挖掘DM系统,数据库管理系统DBMS,数据仓库DW系统集成方案不耦合 DM系统不利用DB或DW系统的任何功能松散耦合 DM系统使用DB或DW系统的某些设

10、施，提取数据、数据挖掘、存储半紧密耦合：除了将DM系统连接到一个DB/DW系统，还可以提供数据挖掘原语的实现数据挖掘的主要问题：数据挖掘技术与用户交互问题挖掘不同类型知识多层交互知识挖掘结合背景知识数据挖掘查询语言和特定的数据挖掘数据挖掘结果表示显示处理噪声和不完整数据模式评估性能问题数据挖掘算法的有效性和可伸缩性并行，分布式和增量挖掘算法数据库类型的多样性关系和复杂数据类型的处理异构数据库和全球信息系统挖掘信息第二章数据预处理为什么要预处理真实世界的数据是脏的不完整、噪声（错误、离群值）、不一致没有高质量的数据就没有高质量的挖掘结果如何衡量数据质量准确性、完整性、一致性、时间无关性

11、、可解释性、可访问性数据预处理中的主要任务：数据清理填充缺失值、平滑噪声数据、鉴别/移除离群点、纠正不一致数据集成从多数据库、数据立方或文件中集成数据变换规范化和聚集数据归约减少数据的字段数目，但仍产生相同或相似分析结果数据离散化数据归约的一部分但是对数值性数据很重要描述性数据汇总获得数据的总体印象识别数据的典型性质，凸显噪点或离群点度量中心趋势度量均值、中位数、众数、中列数(max+min)/2 离中心趋势度量四分位数四分位数极差方差度量数据的离散程度Range 极差 max-minQuartiles四分位数Q1(25percentile) Q3(75percent

12、ile)中间四分位数极差 IQR=Q3-Q1五数概括 min Q1 median Q3 max盒图 Q1 Q3端点 median盒内线标记 min max延长线离群点单独表示 1.5*IQR度量数据的离散程度方差s和标准差s数据清理如何应对空缺值忽略、人工、全局常量、avg、同类所有样本avg、最可能的值填充如何处理噪声数据分箱数据排序、分箱、按箱avg、中心值、边界值等平滑技术平滑数据聚类检测/移除离群点回归回归函数平滑数据分箱等宽划分w=(max-min)/n缺点：离群点影响表示，倾斜的数据不能很好的处理等深划分各间隔包含的样本数目大致相同，有良好的数据扩展性数据集成数据集

13、成多数据源数据结合存放在一致的数据存储中模式集成从不同数据源集成元数据数据冲突的检测处理不同数据源属性值、表达方式、度量标准不同处理数据集成中的冗余数据多数据库数据集成，产生冗余数据对多数据源中的数据进行仔细数据集成，可以减少/避免冗余和矛盾，提高挖掘速度和质量相关系数数据变换平滑去掉噪声数据聚集数据汇总聚集数据泛化使用概念分层高层次概念替换低层次原始数据规范化属性数据按比例缩放，是指落入一个小的特定区间属性构造有给定的属性构造新的属性，并添加到属性集数据归约：得到数据集的归约表示，规模小，但能产生同样的分析结果数据归约策略:数据立方体聚集最底层基本方体最高层顶点方体

14、中间层方体属性子集选择通过删除不相关或冗余属性减少数据集维度归约（数据压缩）无损压缩（串压缩只允许有限数据操作）有损压缩（音频、图像压缩）小波变换离散小波变换DWT 线性信号处理技术近似压缩技术只保存一小部分最强的小波系数类似于离散傅里叶变换DFT 但DWT是更好的有损压缩数值归约参数方法（假设数据符合模型 eg对数线性模型）非参数方法（不必假设模型，eg直方图、聚类和选样）离散化和概念分层产生聚类数据集分成聚类，使类内数据相似类间数据不相似，只存储聚类的表示数据有噪声时会失去有效性可以层次聚类且被存储在多维索引树结构离散化通过将一个连续型的属性划分成少数几个建个范围从而

15、降低取值数目间隔的标签用于表示该字段的真实值概念分层将低级的概念（eg数值形式表示年龄字段）转化为高级别概念（eg中年、青年、老年表示年龄字段）第三章数据仓库和OLAP技术基于事物数据库的决策支持系统DSS decision support system缺陷1 数据缺乏组织性2 业务数据本身大多以原始形式存储，难以转换为有用信息3 服务于联机事务处理OLTP的关系数据库是面向操作而不是面向分析DSS期望的理想数据源数据格式统一独立该数据库与事物数据库隔离是只读型数据库继承了某一主题所需的全部数据在DSS分析期间相对稳定保持与具体应用同步的最新数据数据仓库定义与操作数据库分别维护的决策支

16、持数据库为统一的历史数据分析提供坚实的平台，对信息处理提供支持是一个面向主题的，集成的，非易失，时变的数据集合，支持管理决策数据仓库系统数据仓库技术为基础联机分析处理OLAP 数据挖掘DM等工具为手段进行数据分析处理的一整套解决方案数据仓库和异源DBMS数据仓库：使用更新驱动的方法，为集成异源DBMS带来高性能将来袭异源的信息预先集成，存储于数据仓库，供直接查询分析数据仓库的概念性模型星型模式：雪花模式：数据进一步分解到附加的维表中区别：雪花模型维表规范化，减少冗余，但大量连接操作降低查询性能事实星座模式：多个事实表共享维表数据仓库收集关于整个组织的主题信息通常使用事实星座模式，因为能对过多

17、个相关主题建模数据集市数据仓库的一个部门子集，针对选定的主题，是部门范围的通常使用星型或雪花模式，只对单个主题建模概念分层OLAP操作上卷、下钻、切片、切块、转轴 SDB统计数据库用于支持统计应用的数据库系统OLAP vs SDB相同：使用多维数据模型、概念分层、与维关联的度量以及上卷和下钻概念不同点：SDB趋向于关注社会经济应用 OLAP商务应用SDB关注概念分层的保密性OLAP需要有效处理海量数据星型网查询模型数据仓库设计使用自顶向下、自底向上或混合方法设计软件工程观点：瀑布式、螺旋式数据仓库设计过程：选取待建模商务，若该商务涉及多个复杂对象，选用数据仓库模型，如果关注某一类商务，选择数

18、据集市选择商务处理粒度选取用于每个事实记录的维选取安放在事实表中的度量三层数据仓库结构数据仓库体系结构：数据源数据提取、转换、加载数据的存储、管理OLAP服务器前端工具和应用三种数据仓库模型企业仓库搜集关于主题的所有信息数据集市包含企业范围数据的一个子集虚拟仓库操作数据库上试图的集合数据仓库开发推荐方法从联机分析处理OLAP到联机分析挖掘OLAM为什么进行OLAM？数据仓库中数据的高质量环绕数据仓库的有价值的信息处理基础设施基于OLAP的探测式数据分析数据挖掘功能的联机分析选择集成的OLAM和OLAP结构位索引第五章挖掘频繁模式关联和相关频繁模式：数据集中频繁出现的模式动机找到数据

19、间的内在规律应用购物篮分析、交叉市场分析、web日志分析、DNA序列分析关联规则极大项集：频繁项集P 使得p的任何超项集都不是频繁的关联规则：支持度和置信度分别满足用户给定阈值的规则发现关联规则步骤：找出所有频繁项集由频繁项集生成满足最小置信度阈值的规则Apriori算法建立FP-tree挖掘FP-tree主要步骤1 从FP-tree到条件模式基2 建立条件FP-tree对任意模式基计算其中每一项的支持度、为模式基中的频繁项建立FP-tree3 生成条件FP-tree4 递归挖掘条件FP-tree单一FP-tree路径的产生挖掘各种关联规则1 多层关联规则多个抽象层上挖掘数据产生的关联规则

20、2 多维关联规则3 量化关联规则涉及维间具有隐含排序数值规则兴趣度度量客观度量：支持度置信度主观度量：一个规则（模式）是有趣的：非预期、可控制支持度和置信度的缺点基于约束的频繁模式挖掘1 反单调的如果违反了规则c 则进一步的挖掘将被终止2 单调的如果满足了C 则后续挖掘不必再检验该规则3 简洁的 C必须被满足可以从满足C的数据集开始挖掘4 可转变的 C不是单调或反单调的但可以被转换成单调的或反单调的5 不可转变的 C不是单调或反单调的也不可以被转换第六章分类和预测分类：预测分类标号，在分类属性中的训练样本集合值的基础上分类数据，并使用它分类新数据预测：为连续值函数建模，预测未知

21、的或缺省值分类步骤 1 模型构造 2 使用模型进行分类构造模型使用模型进行预测评估分类模型：准确率速度：构造、使用模型的时间鲁棒性：处理噪声和缺失值的能力可伸缩性：给定大量数据，有效构造模型的能力可解释性：涉及学习模型提供的理解和洞察的水平决策树输出一个针对bugs_computer的决策树Pi=si /s为连续值属性计算信息增益因为 P(X) 对于所有类是常量, 所以仅有需要被最大化。贝叶斯信念网络IF-THEN形式表示知识IF age = “=30” AND student = “no” THEN buys_computer = “no”IF age = “40” AND credit_

22、rating = “excellent” THEN buys_computer = “yes”IF age = “=30” AND credit_rating = “fair” THEN buys_computer = “no”多层前向反馈神经网络线性回归分类器评估度量：准确率和误差率灵敏性真正率特效性真负率正确性完整性第七章聚类分析聚类的应用场景：空间数据分析图形处理经济学城市规划气候研究www 文档分类对web日志进行聚类离群点检测簇间距离主要聚类方法划分方法层次方法基于密度的方法基于网格的方法基于模型的方法K-Means聚类方法p是空间中的点，mi是簇ci的平均值K-Means聚类方法优点：复杂度o(nkt) 对象数目n 簇的数目k 迭代次数t相对可伸缩和高效局部最优结束缺点：只有在簇的平均值被定义的情况下才能使用，涉及分类属性的数据时无法处理需要事先给出K对噪点和离群点数据敏感不适合发现非凸形状的簇或者大小差别很大的簇层次聚类BIRCHCHAMELEON总体框架第八章高维索引结构提高查询速度的方法减小磁盘访问代价聚类：划分数据近似：压缩数据降质：不追求精确查询结果降维：压缩数据并行：进行粗粒度并行处理上述各种方法的有机组合（资料素材和资料部分来自网络，供参考。可复制、编制，期待你的好评与关注）

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？