数据挖掘导论(数据挖掘导论第八章课后答案)

本篇文章给大家谈谈数据挖掘导论,以及数据挖掘导论第八章课后答案对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。

本文目录一览:

数据挖掘导论完整版和第二版哪个更好

数据挖掘导论完整版。

1、内容方面,数据挖掘导论完整版码厅的内容非常丰富,相比第二版迟余隐来说更好。

2、题型方面,数据挖掘导论完整版的题型新颖,相比第二毁差版来说更好些。

《数据挖掘导论》CH5.1基于规则的分类器-读书笔记(2)

形式:规则-预测类 if-then(和决策树区别,决销慎策树规则有总分,规则分类是平行的,但是它俩可以转换)

1.互斥规则:一条记录不能出现多个预测类,液宏避免多个类出现的方法有:有序规则(规则按优先降序排列)和无序规则(产生多个预测类,进行加权计票)

2.穷举规则:每天记录都应有预测类,不行就整一个其他类

1.基于规则排序:秩越前,越容易被解释,秩越低的规则越难被解释

2.基于类排序:属于同一类的规则一起出现

1.直接方法(5.1.4)   2.间接方法(5.1.5)

顺序覆盖:规则基于某种评估度量以贪心的方式增长。

1.learn-one-rule函数:原理-建立亏埋敬-评价

(1)原理:该函数的目标是提取一个分类规则,该规则涵盖训练集中大量正例,没有或仅覆盖少量反例。

(2)建立:它先产生一个初始规则r,并不断对该规则球精,直到满足某种终止条件为止。然后修剪该规则,改进泛化误差。

(3)规则增长策略:

-从特殊到一般:以一个正例为初始种子,删除合取向泛化规则,直到覆盖反例停止。

-从一般到特殊:以空集规则开始,不断加入合取向,反例减少,直到无反例被覆盖。

(4)规则评估:同时考虑准确率和覆盖率,可用:似然比统计量、Laplace度量、FOIL信息增益进行评价。

(5)规则剪枝:4.4

2.顺序覆盖基本原理

规则提取出来之后,顺序覆盖算法必须要删除该规则所覆盖的所有正例和反例。

3.RIPPER算法:合取向-规则-规则集

规则增长策略:从一般到特殊,使用信息增益来选择最佳的合取项,规则开始覆盖反例时停止加入合取项。利用准确率进行剪枝。

建立规则集:规则生成后,删除其所覆盖的正例和反例,若规则在确认集上的错误率低于0.5,则终止加入新规则。

从其他分类模型中提取规则(此节已决策树模型为例)

1.规则产生:每一条路径就是一个规则,简化规则,规则剪枝。

2.规则排序:将同一类标号的规则放在一个规则子集中,计算子集的长度,按照长度由小到大进行排序,构成规则集。子集长度=L+g*L’

与决策树非常类似,能够产生易于解释的描述性模型。

[img]

《数据挖掘导论》CH4分类:基本概念、决策树与模型评估-读书笔记

分类任务就是确定对象属于哪个预定义的目标类(店铺病历表,款式判断)

4.1预备知识

分类计数非常适合 预测 或 描述 二元或标称类型的数据集,但是分类技术不考虑隐含的序数关系。

4.2解决分类问题的一般方法(方法论)P91(图4-3)

分类技术是一种根据输入数据集建立分类模型的系统方法。分类法包括:决策树分类法,基于规则的分类法,神经网络,支持向量机和朴素贝叶斯分类法。分类模型能够很好的拟合输入数据中类标号和属性集之间的联系,因此训练算法的主要目的就是建立具有很好繁华能力的模型。(即建立能够准确预测位置样本类标号的模型。)

4.3决策树归纳(可用于店铺病例诊断)

原理:一系列的问题和这些问题的可能回答可以组织成决策树的形式。树中包含三种节点:根节点,内部结点,叶结点或终结点。

建立:Hunt算法

属性;类型:二元属性,标称属性,序数属性,连续属性(比较或分区间)

最佳划分度量:选择最佳划分的度量通常是根据划分后子女节点不纯性的程度。熵,Gini,X2是常用的三种不纯性计算方法。不纯性越低,类分布就越倾斜。划分前和划分后的不纯程度相差越大,效果越好,计算相差程度用信息增益。

特点总结:

1.决策树归纳是一种构建分类模型的非参数方法。它补要求任何先验假设,不假定类和其他属性服从一定的概率分布。

2.已开发的构建决策树技术不需要昂贵的计算代价,即使训练集非常大,亦可以快速建立渗漏灶。决策树一旦建立,未知样本分类非常快。

3.决策树相对容易解释。

4.决策树是离散值函数的典型代表,但它不能很好的推广到特定的布尔问题。

5.决策树算法对于噪声的干扰具有相当好的鲁棒性。

6.在叶结点,记录可能太少,对于叶结点代表的类,不能做出具有统计意义的判决,这就是所谓的数据碎片。解决方法,就是当样本数小于某个特定阈值时停止分裂。

4.4模型的过分拟合

当决策树很小时,训练和检验误差都很大,这是由于模型尚未学习到数据的真实结构,模型拟合不足。但决策树过大后,训练误差会逐渐降低,而检验误差开始增大,称为过拟合(模型过分拟合)。原因在于,过于庞大的决策树可能拟合了训练样本中的噪声数据,这些结点降低了决策树的性能,不能很好的泛化到检验样本。出现过拟合的情况:噪声数据导致的过拟合,缺乏代表性样本导致的过分拟合,多重比较过程。

4.4.4估计泛化误差

估计误差能助于学习算法进行模型选择,即找到一个具有合适复杂度、不易发生过分拟合的模型。理想的复杂度是能产生最低泛化的模型的复杂度。由于模型依靠训练数据,对检验数据的性能,只能进行估计。对泛化误差估计的方法有:使用再代入估计(训练误差=泛化误差),结合模型复杂度,估计统计上界,使用确认集。

4.4.5处理决策归纳中的过分拟合

先剪枝:设定结束条件,比如观察到不纯性度量的增益低于某个确定阈值就停止扩展叶。/后剪枝:初始决策树按照最大规搜枯模生长,然后用心叶结点替换子树。

4.5评估分类器的性能:通过估计泛化误差,模型已建立,接下来需要在检验数据集上测试性丛扮能,用检验集上的准确率来比较模型性能。比较的方法主要有四:1.保持方法(将原始数据分为训练数据+检验数据);2.随机二次抽样:(可以多次重复保持方法来改进对分类器性能的估计);3.交叉验证(原始数据分成k份,每次1份作为检验数据,其余的作为训练数据,以此轮转,每个记录用于训练的次数相同,并且恰好检验一次。);4.自助法(训练记录采用有放回抽样)。

4.6比较分类器的方法:不同的数据集大小不同,两个分类器准确率上的差异可能不是统计显著的。借助统计检验方法来对不同模型进行比较。

4.6.1估计准确度的置信区间

4.6.2比较两个模型的性能

4.6.3比较两种分类法的性能

数据挖掘方面的经典书籍有什么?

推荐两本比较基础的书,数据挖掘导论和数据挖掘。经典教材,难度不深,内容全面且讲解细致,适合初学者使用。

1、数据挖掘导论,[美]Pang-Ning Tan,Michael Steinbach,Vipin Kumar 著,译者: 范明 范宏建,人民邮电出版社;

2、数据挖掘:概念与技术,作者:(加)韩家炜,堪博 著,范明,孟小峰 译,机械工业出版社;

因为都是中文版,阅读起来基本没有障碍,而且这两个出版社也是计算机领域的传统出版社了,质量还是很能保证的。

3、国外书籍推荐Pang-Ning Tan, Vipin Kumar etc. Introduction to Data Mining。可以深入了解数据挖掘

关于分类、关联规则、聚类的知识。第一章讲基本部分,第二章讲高级部分,让人由浅入深。另有单独的一章介绍异常检测。本书的第一作者是物理背景出身,首纤所以讲解很重视对于算法的理解(优缺点与适用范围等)。

想学习数据挖掘,推荐上CDA数磨陵据分析师的课程。课程培养学员硬性的数据挖掘理论与Python数据挖掘算法技能的同时,还兼顾培养学瞎芹戚员软性数据治理思维、商业策略优化思维、挖掘经营思维、算法思维、预测分析思维,全方位提升学员的数据洞察力。点击预约免费试听课。

关于数据挖掘导论和数据挖掘导论第八章课后答案的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。

标签列表