决策树案例(决策树案例及答案)
本篇文章给大家谈谈决策树案例,以及决策树案例及答案对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。
本文目录一览:
- 1、决策树模型在项目管理中的应用
- 2、06 决策树 - 案例一 - 鸢尾花数据分类、卡方检验
- 3、12-分类算法-决策树、随机森林
- 4、决策树法案例分析,请高人解答,再加分!
- 5、多元思维模型4:决策树——面对不确定性,如何做决策。
决策树模型在项目管理中的应用
本章节主要讲述的是决策模型,通过决策模型在不确定的情亩丛况下做一些决策分析,来帮助我们进行更好的决定。在决策模型中最重要的就是决策树了,课程用决策树举了好几个例子:如购票,3时的票只要200元,4时的票要400元,通过及时赶上3点的火车机率是40%。如果赶不上就等于多买了3时的票,也就是多支付200元巧耐碧。通过决策树,对不确定的情况下,分别计划从而得出结论。
其它的例子还有投资,申请奖学金等。不过有意思的是,可以通过决策树推测出对这个几率的看法,举例是回家看父母,通过决策树的一轮推算,精确地知道到底有多想看望父母。
决策树模型的应用非常广泛,在PMP(项目管理)中就会经常用到,是作为项目风险管理的一种孝举工具与技术。
在PMP中称为预期货币价值(EMV)分析,是当某些情况在未来可能发生或不发生时,计算结果的一种统计方法(不确定性下的分析)。可见决策树是基于不确性因素时中使用,如果一旦因素被确定下来,那么就是后面一节所讲的信息价值了。
再聊个实际的决策树案例
条件:某项目招标,分为A和B两个标段,只能投其中一个。
根据之前的经验,对这个项目有2种投标策略:
(1)投高标,中标机率是30%;
(2)投投标,中标机率是50%;
所以共有5种策略, A高标,A低标,B高标,B低标,不投;
据项目管理的资料统计,每种策略的利润和概率参见下表:
投标A不中,损失50万元,投标B不中,损失100万元。
那么投那个的收益更高呢?
决策树模型分析如下:
[img]06 决策树 - 案例一 - 鸢尾花数据分类、卡方检验
这次案例还是使用鸢尾花数据分类的数据。
数据路径: /datas/iris.data
数据格式:
数据解释:
1、引入头文件
feature_selection 是做特征选择的包
feature_selection 中的方法 SelectKBest ,帮助我们选择K个最优的特征
feature_selection 中的方法 chi2-卡方检验 ,表示使用 chi2 的方法帮助我们在 SelectKBest 中选择最优的K个最优特征。
2、防中文乱码、去警告、读取数敏镇据
总样本数目:150;特征属性数目:4
x=data[list(range(4))]
取得样本前四列特殊数据 '花萼长度', '花萼宽度', '花瓣长度', '花瓣宽度'
iris_class = 'Iris-setosa', 'Iris-versicolor', 'Iris-virginica'
y=pd.Categorical(data[4]).codes#把Y转换成分类型的0,1,2
将目标的三种分类转换成0,1,2
PS: 在之前的例子中: 04 分类算法 - Logistic回归 - 信贷审批案例 ,我们自己写过一个分类的算法对部分特征进行哑编码操作: parseRecord(record) ,其实pandas自己也集成了这个转换算法: pd.Categorical(data[4]).codes ,可以把y直接转换成0,1,2。
以上是数据预处理的步骤,和之前的例子类似。
3、数据分割(训练数据和测试数据)
训练数据集样本数目:120, 测试数据集样本数目:30
注意: 这个demo中的案例在这一步还没有做 KFold-K折交叉验证 。当前步骤的主要内容是对数据进行划分。K折就要生成K个互斥的子集。 KFold 的工作就是帮助我们划分子集的,划分完后我们将子集扔进建模即可。 02 分类算法 - Logistic案例 中提及过K折交叉验证的内容。
4、数据标准化和数据归一化的区别
思考: 行数据和列数据,哪个服从正态分布?显然,列数据是特征,和样本一样都服从正态分布。所以数据标准化和归一化的对象是列。
数据标准化:
StandardScaler (基于特征矩阵的列,将属性值转换至服从正态分布)
标准化是依照特征矩阵的列处理数据,其通过求z-score: z-score=(x-μ)/σ 的方法,将样本的特征值转换到同一量纲下。z-score是N(0,1)正态分布,即标准正态分布。
常用与基于正态分布的算法,比如回归。
PS:在 04 回归算法 - 最小二乘线性回归案例 中对 ss = StandardScaler() 数据标准化操作进行了深入分析。
数据归一化:
MinMaxScaler (区间缩放,基于最大最小值,将数据转换到0,1区间上的)
提升模型收敛速度,提升模型精度。
常见用于神经网络。
Normalizer (基于矩阵的行,将样本向量转换为单位向量)
其目的在于样本向量在点乘运算或其他核函数计算相似性时,拥有统一的标准。
常见用于文本分类和聚类、logistic回归中也会使用,有效防止过拟合。
原始数据各个特征属性的调整最小值:
[-1.19444444 -0.83333333 -0.18965517 -0.04166667]
原始数据各个特征属性的缩放数据值:
[ 0.27777778 0.41666667 0.17241379 0.41666667]
5、特征选择:
特誉拿源征选择:从已有的特征中选择出影响目标值最大的特征属庆态性
特征选择是一个transform的过程
常用方法:
{ 分类:F统计量、卡方系数,互信息mutual_info_classif
{ 连续:皮尔逊相关系数 F统计量 互信息mutual_info_classif
这里介绍一种特征选择方法: K方检验 SelectKBest
补充知识:K方检验
ch2 = SelectKBest(chi2,k=3) 这步操作本质是一个Transformer的步骤。Transformer的概念参考 05 回归算法 - 多项式扩展、管道Pipeline 。
K方检验的本质是:判断两个特征之间的关联程度。
看下面两个样本:
1、男女性别和是否会化妆的关联性是很强的:
2、男女性别和是否出门带口罩的关联性不强:
但大部分属性对结果的关联性我们很难用常识去判断,所以我们可以首先假设样本的特征和目标无关。
假设性别和是否会化妆无关。 因此我们设男人中化妆的比例为55%,男人中不化妆的比例是45%
根据实际情况进行计算:( 列联表 )
(20-55) 2 /55 + (90-55) 2 /55 + (80-45) 2 /45 + (10-45) 2 /45
结果越大,说明性别和是否会化妆的关联程度越大,当数值较大时我们可以说拒绝原假设,即原假设错误,真实情况下性别和是否会化妆有很大的影响。 (越大越拒绝)
如果结果越小,说明假设正确,我们称之为不拒绝原假设。
注意: K方统计用于离散的特征,对连续的特征无效。
对类别判断影响最大的三个特征属性分布是:
[ True False True True]
[0 2 3]
这里False的属性就是K方检验分数最小的那个,如果只取3个特征,False对应的那个特征就会被丢弃。
6、模型的构建、训练、预测:
准确率:96.67%
Score: 0.966666666667
Classes: [0 1 2]
7、画图:
12-分类算法-决策树、随机森林
决策树
生活中的决策树模型:
显然:判断依据的重要性从前往后越来越小
信息的度量和作用
在不知道任何信息的情况下猜测32支球队中闷纯升的冠军:如果用二分法,需要猜5次,即需要的代价为5bit,这个5bit我们称之为信息熵(H)
5 = -(1/32log(1/32) + 1/32log(1/32) + ... + 1/32log(1/32))
公式:概率log概率 之和
如果我们知道了一些球队的信息,需要的代价会小于5bit
5 -(1/4log(1/32) + 1/8log(1/32) + ... + 1/24log(1/32))
信息熵越大(比如,当每个球队的夺冠几率相等),不确定性越大
结合决策数,之所以我们先对某些条件进行判断,是因为能够减少我们更多的不确定性
决策树的划分依据——信息增益
信息增益:当得知一个条件之后,减少的信息熵的大小
决策树的api
在泰坦尼克号和titanic2数据帧描述泰坦尼克号上的个别乘客的生存状态。在泰坦尼克号的数据帧不包含从剧组信息,但它确实包含了乘客的一半的实际年龄。关于泰坦尼克号旅客的数据的主要来源是百科全书Titanica。这里使用的数据集是由各种研究人员开始的。其中包括许多研究人员创建的旅客名单,由Michael A. Findlay编辑。
我们提取的数据集中的特征是票的类别,存活,乘坐班,年龄,登陆,home.dest,房间,票,船和性别。乘坐班是指乘客班(1,2,3),是社会经济阶层的代表。
其中age数据存在缺失。
决策树部分图例:
决策树的优缺点以及改进
优点:
缺点:
改进:
集成学习方法
集成学习通过建立几个模型组合的来解决单一预测问题。它的工作原理是 生成多个分类器/模型 ,各自独立地学习和作出预测。这些预测最后结合成单预测,因此优于任何一个单分类的做出预测。
随机森林蚂老是一个包含多个决策裤念树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。
随机森林建立多个决策树的过程:
ps:为什么要随机抽样?避免每颗树的训练集的一样,那么最终训练出的上面的分类结果也是完全一样的
随机森林案例:
随机森林的优点:
随机森林几乎没有缺点
决策树法案例分析,请高人解答,再加分!
我不是高人,按你们山没对市场的调研来看,需求量都不算太大,并且盈利的数字有待考证,不可能断言之。
1,生产数码相机获得最多,凡高新数码产品利最大,功能最多,顾客颤唯仔最喜欢。这是常理。
2,不同决策者的决策茄汪都不尽相同,肯定会有很大的不同。
多元思维模型4:决策树——面对不确定性,如何做决策。
查理芒格在谈 基本的、普世的智慧 的时候,提到的第一条规则就是要拥有多元思维模型。如果只有很少的模型,根据人类的认知偏差,人会扭曲现实,直到它符合你的思维模型。这被查理芒格称之为“铁锤人”,是一种灾难性的思考方式。
所以我们希望把查理芒格提到的一些重要的思维模型整理出来,帮助大家避开“铁锤人”思维,掌握基本的、普世的智慧。决策树模型是我们整理的多元思维模型的第四个模型。
芒格说:“这么多年来,我一直跟巴菲特同事,他拥有许多优点,其中之一就是它能够自动地根据决策树理论和基本的排列组员原理来思考问题。”
费马和帕斯卡 的努力,标志着概率论的诞生,而概率是风险管理和决策理论的基础。
之前还提到过 条件概率和贝叶斯定理 ,可能讲得有些复杂,但是原理很简单,就是“当信息更新之后,我们的结论的概率也发生了变化。”
用公式描述就是: 初始概率 新的信息 = 新的概率
比如那篇文章举的一个例子:假设人类患某种癌症的概率是0.08%,现在最先进的技术检测患这种癌的正确率是99%,如果小明检测患这种癌,那么他患这种癌症的概率是多少?
直觉会认为检测患这种癌的正确率是99%,那么他患这种癌症的概率应该是99%。
但是正确的方式是:0.08%(初始概率) 99%(新信息),最后的结果是7.34%,远低于直觉的99%。计算方法在 贝叶斯定理 这篇文章有讲到。
如果这个例子比较难理解,那我们换一个。
我们知备罩亩道掷骰子出现3的概率是1/6,这时候多了一个信息,点数是奇数,那么概率就变成了1/3。
初始概率 新的信息 = 新的概率
(1/6) (是奇数) = 1/3
假设这时又多了一个信息,点数为“小”,那么概率就变成了1/2。
贝叶斯的分析方法就是不断把新的信息加入到推理和闷答决策的过程,也就是本文要讲的“决策树”。决策树是一种在不完全信息情况下,帮助我们做出更高概率正确决策的思考工具。
用决策树其实也很简单,主要三个步骤:
1、画决策树(画出分支);
2、分析各种几率和收益损失;
3、反向求解( 从末端开始向前推导,确认每个分支的价值,然后在每个结点处找出自己应该做的选择)。
决策树的4个作用:
1、帮助我们选择平均回报最高的决策,
2、根据别人的选择推测他人对事件发生几率的预测。
3、推测价值,或是别人认为的价值。
4、判断信息价值。
下面我们来看例子:
决策树作用1:帮助我们选择平均回报最高的决策。
案例1:一次分叉决策树。
假设现在2点,你要去做火车,3点的票200元,但是40%的概率赶不上,4点的票400元。应该怎么买?
按照之前的方法,可以算一下期望,买3点的票期望:
=0.6*200+0.4*600=360元,比400少,应该买三点的票。画成决策树就是:
?位置的数值,由两个分支结点可以算出来为360元。所以选3点的票,更高概率能省钱。
案例2:两次分叉决策树。
现在你想要参加一场比赛,奖金有5000元。有初选和决赛两个环节。
初选,200人参加,报名费20元。
决赛,10人进决赛,需要40元准备材料。
假设每个人的概率都相同,你应该参加初选和决赛么?
初选200人,所以参加初选进决赛仿森的概率=1/200=0.05,没进的概率0.9。
决赛10人,所以参加决赛夺冠的概率=0.1,收益5000-60元,没夺冠的概率0.9,损失等于两次费用60元。
决策树:
可以先算出参加决赛的期望:B = 0.1*4940 - 0.9*60=440,对比损失20元,应该参加决赛。
然后可以算出参加初赛的期望:A = 0.05440 - 0.95*20=3,应该参加初赛。
如果参赛的人再多一点点,比如250人,初赛胜出概率变成0.04,期望A的结果就变成了-1.6。这时候就不该应参与了。
所以决策树的本质是让我们更方便计算期望,从而更好的做出更高概率正确的决策。而期望也是概率决策理论中最基础,也最重要的概念。巴菲特说:“用亏损的概率乘以可能亏损的金额,再用盈利概率乘以可能盈利的金额,最后用后者减去前者。这就是我们一直试图做的方法。这种算法并不完美,但事情就这么简单。”
决策树作用2:根据别人的选择推测他人对事件发生几率的预测。
假设一支股票需要投入2000元,预期回报50000元。假设一个人已经投了,可以算出他对成功概率的想法。
假设投资成功的概率是P,那么失败的概率是(1-P)。还是用决策树:
既然一个投资了,那么他至少认为投资的期望应该大于0,
即,投的期望 A = 50000P-2000(1-P) 0
所以P 4%。
所以投的人认为投资成功的概率应该大于4%。
决策树作用3:推测价值,或是别人认为的价值。
这个案例很有意思,可以推测你的男朋友认为见你这件事值多少钱。
假设你的男朋友有一张候补机票去看你,他通过航空公司知道:
1/3概率能飞;
2/3飞不了。
通过他去不去机场,就能判断他认为见你这件事值多少钱。
假设他认为看你的价值为G(irl),坐车各种花费为300元。
先画出决策树:
如果他不去机场,可以认为他觉得A 0。
A = (1/3)*(V-300)-(2/3)*3000
V 900元。
所以如果他不去的话,可以认为他觉得见你不值900元。 = _ =!!!。所以你知道该怎么做了吧。
决策树作用4:判断信息价值。
我们知道通过新的信息可以提高判断的概率,如果一个新信息能够做到这点,我们就说这条信息是有价值的,而且这个价值可以计算出来。
信息的价值 = 得到信息的期望 - 没有信息的期望
假设现在买大小,每次下注20元,买中点数获得120元。
假设现在有人可以告诉你信息是奇数、还是偶数,要价15元,你是否应该买这条信息?
没有新信息的期望:120*(1/6)-20 = 0
得到新信息的期望:120*(1/3)-20 = 20 元。
这条信息的价值:20元。所以15元买这条信息,理论上是划算的,可以买。
当然很多时候,概率并不是这么明显可以知道的,所以相应的决策也会更复杂。而且很多时候还需要考虑其他因素,《 概率基础:期望、方差和正态分布 》这篇文章就提到有时候只知道期望是不够的。但是用决策树作为决策参照,会比凭感觉要靠谱得多。
查理芒格说:“掌握排列组合原理并不难,真正困难的是在日常生活中习惯于几乎每天都应用它。”决策树也一样,看懂上面这些例子并不难,真正困难的是在日常生活中习惯于几乎每天都应用它。每个人每天做决策的次数都很多,其中一两次拿出来试试用决策树的方法来思考,也许就能打开一片新的世界。
相关阅读:
多元思维模型1:复利模型——拥抱指数增长
多元思维模型2:费马帕斯卡系统——理解真实世界运转的方式
多元思维模型3:排列组合——提升决策质量必备思维方式
关于决策树案例和决策树案例及答案的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。