多分类评价指标(多分类的准确率)
本篇文章给大家谈谈多分类评价指标,以及多分类的准确率对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。
本文目录一览:
- 1、kmeans聚类效果的评估指标有
- 2、多指标评价方法分类的缺点
- 3、分类指标
- 4、评价-分类算法的评价指标
kmeans聚类效果的评估指标有
kmeans聚类效果的评估指标有轮廓系数协方差系数
常用机器学习算法包括分类、回归、聚类等几大类型,以下针对不同模型总结其评估指标:
一、分类模型碧咐
常见的分类模型包括:逻辑回归、决策树、朴素贝叶斯、SVM、神经网络等,模型评估指标包括以下几种:
二分类问题
1、混淆矩阵,准确率A:预测正确个数占总数的比例,精准率P:正例样本中有多少被预测正确了,召回率R:预测的正例样本中有多少是正确的,F1 Score(精准率与召回率集成):2P*R/(P+R)。
2、ROC曲线:ROC曲线应尽量偏离参考线,越靠近左上越好。
3、AUC:ROC曲线下面积,参考线面积为0.5,AUC应大于0.5,且偏离越多越好。
4、Lift曲线:表示“运用该模型”与“未运用该模型即随机选择”所得结果的比值,Lift应该移植大于1,且Lift(提升指数)越大,模型预测效果越好。多分类问题,评蚂慧粗价多分类模型一般采用准确率作为评估指标
二、回归模型
常见的回归模型包括线性回归、多项式回归、Lasso回归、岭回归、弹性网络、SVM、神经网络,评估指标见以下总结:
1、MSE均方误差,SSE/m,值越小代表拟合效果越好,用来衡量不同模型对于同一数据集的拟闷镇合。
2、R^2决定系数,1-SSE/SST,用于度量模型的解释能力,是相关系数的平方,取值范围为0~1,越接近1表示模型参考价值越高,在scikit-learn中LinearRegression.score就是使用的决定系数,也可以使用专门的库metrics.r2_score。
3、修正的R^2在多元线性回归中,决定系数会虚高,加一个自变量就会增大,加公式进行修正 1-[SSE/(n-p-1)/[SST/(n-1)],得到修正的决定系数。
三、聚类模型
常见的聚类模型有KMeans、密度聚类、层次聚类等,主要从簇内的稠密成都和簇间的离散程度来评估聚类的效果,评估指标包括:
1、轮廓系数 Silhouette Corfficient,轮廓系数由凝聚度和分离度共同构成,组内SSE越小,组间SSB越大,聚类效果越好,轮廓系数在-1~1之间,值越大,聚类效果越好。
2、协方差系数 Calinski-Harabaz Index,类别内部数据协方差越小越好,类别之间协方差越大越好,这样协方差系数会越高。
多指标评价方法分类的缺点
1、缺乏统一性:不同的指标评价方法分类可能会有不同的细分类别,从而态轮拦导致缺乏统一性,使得评价结果不易比较。
2、缺乏灵活性:指标评价方法分类可能会有一定的局限性,不能满足桐迹不同的评价需求,缺乏灵活性。
3、缺乏准确性:指标评价方法分类可能会存在一定的帆胡误差,不能准确反映评价结果,缺乏准确性。
分类指标
评估结果用于反应模型的好坏,必须设计合适的评估指标来测量该模型的好坏。模型的好坏是相对的,使用不同的评估指标对模型的判定会得到不一样的结果。
评估指标根据任务类型可以分为:分类指标、回归指标、聚类指标和排序指标等,本文主要关注分类指标。
分类的评价指标一般是分类准确率(accuracy):对于给定的数据集,分类正确的样本数与总的样本数之比。准确率在二分类与多分类都能应用。
对于二分类常用的指标为精确率(precision)与召回率(recall)。
根据上图的混淆矩阵可以得出精确率与召回率的定义:
TP—将正类预测为正类的样本数;
FN—将正类预测为负类的样本数;
FP—将负类预测为正类的样本数;
TN—将负类悔衡预测为负类的样本数;
精确率定义为:
召回率定义为:
精确率可以理解为在所有预测为正类这个事件的准确率有多高,召回率可以理解为真正的正类有多少被挑选了出来。理想情况下,精确率和召回率都是越高越好,但是事实一般相反,精确率高的时候,召回率低;召回率高的时候,精确率低。因此需要结合实际业务看更关注哪一个指标来判定模型好坏,为了达到更好效果,设计了一些综合考虑精确率与召回率的指标,如 $F_1$ 值, $F_1$ 值是精确率和召回率的调和平均值:
精确率和召回率都高时, 值也会高。
[ROC曲线]作为常用的二分类评价指标,其全称为接收者操作特征曲线(Receiver Operating Characteristic)。该曲线纵坐标真正率(TPR),横坐标为假正率(FPR),其定义如下:
则ROC曲线位于横纵坐标阈值都为碰前旅0-1之间,因此首先考虑4个特殊点(0,0)、(1, 1)、(0, 1)、(1, 0)。(0, 0)点表示TPR=FPR=0,即TP=FP=0,表示该分类器将所有样本都分为负类。同理,(1, 1)表示分类器将所有样本都分类为正类。(0, 1)点表示:FPR=0,TPR=1;意味着FP=0,FN=0,这样就是一个完笑凳美的分类器,正负类都分类完全正确。(1, 0)点表示TP=0, TN=0,这就是最糟糕的一个分类器,完美错过所有正确答案。综上,ROC曲线上的点越靠近左上方,那么该分类器就越好。
每一对TPR与FPR值可以描绘出一个点,为了得到一条ROC曲线,需要调整不同的预测概率,来得到不同TPR于FPR值对,这样就可以得到一条ROC曲线。AUC(Area under the Curve of ROC)即ROC曲线下的面积,取值越大说明正确率越高。
sklearn.metrics模块实现了一些loss, score以及一些工具函数来计算分类性能。
一些二分类(binary classification)使用的case:
[img]评价-分类算法的评价指标
对于二元分类,通常可以输出混淆矩阵,看预测的情况,并从中总结出一些指标,给予评价。
混淆矩阵也称误差矩阵,是表示精度评价的一种标准格式,用n行n列的矩阵形式来表示。具体评价指标有总体精度、制图精度、用户精度等,这些精度指标从不同的侧面反映了图像分类的精度。在人工智能中,混淆矩阵(confusion matrix)是可视化工具,特别用于监督学习,在无监督学习一般叫做匹配矩阵。在图像精度评价中,主要用于比较分类结果和实际测得值,可以把分类结果的精度显示在一个混淆矩阵里面。混淆矩阵是通过将每个实测像元的位置和分类与分类图像中的相应位置和分类相比较计算的。渣卖
以二元分类举例,混淆矩阵为:
每个样本会对应一个预测值和一个实际标签值,从上图可以知道,实际为1分类,预测结果也是1分类的有100个,而实际是0,预测是1的有3个,以此类推。
为了方便记忆,混淆矩阵的各个单元格有一个统一的称呼:
True很好理解,就是预测对了的,Positive代表的意思是实际分类为1的值,Negative代表的是实际分类为0的值。括号里面的就是简称了,这在后面会有用处。
假定1为正样本知袜,0为负样本,则混淆矩阵的各个单元格表述如下:
真正率(true prositive rate, TPR) 或灵敏度(sensitivity)定义为被模型正确预测的正样本比例,为:
同理可得其他:
从直观印象上来说,判断一个分类模型是不是准确,肯定是直接判断分类模型的正确率,这样就可以对模型有一个大概的评价,但是在某些时候,这么做并不靠谱:
假如我有一组产品,其中正品率可能是99.5%,次品率是0.5%,我的预测模型得到的结果是正品99%,次品1%,如果用正确率来算,是相当可观的,但是实际上次品的预测差距是整整1倍,很难说这是一个好的模型。
这种不同类的样本数量完全不成比例的情况,叫做不平衡类(倾斜类)。
对于这种分类,可以根据混淆矩阵来设计一些指标,从而评估模型,精准率就是其中之一:
精准率从公式上看,表达的意思就是预测为正样本的样本中,有多少是真正为正的,代表了预测的精确程度 。以下面的混淆矩阵为例:
所以精准率就是0.9804。
同上,召回率也是从混淆矩阵中总结出来的指标:
表达的意思则是,实际为正样本的个数中,有多少被成功的预测了 (有点类似于我现在从事行业的回收率,姑且这么理解吧)
还是上面的矩阵,那么召回率就是
事实上一个模型大部分时候是很难做到精确率和召回率两全的,有可能追求完美的精确率但是召回率很低,反之也一样,为了同时最大化精确率和召回率,可以用F1值对分类模型进行评价:
这个值肯定是在小于1的范围以内,原则上越大越好了。
ROC曲线是显示分类算法真正率和假正率之间折中的一种可视化方法,把真正率(TPR)作为y轴,假正率(FPR)作为x轴。
设定一个阈值,阈值之上的样本为正样本,之下为负样本,阈值降低,则真正率越高,假正率也会越高(因为判断正样本的条件宽松了),所以ROC曲线应该是x轴和y轴同时增长的,如图:
如果是一个随机分类,则ROC曲线应该是沿着对角线的,如果是分类算法,那么图像越靠近左上角,模型效果越如猛逗好(假正率很低的时候真正率高)。
AUC是ROC曲线下方的面积,很显然,面积越大越好,如果模型是完美的,那么面积等于1,如果是随即分类,那么就是0.5。
以上这几种常用方法都是二元分类的方法,其中有一些也可以扩展到多分类,另外还有多分类专用的评价方法。
转自
应用多分类问题,把每个类别单独视为”正“,所有其它类型视为”负“,考虑如下的混淆矩阵:
Kappa统计是比较两个或多个观测者对同一事物,或观测者对同一事物的两次或多次观测结果是否一致,这个系数的取值范围是[-1,1],实际应用中,一般是[0,1],这个系数的值越高,则代表模型实现的分类准确度越高。
Kappa统计数字的意义如下:
其中,p0表示为总的分类准确度;
pe表示为
其中, 代表第i类真实样本个数, 代表第i类预测出来的样本个数。
对于该表中的数据,则有:
海明距离也适用于多分类的问题,简单来说就是衡量预测标签与真实标签之间的距离,取值在0~1之间。距离为0说明预测结果与真实结果完全相同,距离为1就说明模型与我们想要的结果完全就是背道而驰。
它与海明距离的不同之处在于分母。当预测结果与实际情况完全相符时,系数为1;当预测结果与实际情况完全不符时,系数为0;当预测结果是实际情况的真子集或真超集时,距离介于0到1之间。
我们可以通过对所有样本的预测情况求平均得到算法在测试集上的总体表现情况。
铰链损失(Hinge loss)一般用来使“边缘最大化”(maximal margin)。损失取值在0~1之间,当取值为0,表示多分类模型分类完全准确,取值为1表明完全不起作用。
参考:
关于多分类评价指标和多分类的准确率的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。