图像分类(图像分类国内外研究现状)
本篇文章给大家谈谈图像分类,以及图像分类国内外研究现状对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。
本文目录一览:
【技术综述】多标签图像分类综述
图像分类作为计算机视觉领域的基础任务,经过大量的研究与试验,已经取得了傲人的成绩。然而,现有的分类任务大多是以单标签分类展开研究的。当图片中有多个标签时,又该如何进行分类呢?本篇综述将带领大家了解多标签图像分类这一方向,了解更具难度的图像分类。
作者 | 郭冰洋
编辑 | 言有三
随着科学技术的进步与发展,图像作为信息传播的重要媒介,在通信、无人驾驶、医学影像分析唯闭颂、航天、遥感等多个领域得到了广泛的研究,并在国民社会、经济生活中承担着更加重要的角色。人们对图像研究的愈发重视,也促使计算机视觉领域迎来了蓬勃发展的黄金时代。
作为计算机视觉领域的基础性任务,图像分类是目标检测、语义分割的重要支撑,其目标是将不同的图像划分到不同的类别,并实现最小的分类误差。经过近30年的研究,图像分类已经成功应用至社会生活的方方面面。如今,在我们的生活中随处可见——智能手机的相册自动分类、产品缺陷识别、无人驾驶等等。
根据分类任务的目标不同,可以将图像分类任务划分成两部分:(1)单标签图像分类;(2)多标签图像分类。
单标签图像分类是指每张图片对应一个类别标签,根据物体类别的数量,又可以将单标签图像分类划分成二分类、多类别分类。如下图所示,可以将该图的标签记为海洋,通过单标签图像分类我们可以判定该图像中是否含有海洋。
然而,现实生活中的图片中往往包含多个类别的物体,这也更加符合人的认知习惯。我们再来观察下图,可以发现图中不仅包含海洋,还包括了海豚。多标签图像分类可以告知我们图像中是否同时包含这些内容,这也能够更好地解决实际生活中的问题。
机器学习算法主要包括两个解决思路:
(1) 问题迁移,即将多标签分类问题转化为单标签分类问题,如将标签转化为向量、训练多个分类器等;
(2) 根据多标签特点,提出新的适应性算法,包括ML-KNN、Ranking SVM、Multi-label Decision Tree等。现对其中具有代表性的算法进行总结。
2.1 问题迁移
问题迁移方法的主要思想是先将多标签数据集用某种方式转换成单标签数据集,然后运用单标签分类方法进行分类。该方法有可以包括基于态茄标签转换和基于样本实例转换。
2.1.1 基于标签转换
针对每个标签,将属于这个标签的所有实例分为一类,不属于的分为另一类,将所有数据转换为多个单标签分类问题(如下图)。典型算法主要有Binary Relevance和Classifier Chain两种。
2.1.2 基于样本实例转换
这种方法是将多标签实例分解成多个单标签实例。如下图所示。实例E3对应标签y3和y4,则通过分解多标签方法法将E3分解成单独选中标签y3和y4的实例,然后对每一个标签作单独预测。
2.2 适应性方法
如上文所述,新的适应性算法是根据多标签分类的特殊性,改进现有的单标签分类算法,主要包括以下三种:
2.2.1 ML-KNN
ML-KNN由传统的KNN算法发展而来。首先通过KNN算法得到样本最接近的K个邻近样本,然后根据K个邻近样本的标签,统计属于某一标签的邻近指郑样本个数,最后利用最大后验概率原则(MAP)决定测试样本含有的标签集合。
2.2.2 Rank SVM
Rank SVM是在SVM的基础上,加入Ranking Loss损失函数和相应的边际函数作为约束条件,并扩展目标函数而提出的一种多标签学习算法。该算法的简要思路是:首先定义函数s(x)是样本x的标签集的规模大小,然后定义rk(x)=wkTx+bk,如果求得的rk(x)值在最大的s(x)个元素(r1(x),...rQ(x))之间,则认为该样本x选中该标签k,否则就没被选中。在求解过程中定义新的排序函数rk(x)-rl(x)≥1,其中k表示被样本x选中的标签,l表示没有被选中的标签,并基于这个新的排序函来大间隔分类器,同时最小化Ranking Loss,从而推导出适合多标签分类的目标函数和限制条件。
2.2.3 Multi-label Decision Tree
该算法采用决策树技术处理多标签数据,利用基于多标签熵的信息增益准则递归地构建决策树。树形结构包括非叶结点、分支、叶节点。决策树模型用于分类时,特征属性用非叶节点表示,特征属性在某个值域上的输出用非叶节点之间的分支表示,而类别则用叶节点存放。
计算思想如下:首先计算每个特征的信息增益,挑选增益最大的特征来划分样本为左右子集,递归下去,直到满足停止条件,完成决策树的构建。对新的测试样本,沿根节点遍历一条路径到叶子节点,计算叶子节点样本子集中每个标签为0和1的概率,概率超过0.5则表示含有该标签。当遍历所有路径到底不同的叶节点之后,则可判断涵盖的所有标签信息。
除了上述三类主要算法外,还包括诸多以单标签分类进行改进的算法,在此不再赘述。
深度学习的发展带动了图像分类精度的大幅提升,神经网络强大的非线性表征能力可以在大规模数据中学习到更加有效的特征。近年来,多标签图像分类也开始使用深度学习的思想展开研究。
魏云超等在程明明教授提出的BING理论基础上,提出了Hypotheses-CNN-Pooling。首先对每张图片提取含有标签信息的候选区域(如上图中的Hypotheses Extraction过程),然后将每个候选区域送入CNN进行分类训练,最后利用cross-hypothesis max-pooling融合所有候选区域的分类结果,从而得到多个标签信息完整的图片。
CNN具有强大的语义信息提取能力,而RNN则可以建立信息之间的关联。根据这一理论观点,Jiang Wang等提出了CNN-RNN联合的网络结构。首先利用CNN对输入图像进行训练,得到相应的特征,然后将图片对应的特征投影到与标签一致的空间中,在该空间利用RNN进行单词的搜索训练。该算法充分考虑了类别之间的相关性,可以有效对图像中具有一定关系的标签进行识别。
在CNN-RNN结构的基础上,后续文章又加入Regional LSTM模块。该模块可以对CNN的特征进行导向处理,从而获取特征的位置信息,并计算位置信息和标签之间的相关性。在上文的结果上进一步考虑了特征、位置和标签之间潜在的依赖关系,可以有效计算图片中多个标签同时存在的可能性,并进行图片的分类。
最近,诸多基于image-level进行弱监督分割研究的文章,充分利用了多标签分类网络的信息。其主要思想是将标签统一处理为向量形式,为每幅图片构建一个维度为1xN的矩阵标签(如[0,0,0,1,1,0]形式),并采用专门的损失函数(Hanming loss、Ranking loss等)进行训练。这一方法成功地将多标签的复杂问题,转化为单标签问题,从而可以利用传统的分类网络进行训练。
多标签图像分类的相关算法仍然层出不穷,但不论是基于机器学习还是基于深度学习的算法,都有其优势和不足,如何根据实际应用需求选用合适的算法,才是我们应当关注的重点内容。
单标签分类中通常采用准确率(Precision),召回率(Recall)、F值(F-measure)和AUC曲线对分类结果进行评价。然而,在多标签分类中一个图片与多个标签同时关联,其复杂程度远远高于单标签分类。因此,在继承单标签分类评价指标的基础上,许多关于多标签分类的评价指标也被提出。在这里只介绍多标签分类常用的指标,有关单标签分类的指标不再赘述。
4.1 平均准确率(AP)和平均准确率均值(mAP)
同单标签分类一样,当一张图片中的所有标记均预测正确时,准确率才可以置1,否则置零。每个类别下的标签分别进行计算后,取其平均值即可获得平均准确率,对所有平均准确率取均值即可获得平均准确率均值。平均准确率可以衡量模型在每个类别的好坏程度,而平均准确率均值则衡量的是在所有类别的好坏程度。
4.2 汉明距离
将预测的标签集合与实际的标签集合进行对比,按照汉明距离的相似度来衡量。汉明距离的相似度越高,即汉明损失函数越小,则模型的准确率越高。
4.3 1-错误率
1-错误率用来计算预测结果中排序第一的标签不属于实际标签集中的概率。其思想相当于单标签分类问题中的错误率评价指标。1-错误率越小,说明预测结果越接近实际标签,模型的预测结果也就越好。
4.4 覆盖率
覆盖率用来度量“排序好的标签列表”平均需要移动多少步数,才能覆盖真实的相关标签集合。对预测集合Y中的所有标签{y1,y2,… yi … yn}进行排序,并返回标签yi在排序表中的排名,排名越高,则相关性越差,反之,相关性越高。
4.5 排序损失
排序损失计算的是不相关标签比相关标签的相关性还要大的概率。
高质量的数据集是图像分类的基础,更是关键所在。随着人们对数据质量的重视程度越来越高,如今已有诸多完备的多标签图像分类数据集。
5.1 Pascal VOC
Pascal VOC数据集的主要任务是在真实场景中识别来自多个类别的目标。该数据集共有近两万张图片,共有20个类别组成。Pascal VOC官方对每张图片都进行了详细的信息标注,包括类别信息、边界框信息和语义信息,均保存在相应的xml格式文件中。通过读取xml文件中的项,我们可以获取到单张图片中包含的多个物体类别信息,从而构建多标签信息集合并进行分类训练。
5.2 COCO
COCO(Common Objects in Context)数据集由微软公司赞助搭建。该数据集包含了91个类别,三十余万张图片以及近二百五十万个标签。与Pascal VOC相类似,COCO数据的标注信息均保存在图片对应的json格式文件中。通过读取json文件中的annotation字段,可以获取其中的category_id项,从而获取图片中的类别信息。同一json文件中包含多个category_id项,可以帮助我们构建多标签信息。COCO数据集的类别虽然远远大于Pascal VOC,而且每一类包含的图像更多,这也更有利于特定场景下的特征学习。
除了上述两个个主流数据集之外,比较常用的还包括ImageNet数据集、NUS-WIDE数据集。近年来,诸多公司、科研机构也提出了诸多全新的数据集,如ML-Images等。这些标注完善的数据,为多标签图像分类的研究提供了有力的支持,同样也为图像处理领域的发展做出了巨大贡献。
(1)多标签图像分类的可能性随着图片中标签类别的增加呈指数级增长,在现有的硬件基础上会加剧训练的负担和时间成本,如何有效的降低信息维度是面临的最大挑战。
(2) 多标签分类往往没有考虑类别之间的相关性,如房子大概率不会出现老虎、海洋上不太可能出现汽车。对于人类来说,这些均是常识性的问题,但对于计算机却是非常复杂的过程,如何找到类别之间的相关性也能够更好的降低多标签图像分类的难度。
古语有云:“纸上得来终觉浅,绝知此事要躬行”,理论知识的学习必须通过实践才能进一步强化,完成了综述内容的书写,后续将基于Pytorch框架以Pascal VOC2012增强数据集进行多标签图像分类实战,敬请期待哦!
如果想加入我们,后台留言吧
技术交流请移步知识星球
更多请关注知乎专栏《有三AI学院》和公众号《有三AI》
[img]photoshop中的图像模式分类及其特点?
photoshop中的图像模式分类及其特点:
1、RGB
颜色:RGB
图像1600
万种色彩,是像素能得到的性能顶峰,但占据大量的硬
盘空间。R:红色;睁陆基G:绿色;B:蓝色;
2、CMYK
颜色:称为印刷色彩模式,国内的制版印刷业都遵循这种色彩方式。C:青
色;M:洋红色(品红);Y:黄色;K:黑色;
3、Grayscale:灰度图像,包含256
种不同浓度等级的灰色;
4、Bitmap:在此特指黑白位图,完全由黑色和白色构成。
Duotone:双色调。这是为了消除灰度图像的单调性而设置的,可以给灰度图像
最多添加4
种色彩,在印刷上称为套色;
5、Indexed
Color:索引色彩,只能表达
256
种颜色,它将从一个色彩分配表中选
择不同的色彩分配方式;
6、Lab:照明色彩方式,由国际照明委员会制定的颜色标准。此方式使用颜色输出
与设备无关,不论使用什么设备输出图像,颜色始终保持一致;
7、Multichannel:多通道色彩方式,支持最多
24
个通道,主要用于一些特殊打印
上。当删除
RGB
或悉谨
CMYK
等彩色图像中的某一个悉空色彩通道时,图像将自动转为多通道方式。
图像分类处理原理
1. 图像分类处理的依据
图像分类处理的依据就是模式识别的过程,即通过对各类地物的遥感影像特征分析来选择特征参数,将特征空间划分为互不重叠的子空间并将图像内各个像元划分到各个子空间区,从而实现分类。这里特征参数是指能够反映地物影像特征并可用于遥感图像分类处理的变量,如多波段图像的各个波段、多波段图像的算术/逻辑运算结果、图像变换/增强结果、图像空间结构特征等; 特征空间是指由特征变量组成的多维空间。
遥感影像中同一类地物在相同的条件下 ( 纹理、地形、光照及植被覆盖等) ,应具有相同或相似的光谱信息特征和空间信息特征,从而表现出同类地物的哪局某种内在的相似性。在多波段遥感的数字图像中,可以粗略地用它们在各个波段上的像元值的连线来表示其光谱信息 ( 图 4-22a) 。在实际的多维空间中,地物的像元值向量往往不是一个点,而是呈点群分布 ( 集群) 。同类地物的特征向量将集群在同一特征空间域,不同地物的光谱信息或空间信息特征不同,因而将集群在不同的特征的空间域 ( 图 4-22b) 。在实际图像中,不同地物的集群还存在有交叉过渡,受图像分辨率的限制,一个像元中可能包括有若干个地物类别,即所谓 “混合像元”,因此对不同集群的区分要依据它们的统计特征来完成。
2. 图像分类处理的关键问题
图像分类处理的关键问题就是按概率统计规律,选择适当的判别函数、建立合理的判别模型,把这些离散的 “集群”分离开来,并作出判决和归类。通常的做法是,将多维波谱空间划分为若干区域 ( 子空间) ,位于同一区域内的点归于同一类。子空间划分的标准可以概括为两类: ①根据点群的统计特征,确定它所应占据的区域范围。例如,以每一类的均值向量为中心,规定在几个标准差的范围内的点归为一类。②确定类别之间的边界,建立边界函数或判别函数。不论采取哪种标准,关键在于确定同一类别在多维波谱空间中的位置 ( 类的均值向量) 、范围 ( 协方差矩阵) 及类与类边界 ( 判别函数) 的确切数值。按确定这些数据是否有已知训练样本 ( 样区) 为准,通常把分类技术分为监督和非监督两类。非监督芦缓春分类是根据图像数据本身的统计特征及点群的分布情况,从纯统计学陪耐的角度对图像数据进行类别划分的分类处理方法。监督分类是根据已知类别或训练样本的模式特征选择特征参数并建立判别函数,把图像中各个像元点划归至给定类中的分类处理方法。
图 4-22 某地数字图像上主要几种地物的光谱反射比曲线和集群分布
3. 监督分类与非监督分类的本质区别
监督分类与非监督分类的本质区别在于有无先验知识。非监督分类为在无分类对象先验知识的条件下,完全根据数据自身的统计规律所进行的分类; 监督分类指在先验知识( 训练样本的模式特征等先验知识) 的 “监督”之下进行分类。非监督分类的结果可作为监督分类训练样本选择的重要参考依据,同时,监督分类中训练样本的选择需要目视解译工作者、专家的地学知识与经验作为支撑。
4. 遥感图像分类的工作流程
①确定分类类别: 根据专题目的和图像数据特性确定计算机分类处理的类别数与类特征; ②选择特征参数: 选择能描述各类别的特征参数变量; ③提取分类数据: 提取各类别的训练 ( 样本) 数据; ④测定总体统计特征: 或测定训练数据的总体特征,或用聚类分析方法对特征相似的像元进行归类分析并测定其特征; ⑤分类: 用给定的分类基准对各个像元进行分类归并处理; ⑥分类结果验证: 对分类的精度与可靠性进行分析。
计算机视觉可分为哪五大类
计算机视觉是一个涵盖众多技术和应用的研究领域。以下是五大类常见的计算机视觉任务:
图像分类(Image Classification):
图像分类是指根据图像内容将其归入不同的类别。这是计算机视觉中最基本的任务之一,涉及到特征提取和模式识别。深度学习技术,尤其是卷积神经网络(CNNs),在这一领域取得了显枯知团著的成果。
物体检测(Object Detection):
物体检测不仅需要识别图像中的物体类别,还需要确定物体的位置和边界框。这类任务通常涉及到物体定位和分类的同时处理。常见的物体检测方法包括R-CNN、YOLO、SSD等。
语义分割(Semantic Segmentation):
语义分割是将图像中的每个像素分配给相应的类别,从而实现对图像中不同物体的精确划分。这种任务在自动驾驶、医疗图像分析等领域有广泛应用。常见的语义分割方法包括FCN、U-Net、DeepLab等。
实例分割(Instance Segmentation):
实例分割在语义分割的基础上,进一步区分同一类别的不同实例。这对于理解场景中的物体数量和相互关系非常重要。常见的实例分割方法包括Mask R-CNN、SOLO等。
姿态估计(Pose Estimation):
姿态估计是指从图像中估计物体的空间姿态,如人体关键点检测、物体位姿估计等。这类任务在动作识别、增强现实、机器人导航等领域有广泛猛祥应用。常见的姿态估计方法包括OpenPose、AlphaPose、POSEC3D等。
这五大类计算机视觉任务涵盖了许多具体的应用场景,它们共同推没橘动了计算机视觉领域的发展和创新。
关于图像分类和图像分类国内外研究现状的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。