高斯混合聚类(高斯混合聚类算法 c++ 三维)

本篇文章给大家谈谈高斯混合聚类,以及高斯混合聚类算法 c++ 三维对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。

本文目录一览:

高斯混合模型

多元高斯分布概率密度函数:       1.1

其中 是 维均值向量, 是 协方差矩阵。

定义高斯混合分布:

    1.2

为混合系数,满足

假设数据集 是由高斯混合模型生成的, 令随机变量 表示生成样本的高斯混合成分(即类标签),对于聚类问题,我们需要求出

E步:

对于某个样本 ,根据贝叶斯公式,它由第 个高斯混合成分生成(或属于 类)的后验概率概率:

    1.3

由于先验概率  ,而条件概率密度 恰好是对应高斯成分的密度函数,因此3.3可写为:

    1.4

给出了样本 由第 个高斯成分生成的后验概率, 记为 ,为隐变量。

M步:

给定样本集 , 数据集中样本对分布的对数似然函数为:

   

      1.5

对似然函数中的变量求偏导

    1.6

令 ,得:

 两端同时左乘 ,并将 代入,得:

      1.7

解出     1.8

的求法参考 矩阵求导术 ,个人认为是比较好的矩阵求导方法。

首先记

根据矩阵求导术,先求 的全微分,把 当做变量,其余看做常数

其中

每个样本独立同分布,所以协方差矩阵 (该矩阵为实对称矩阵)正定,因此可逆

由 、 和 得:

化简得:

标量套上迹 并在迹内交换次序得,

对照全微分与导数的关系 有:

因此,     1.9

令1.9 为0 , 将方程左右同时乘以 ,并将 代入得:

    1.10

解得:     1.11

高斯混合成分的系数 可由Lagrange乘数法求出,注意到 , 

设     1.12

    1.13

    1.14

代入1.13得:

     1.15

以上步骤不断迭代直至算法收敛。

        在半监督学习中,一部分数据是有类标签的,记为 ,另一部分是没有标签的,记为 。

对于有监督信息的数据 ,我们仍假设每个样本 又混合高斯分布生成。给定样本 ,其真实样本标记为 ,其中

为所有可能的类别。

因此     2.1

其中混合系数 。

        令 表示模型 对 的预测标记, 表示样本 隶属的高斯混合成分。模型需要最大化后验概率,渗冲搏即:

    2.2

其中

    2.3

由于第 类样本只能由同样标号的高斯混合成分生成的,所以必有 ,否则 。

对 求似然, 注意 项与高斯混合聚类的似然函数相同:

    2.4

其中分母部分是数据的概率密度, 对似然无影响,可以去掉,因此 等价于

    2.5

E步:根据当前模型参数计算未标记样本 属于各高斯混合成分的概率(同高斯混合聚类)

    2.6

M步:基于 更新模型参数,这里跟高斯混合聚类的区别就是似然函数不同。

分别计算 。判芦 部分的值在第一部分中已经计算过,现只需要计算 部分的值。

由于带监督信息, 内部只剩第 项,其余均为 。

所以

    2.7

故     2.8

令其为 ,求得:

    2.9

其中 是 中属丛祥于第 类的样本标记数目

协方差同理,只计算 部分,

    2.10

    2.11

令其为 ,求得:

    2.12

同理用Lagrang乘数法求得:

    2.13

以上过程迭代直至算法收敛。

Reference:

《机器学习》 周志华

《统计学习方法》 李航

知乎专栏:矩阵求导术(上)

[img]

高斯混合模型(GMM)和EM算法

学号:20021110074     电院    姓名:梁雪玲

【嵌牛导读】:GMM与EM算法的学习与推导。

【嵌牛鼻子】:GMM    EM  

【嵌牛提问】:GMM是什么?EM算法是什么?二者之间的关系?算法的推导?如何深入学习?

【嵌牛正文】:

在深度学习的路上,从头开始了解一下各项技术。本人是DL小白,连续记录我自己看的一些东西,大家可以互相交流。

本文参考:

(EM算法)

(EM算法)

一、前言

    高斯混合模型(Gaussian Mixture Model)简称GMM,是一种业界广泛使用的聚类算法。它是多个高斯分布函数的线性组合,理论上GMM可以拟合出任意类型的分布,通常用于解决同一集合下的数据包含多种不同的分布的情况。高斯混合模型使用了期望最大(Expectation Maximization, 简称EM)算法进行训练,故此我们在了解GMM之后,也需要了解如何通过EM算法训练(求解)GMM。

二、高斯混合模型(GMM)

    在了解高斯混合模型之前,我们先了解一下这种模型的具体参数模型-高斯分布。高斯分布又称正态分布,是一种在自然界中大量存在的,最为常见的分布形式。

    如上图,这是一个关于身高的生态分布曲线,关于175-180对称,中间高两边低,相信大家在高中已经很了解了,这里就不再阐述。

    现在,我们引用《统计学习方法》-李航 书中的定义,如下图:

    根据定义,我们可以理解为,GMM是多个高斯分布的加权和,并且权重α之和等于1。这里不难理解,因为GMM最终反映出的是一个概率,而整个模型的概率之和为1,所以权重之和即为1。高斯混合模型实则不难理解,接下来我们介绍GMM的训练(求解)方法。

PS.从数学角度看,对于一个概率模型的求解,即为求其最大值。从深度学习角度看,我们希望降低这个概率模型的损失函数,也就是凳陵希望训练模型,获得最大值。训练和求解是不同专业,但相同目标的术语。

三、最大似然估计

     想要了解EM算法,我们首先需要了解最大似然估计这个概念。我们通过一个简单的例子来解释一下。

    假设,我们需要调查学校男女生的身高分布。我们用抽样的思想,在校园里随机抽取了100男生和100女生,共顷毕计200个人(身高样本数据)。我们假设整个学校的身高分布服从于高斯分布。但是这个高斯分布的均值u和方差∂2我们不知道,这两个参数就是我们需要估计的值。记作θ=[u, ∂]T。

    由于每个样本都是独立地从p(x|θ)中抽取的,并且所有的样本都服从于同一个高斯分布p(x|θ)。那么我们从整个学校中,那么我抽到男生A(的身高)的概率是p(xA|θ),抽到男生B的概率是p(xB|θ)。而恰好抽取出这100个男生的概率,就是每个男生的概率乘积。用下式表示:

    这个概率反映了,在概率密度函数的参数是θ时,得到X这组样本的概率。在公式中,x已知雀粗芹,而θ是未知,所以它是θ的函数。这个函数放映的是在不同的参数θ取值下,取得当前这个样本集的可能性,因此称为参数θ相对于样本集X的似然函数(likehood function)。记为L(θ)。

    我们先穿插一个小例子,来阐述似然的概念。

某位同学与一位猎人一起外出打猎,一只野兔从前方窜过。只听一声枪响,野兔应声到下,如果要你推测,这一发命中的子弹是谁打的?你就会想,只发一枪便打中,由于猎人命中的概率一般大于这位同学命中的概率,看来这一枪是猎人射中的。

      这个例子所作的推断就体现了极大似然法的基本思想,我们并不知道具体是谁打的兔子,但是我们可以估计到一个看似正确的参数。回到男生身高的例子中。在整个学校中我们一次抽到这100个男生(样本),而不是其他的人,那么我们可以认为这100个男生(样本)出现的概率最大,用上面的似然函数L(θ)来表示。

    所以,我们就只需要找到一个参数θ,其对应的似然函数L(θ)最大,也就是说抽到这100个男生(的身高)概率最大。这个叫做θ的最大似然估计量,记为:

因为L(θ)是一个连乘函数,我们为了便于分析,可以定义对数似然函数,运用对数的运算规则,把连乘转变为连加:

PS.这种数学方法在MFCC中我们曾经用过,可以回溯一下上一篇文章。

    此时,我们要求θ,只需要使θ的似然函数L(θ)极大化,然后极大值对应的θ就是我们的估计。在数学中求一个函数的最值问题,即为求导,使导数为0,解方程式即可(前提是函数L(θ)连续可微)。在深度学习中,θ是包含多个参数的向量,运用高等数学中的求偏导,固定其中一个变量的思想,即可求出极致点,解方程。

总结而言:

    最大似然估计,只是一种概率论在统计学的应用,它是参数估计的方法之一。说的是已知某个随机样本满足某种概率分布,但是其中具体的参数不清楚,参数估计就是通过若干次试验,观察其结果,利用结果推出参数的大概值。最大似然估计是建立在这样的思想上:已知某个参数能使这个样本出现的概率最大,我们当然不会再去选择其他小概率的样本,所以干脆就把这个参数作为估计的真实值。

    求最大似然函数估计值的一般步骤:

(1)写出似然函数;

(2)对似然函数取对数,并整理;(化乘为加)

(3)求导数,令导数为0,得到似然方程;

(4)解似然方程,得到的参数即为所求。

四、EM算法

    期望最大(Expectation Maximization, 简称EM)算法,称为机器学习十大算法之一。它是一种从不完全数据或有数据丢失的数据集(存在隐含变量)中求解概率模型参数的最大似然估计方法。

    现在,我们重新回到男女生身高分布的例子。我们通过抽取100个男生身高,并假设身高分布服从于高斯分布,我们通过最大化其似然函数,可以求的高斯分布的参数θ=[u, ∂]T了,对女生同理。但是,假如这200人,我们只能统计到其身高数据,但是没有男女信息(其实就是面对200个样本,抽取得到的每个样本都不知道是从哪个分布抽取的,这对于深度学习的样本分类很常见)。这个时候,我们需要对样本进行两个东西的猜测或者估计了。

      EM算法就可以解决这个问题。假设我们想估计知道A和B两个参数,在开始状态下二者都是未知的,但如果知道了A的信息就可以得到B的信息,反过来知道了B也就得到了A。可以考虑首先赋予A某种初值,以此得到B的估计值,然后从B的当前值出发,重新估计A的取值,这个过程一直持续到收敛为止。

    在男女生身高分布的例子中,我们运用EM算法的思想。首先随便猜一下男生的高斯分布参数:均值和方差。假设均值是1.7米,方差是0.1米,然后计算出每个人更可能属于第一个还是第二个正态分布中。这是第一步,Expectation。在分开了两类之后,我们可以通过之前用的最大似然,通过这两部分,重新估算第一个和第二个分布的高斯分布参数:均值和方差。这是第二步,Maximization。然后更新这两个分布的参数。这是可以根据更新的分布,重新调整E(Expectation)步骤...如此往复,迭代到参数基本不再发生变化。

    这里原作者提到了一个数学思维,很受启发,转给大家看一眼(比较鸡汤和啰嗦,大家可以跳过)

这时候你就不服了,说你老迭代迭代的,你咋知道新的参数的估计就比原来的好啊?为什么这种方法行得通呢?有没有失效的时候呢?什么时候失效呢?用到这个方法需要注意什么问题呢?呵呵,一下子抛出那么多问题,搞得我适应不过来了,不过这证明了你有很好的搞研究的潜质啊。呵呵,其实这些问题就是数学家需要解决的问题。在数学上是可以稳当的证明的或者得出结论的。那咱们用数学来把上面的问题重新描述下。(在这里可以知道,不管多么复杂或者简单的物理世界的思想,都需要通过数学工具进行建模抽象才得以使用并发挥其强大的作用,而且,这里面蕴含的数学往往能带给你更多想象不到的东西,这就是数学的精妙所在啊)

五、EM算法的简单理解方式

    在提出EM算法的推导过程之前,先提出中形象的理解方式,便于大家理解整个EM算法,如果只是实现深度学习模型,个人认为可以不需要去看后面的算法推导,看这个就足够了。

    坐标上升法(Coordinate ascent):

    图中的直线式迭代优化的途径,可以看到每一步都会向最优值靠近,而每一步前进的路线都平行于坐标轴。那么我们可以将其理解为两个未知数的方程求解。俩个未知数求解的方式,其实是固定其中一个未知数,求另一个未知数的偏导数,之后再反过来固定后者,求前者的偏导数。EM算法的思想,其实也是如此。使用坐标上升法,一次固定一个变量,对另外的求极值,最后逐步逼近极值。对应到EM上,E步:固定θ,优化Q;M步:固定Q,优化θ;交替将极值推向最大。 

六、EM算法推导

    现在很多深度学习框架可以简单调用EM算法,实际上这一段大家可以不用看,直接跳过看最后的总结即可。但是如果你希望了解一些内部的逻辑,可以看一下这一段推导过程。

    假设我们有一个样本集{x(1),…,x(m)},包含m个独立的样本(右上角为样本序号)。但每个样本i对应的类别z(i)是未知的(相当于聚类),也即隐含变量。故我们需要估计概率模型p(x,z)的参数θ(在文中可理解为高斯分布),但是由于里面包含隐含变量z,所以很难用最大似然求解,但如果z知道了,那我们就很容易求解了。

首先放出似然函数公式,我们接下来对公式进行化简:

    对于参数估计,我们本质上的思路是想获得一个使似然函数最大化的参数θ,现在多出一个未知变量z,公式(1)。那么我们的目标就转变为:找到适合的θ和z让L(θ)最大。

    对于多个未知数的方程分别对未知的θ和z分别求偏导,再设偏导为0,即可解方程。

    因为(1)式是和的对数,当我们在求导的时候,形式会很复杂。

    这里我们需要做一个数学转化。我们对和的部分,乘以一个相等的函数,得到(2)式,利用Jensen不等式的性质,将(2)式转化为(3)式。(Jensen不等式数学推到比较复杂,知道结果即可)

Note:

Jensen不等式表述如下:

如果f是凸函数,X是随机变量,那么:E[f(X)]=f(E[X])

特别地,如果f是严格凸函数,当且仅当X是常量时,上式取等号。参考链接:

    至此,上面的式(2)和式(3)不等式可以写成:似然函数L(θ)=J(z,Q),那么我们可以通过不断的最大化这个下界J(z,Q)函数,来使得L(θ)不断提高,最终达到它的最大值。

    现在,我们推导出了在固定参数θ后,使下界拉升的Q(z)的计算公式就是后验概率,解决了Q(z)如何选择的问题。这一步就是E步,建立L(θ)的下界。接下来的M步,就是在给定Q(z)后,调整θ,去极大化L(θ)的下界J(在固定Q(z)后,下界还可以调整的更大)。

总结而言

EM算法是一种从不完全数据或有数据丢失的数据集(存在隐藏变量)中,求解概率模型参数的最大似然估计方法。

EM的算法流程:

1初始化分布参数θ;

重复2, 3直到收敛:

    2E步骤(Expectation):根据参数初始值或上一次迭代的模型参数来计算出隐性变量的后验概率,其实就是隐性变量的期望。作为隐藏变量的现估计值:

    3M步骤(Maximization):将似然函数最大化以获得新的参数值:

这个不断迭代的过程,最终会让E、M步骤收敛,得到使似然函数L(θ)最大化的参数θ。

在L(θ)的收敛证明:

高斯混合模型聚类之后怎么筛选数据

根据百分瞎让位数,进行筛选数据。

根据查阅百度资料显示,高斯混合模型聚类之后根据百分位数,进行筛选数据,比如筛选出分布较稀疏的前10%的密度点,假定异常帆神燃率是态虚10%。

数据筛选是指为了分析出海量数据所蕴含的价值,包括数据抽取、数据清理、数据加载三个部分。

关于高斯混合聚类和高斯混合聚类算法 c++ 三维的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。

标签列表