sparkml（SparkMllib适用场景）

by intanet.cn ca 大数据 on 2024-03-18

本篇文章给大家谈谈sparkml，以及SparkMllib适用场景对应的知识点，希望对各位有所帮助，不要忘了收藏本站喔。

本文目录一览：

1、推荐系统中矩阵分解算法-funkSVD和ALS
2、如何解释spark mllib中ALS算法的原理
3、spark mllib 和sklearn keras比较，哪个是机器学习未来的主流

如何解释spark mllib中ALS算法的原理

对于一个users-products-rating的评分数据集，ALS会建立一个user*product的m*n的矩阵

其中，m为users的数量，n为products的数量

但是在这个数据集中，并不是每个用户都对每个产品进行过评分，所以这个矩阵往往是稀疏的，用户i对产品j的评分往往是空的

ALS所做的事情就是将这个稀疏矩阵通过一定的规律填满，这样就可以从矩阵中得到任意一个user对任意一个product的评分，ALS填充的评分项也称为用户i对产品j的预测得分

所以说，ALS算法的核心就是通过什么样子的规律来填满（预测）这个稀疏矩阵

它是这么做的：

假设m*n的评分矩阵R，可以被近似分解成U*(V)T

U为m*d的用户特征向量矩阵

V为n*d的产品特征向量矩阵（(V)T代表V的转置，原谅我不会打转置这个符号。。）

d为user/product的特征值的数量

关于d这个值的理解，大概可以是这样的

对于每个产品，可以从碧余镇d个角度进行评价，以电影为例，可以从主演，导演，特效，剧情4个角度来评价一部电影，那么d就等于4

可以认为，每部电影在这4个角度上都有一个固定的基准评分值

例如《末日崩塌》这部电影是一个产品，它的特征向量是由d个特征值组成的

d=4，有4个特征值，分别是主演，导演，特效，剧情

每个特征值的基准评分值分别为（满分为1.0）：

主演：0.9（大光头还是那么霸气）

导演：0.7

特效：0.8

剧情：0.6

矩阵V由n个product*d个特征值组成

对于矩阵U，假设对于任意的用户A，该用户对一部电影的综合评分和电影的特征值存在一定的线性关系，即电影的综合评分=(a1*d1+a2*d2+a3*d3+a4*d4)

其中a1-4为用户A的特征值，d1-4为之前所说的电影的特征值

参考：

协同过滤中的矩阵分解算法研究

那么对于之前ALS算法的这个假设

m*n的评分矩阵R，可以被近似分解成U*(V)T

就是成立的，某个用户对某个产品的评分可以通过矩阵U某行和矩阵V（转置）的某列相乘得到

那么现在的问题是，如何确定用户和产品的特征值？（之前仅仅是举例子，实际中这两个都是未知的变量）

采用的是交替的最小二乘法

在上面的公式中，a表示评分数据集中用户i对产品j的真实评分，另外一部分表示用户i的特征向量（转置）*产品j的特征向量毁衫（这里可以得到预测的i对j的评分）

用真实评分减去预测评分然后求平方，对下一个用户，下一个产品进行相同的计算，将所有结果累加起来（其中，数据集构成的矩阵是存在大量的空打分，并没有实际的评分，解决的方法是就只看对已知打分的项）

参考：

ALS 在 Spark MLlib 中的实现

但是这里之前问题还是存在，就是用户和产品的特征向量都是未知的，这个式子存在两个未知变量

解决的办法是交替的最小二乘法

首先对于上面的公式，以下面的形式显示：

为了防止过度拟合，加上正则化参数

首先用一个小于1的随机数初始化V

根据公式（4）求U

此时就可以得到初始的UV矩阵了，计算上面说过的差平方和

根据计算得到的U和公式（5），重新计算并覆盖V，计算差平方和

反复进行以上两步的计算，直到差平方和小于一个预设的数，或者迭代次数满足要求则停止

取得最新的UV矩阵

则原本的稀疏矩阵R就可以用R=U(V)T来表示了

以上公式内容截图来自：

基于矩阵分解的协同悔粗过滤算法

总结一下：

ALS算法的核心就是将稀疏评分矩阵分解为用户特征向量矩阵和产品特征向量矩阵的乘积

交替使用最小二乘法逐步计算用户/产品特征向量，使得差平方和最小

通过用户/产品特征向量的矩阵来预测某个用户对某个产品的评分

不知道是不是理解正确了

spark mllib 和sklearn keras比较，哪个是机器学习未来的主流

spark mllib提供了一些机器学习算法的分布式实现；

scikit-learn是python中的机器学习开源库，通闷桐过它可以轻松调用机器学习算法完成实际任务；

keras是深度学习框架（比较高层）；

那么可以看到，这三个东西各有侧重，没拍桥有哪一个可以代表未来主流，我们应该把它们都学一下，另外，蚂贺坦还有深度学习的分布式实现，例如TensorFlow on Spark、Paddle on Spark和Caffe on Spark

[img]

关于sparkml和SparkMllib适用场景的介绍到此就结束了，不知道你从中找到你需要的信息了吗？如果你还想了解更多这方面的信息，记得收藏关注本站。

css动画库（css动画代码大全） dbeaver导出表结构和数据（dbeaver导出sql）

sparkml（SparkMllib适用场景）

推荐系统中矩阵分解算法-funkSVD和ALS

如何解释spark mllib中ALS算法的原理

spark mllib 和sklearn keras比较，哪个是机器学习未来的主流

最近发表

文章归档

标签列表

sparkml（SparkMllib适用场景）

推荐系统中矩阵分解算法-funkSVD和ALS

如何解释spark mllib中ALS算法的原理

spark mllib 和sklearn keras比较，哪个是机器学习未来的主流

相关阅读

云计算问题（云计算解决的问题）

云计算的基本原理（云计算是什么意思）

人工智能的简写（人工智能简写为）

工业物联网安全（工业物联网安全课程）

测试数据（如何准备性能测试数据）

数据仓库生命周期（数据仓库生命周期包括）

最近发表

文章归档

标签列表