知识图谱嵌入(知识图谱嵌入负采样)
本篇文章给大家谈谈知识图谱嵌入,以及知识图谱嵌入负采样对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。
本文目录一览:
基于知识图谱的推荐系统
传统的推荐系统只使用用户和物品的历史交互信息(显式或隐式反馈)作为输入,但这会导致两个问题:
(1)数据的稀疏性问题: 在实际应用场景中,用户和物品的交互信息往往是非常稀疏的。例如,一个电影类APP可能包含了上万部电影,然而一个用户打过分的电影可能平均只有几十部。使用如此少量的已观测数据来预测大量的未知信息,会极大地增加算法的过拟合风险;
(2)冷启动问题: 对于新加入的用户或者物品,由于系统没有其历史交互信息,因此无法进行准确地建模和推荐。
一般情况下,解决稀疏性和冷启动问题的方法,就是在推荐算法中额外引入一些辅助信息作为输入。这些辅助信息可以丰富对用户和物品的描述,从而有效地弥补交互信息的稀疏或缺失。在各种辅助信息中,知识图谱作为一种新兴类型的辅助信息,这几年的相关研究比较多。
知识图谱是一种语义网络,其节点代表实体,边代表实体之间的各磨滑种语义关系。一个知识图谱由若干个三元组 组成,其中 和 代表一条关系的头节点和尾节点, 代表节点之间的关系。
知识图谱包含了实体之间丰富的语义关联,为推荐系统提供了潜在的辅助信息来源。知识图谱在诸多推荐场景中都有应用的潜力,例如电影、新闻、景点、餐馆、购物等。和其它种类的辅助信息相比,知识图谱的引入可以让推荐结果具有以下特征:
(1)精确性
知识图谱为物品引入了更多的语义关系,可以深层次地发现用户兴趣。比如下图中展示的,用户喜欢霸王别姬这部电影,这部电影的主演的是张国荣,而张国荣正好也主演了阿飞正传,所以用户也可能喜欢阿飞正传这部电影。
基于利用KG信息的方式不同,可以将知识图谱与推荐系统的结合方法分为三类:分别是基于嵌入的方法、基于路径的方法和统一方法。
1.基于嵌入的方法
基于嵌入的方法通常直接使用来自 KG 的信息来丰富项嫌辩目或用户的表示。为了利用 KG 信息,需要使用知识图嵌入 (KGE) 算法将 KG 编码为低秩嵌入。根据用户是否包含在KG中,基于嵌入的方法可以分为两类,分别是基于项目图的和基于用户-项目图的。
(1)基于项目图的
该图是由从数据集或外部知识库中提取的项目及其相关属性构成,不包含用户信息。该方法利用知识图嵌入 (KGE) 算法对图进行编码,可以获得项目更全面的表示,然后将项目边信息集成到推荐框架中。具体来说就是可以通过多方面的信息得到项目的潜在向量,这些信息包括KG、用户-项目交互矩阵、项目内容和项目属性等。然后利用偏好得分函数 ,通过得到的用户和项目的潜在向量来计算用户 选择项目 的概率,并根据概率结果得到用户的偏好排名。
(2)基于用户-项目图的
该图中用户、项目及其相关属性充当节点;它们的属性级关系(品牌、类别等)和用户相关关系(共同购买、共同查看等)作为边。该方法从构建出的图谱可以得出实体嵌入,然瞎者腊后根据偏好得分函数 得到结果。和基于项目图不同的是,这个偏好得分函数中,可以加入关系嵌入 一起计算。
基于嵌入的方法主要包含两个模块:图嵌入模块,主要利用图嵌入的方法学习知识图谱中实体和关系的表征;和推荐模块,以建模用户对物品的偏好。按照这两个模块的结合方式,可将这一方向的工作划分为三类,分别是依次学习,联合学习和交替学习。
(1)依次学习
该方法首先使用知识图谱特征学习得到实体向量和关系向量,然后将这些低维向量引入推荐系统,学习得到用户向量和物品向量。
目前对于基于知识图谱的推荐系统还在初学习阶段,对各种方法的具体模型了解还不是很多,前几天看了一篇何向南的结合知识图谱的 文章 ,应该是目前基于知识图谱的推荐系统的文章中效果比较好的,这篇文章利用了多任务学习策略,考虑到KG可能存在缺失的事实,联合训练了KG完成模块和推荐模块。根据目前的了解来说,基于知识图谱的推荐系统在动态推荐、多任务学习和跨域推荐等方面都有很好的研究前景。
A Survey on Knowledge Graph-Based Recommender Systems
[img]图立方和知识图谱的区别和联系与区别
图网络,即Natural Graph,是基于世界各实体之间的自然关系表示而得到的图,他们的节点一般是某个特定网络中的实体(人、物理机、分子)。例如:社交网络、通信网络、蛋白质网络。
知识图谱,即Knowledge Graph,它一般是由知识或信息组织而成的图,它是专门被用来构建知识库并支持决策的。因此知识图谱中的节点可以直接是抽象名词,或者是世界知识或语言知识。
二、异同点
① 二者都是由节点和边组成的图。但是图网络中的实体都是客观存在的,是对真实世界关系的一种呈现;知识图谱主要是把客观世界潜在的知识结构呈现出来,实体可以是抽象的名词。
② 二者都是异质信息网络,但是任务不同。KG是一种知识量丰富的异质信息网络(Heterogeneous Information Network, HIN),它更关注建模实现对关系、节点的表示,模型学习的重点是节点之间的关系,以更好地存储、抽取、推理知识。NG建模任务更关注节点的表示,模型学习的重点是图网络的结构,以达到对节点分类、聚类、链接预测的目的。
三、图网络表示学习(Graph Embedding) VS 知识图谱表示学习(Knowledge Graph Embedding)
也可以称图嵌入学习,分为图网络嵌入graph embedding以及知识图谱嵌入knowledge graph embedding。从起源看,这两个任务中最火的方纤衡法DeepWalk和TransE,都是受到了word2vec启发提出来的,只是前者是受到了word2vec处理文本序列、由中心词预测上下文的咐竖纳启发;而后者受到了word2vec能自动发现implicit relation (也就是大家常说的 king - man = queen - woman)的启发。
两者的相同之处是目标一致,都旨在对研究对象建立分布式表示。不同之处在于,知识表示重在如何处理实体间的显式关系上;而网络表示重在如何充分考虑节点在网络中的复杂结构信息(如community等)。
1)学习目标不同
网络表示比较注重在嵌入式空间中保留网络的拓扑结构信息,知识图谱的表示在保留结构信息的基础上,也同样注重于关系的重要性,以及它们的头尾关系。知识图谱表示学习更偏向关系建模,在保留结构信息的基础上强调关系和头尾关系,强调的是节点和关系的表示,节点和关系同样重要,因此,知识图谱表示学习中往往指明了关系,比如水果和猕猴桃之间是所属关系。
2)学习方法不同
网络表示学习通常包括三种:衡没基于矩阵分解的模型,比如SVD;基于随机游走的模型,比如DeepWalk;基于深度神经网络的模型,包括CNN、RNN等;此外还有同质网络、异质网络的区分,还有属性网络、融合伴随信息的网络等。
与此不同的是,典型的知识图谱表示算法包括trans系列的算法,如TransE、TransR、TransH等,通过这个三元组去刻画实体和关系的向量表示。
浅谈知识图谱技术及其应用补全
前言及背景:在构建知识图谱的过程中,大量知识信息来源于文档和网页信息,在从文档提取知识的过程中往往会有偏差,这些偏差来自于看两方面:
(1)文档中会有很多噪声信息,即无用信息,它的产生可能来自于知识抽取算法本身,也可能和语言文字本身的有效性有关;
(2)文档信息量有限,不会把所有知识都涵盖进去,尤其是很多常识性知识。
以上都会导致知识图谱是不完整的,所以 知识图谱补全 在构建知识图谱中日益重要。
通过 已获取的知识 来对实体间进行关系预测,以达到对实体间关系的补全,也可以是实体类型信息的补全。该过程可以利用本知识库内部的知识,也可以引入第三方知识库的知识来帮助完成。
整理了一份200G的AI资料包:
①人工智能课程及项目【含课件源码】
②超详解人工智能学习路线图
③人工智能必看优质书籍电子书汇总
④国内外知名精华资源
⑤优质人工智能资源网站整理(找前辈、找代码、找论文都有)
⑥人工智能行业报告
⑦人工智能论文合集
/p3.toutiaoimg.com/origin/tos-cn-i-qvj2lq49k0/36ae8d96bccf490bb4d877abda852f7d","uri":"","width":31,"height":27,"darkImgUrl":"","darkImgUri":"","formulaImgStatus":"succeed"}" class="syl-plugin-formula"
资料在网盘里排列的非常整齐干净!希望对大家的学习有所帮助, 私信备注【05】添加领取
知识图谱补全分为两个层次: 概念层次的知识补全 和 实例层次的知识补全 。
往往提到知识图谱构建过程中只是提及了实体和关系的抽取,然后就可以生成实体和关系组成的RDF了。
但是,仅仅获取三元组是不够的,还要考虑这些,因为三元组中的实体除了具有属性和关系之外,还可以 映射关联到知识概念层次的类型(type),而且一个实体的类型可以有很多 。
例如:实体奥巴马的类型在不同关系中是有变化的。
在出生信息描述中,类型为人;在创作回忆录的描述中其类型还可以是作家;在任职描述中还可以是政治家。
实体类型的概念层次模型
在这里:人、作家、政治家这些概念之间是有层次的,也就是所说的概念的层次模型。
1、概念层次的知识补全——主要是要解决实体的类型败前橘信息缺失问题
正如前面的例子所描述,一旦一个实体被判别为人这个类型,那么在以构建好的知识模式中,该实体除了人的类型外仍需要向下层概念搜索,以发现更多的类别描述信息。
(1)基于描述逻辑的规则推理机制。
本体论和模式 :实体都可以归结为一种本体,而这种本体会具有一组模式来保证其独特性,这组模式可以用规则来描述,因此,对于本体而言,其可以由这组规则来描述。
例如,奥巴马是个实体,他的本体可以归为人,而人的模式就是可以使用语言和工具、可以改造其他事务等等,这些模式可以通过规则来描述,于是基于描述逻辑的规则推理方法就出现了。
描述逻辑 是一种常见的知识表示方式,它建立在概念和关系之上。
比如,可以将关于人的实体实例(可以是文本)收集起来,从中提取出其中模式并以规则的形式记录下来,这样一来,只要遇到一个新的实体实例 ,只需将其代入到之前记录下的规则中进行比较即可做出判断,如果符合规则,就说明该实例可以归类为人的概念类型,否则就判定为非此概念类型。
(2)基于机器学习类型推理机制
经过基于描述逻辑的规则推理的发展阶段后,机器学习相关研悔首究开始占据主流,此时 不是单纯地利用实例产生的规则等内部线索来进行判断,同时也要利用外部的特征和线索来学察团习类型的预测 。
对一个未知类型实体e1而言,如果能找到一个与其类似的且已知类型的实体e2的话,那么就可以据此推知实体e1的类型应该与e2的类型一致或至少相似。
此类方法主要可以分为:基于内容的类型推理、基于链接的类型推理和基于统计关系学习的类型推理(如,Markov逻辑网)几个方向。
(3)基于表示学习类型推理机制
将嵌入式学习和深度学习引入到类型推理,基于机器学习的类型推理方法大多假设数据中没有噪声,且其特征仍然需要认为选择和设计,引入深度学习可以避免特征工程。而类型推理要依据文本内容,也需要链接结构等其他特征的支持,此时嵌入式方法可以发挥其自身优势。
2、实例层次的知识补全
可以理解为:对于一个实例三元组(SPO,主谓宾),其中可能缺失情况为(?,P,O),(S,?,O)或者(S,P,?),这就如同知识库中不存在这个三元组,此时需要预测缺失的实体或者关系是什么。
事实上, 很多缺失的知识是可以通过已经获得的知识来推知的 ,有时这个过程也被称为 链接预测 。
注意 :有时知识不是缺失的,而是 新出现 的,即出现了新的三元组,且这个三元组不是原知识库所已知的知识,此时需要将其作为新知识补充道知识库中,但此种情形 不是传统意义的补全 。
(1)基于随机游走的概率补全方法
(2)基于表示学习的补全方法
知识图谱嵌入流程:
①结构嵌入表示法
②张量神经网络法
③矩阵分解法
④翻译法
(3)其他补全方法
跨知识库补全方法、基于信息检索技术的知识库补全方法、知识库中的常识知识补全
面临的挑战和主要发展方向:
(1)解决长尾实体及关系的稀疏性。
知名的明星的关系实例会很多,而对于普通民众的实例就很少,但是他们数量却众多,导致其相关的关系实例也是十分稀疏,而且在数量不断增加的情况下,这种情况会更加明显。
(2)实体的一对多、多对一和多对多问题。
对于大规模数据,不是一对十几或者几十数量级那么简单,而是成百上千的数量级,传统的解决方案无法有效深圳根本无法解决此种数量级别的关系学习问题。
(3)三元组的动态增加和变化导致KG的动态变化加剧。
新知识源源不断的产生,而之前的知识可能被后面证明是错误的,或者需要修正的。这些都会使得知识补全的过程也需修正改变,如何使得知识图谱补全技术适应KG的动态变化变得越来越重要,而这方面的技术还未引起足够的重视。
(4)KG中关系预测路径长度会不断增长。
关系预测能推理的长度是有限的,但在大规模知识图谱闪光,实体间的关系路径序列会变得越来越长,这就需要更高效的模型来描述更复杂的关系预测模型。
关于知识图谱嵌入和知识图谱嵌入负采样的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。