kafka为什么那么快（kafka为什么很快）

by intanet.cn ca 大数据 on 2024-03-19

本篇文章给大家谈谈kafka为什么那么快，以及kafka为什么很快对应的知识点，希望对各位有所帮助，不要忘了收藏本站喔。

本文目录一览：

1、kafka如何做到磁盘读写比内存读写还快？
2、为什么要用kafka？kafka适用什么样的场景？
3、kafka性能为什么好

kafka如何做到磁盘读写比内存读写还快？

Kafka作为一个支持大数据量写入写出的消息队列，由于是基于Scala和Java实现的，而Scala和Java均需要在JVM上运行，所以如果是基于内存的方式，即JVM的堆来进行数据存储则需要开辟很大的堆来支持数据读写，从而会导致GC频繁影响性能。考虑到这些因素，kafka是使用磁盘存储数据的。

Kafka 中消息是以 topic 进行分类的，生产者生晌告产消息，消费者消费消息，都是面向topic的。topic存储结构见下图：

由于生产者生产的消息会不断追加到 log 文件末尾，为防止 log 文件过大导致数据定位效率低下，Kafka 采取了分片和索引机制，将每个partition分为多个segment。每个 segment对应两个文件——“.index”文件和“.log”文件。

partition文件夹命名规则：

topic 名称+分区序号，举例有一个topic名称文“kafka”，这个topic有三个分区，则每个文件夹命名如下：

index和log文件的命名规则：

1）partition文件夹中的第一个segment从0开始，以后每个segement文件以上一个segment文件的最后一条消息的offset+1命名(当前日志中的第一条消息的offset值命名)。

2）数值最大为64位long大小。19位数字字符长度，没有数字用0填充。

举例，有以下三对文件：

以第二个文件为例看下对应的数据结构：饥谨辩

稀疏索引需要注意下。

消息查找过程：

找message-2589，即offset为2589：

1）先定位segment文件，在0000000000000002584中。

2）计算查找的offset在日志文件的相对偏移量

offset - 文件名的数量 = 2589 - 2584 = 5；

在index文件查找第一个参数的值，若找到，则获取到偏移量，通过偏移量到log文件去找对应偏移量的数据即可；

本例中没有找到，则找到当前索引中偏移量的上线最接近的值，即3，偏移量文246；然后到log文件中从偏移量为246数据开始向下寻找。

简单了解了kafka在数据存储方面的知识，线面我们具体分析下为什么kafka基于磁盘却快于内存。

在前面了解存储结构过程中，我们发现kafka记录log日志使用的结尾追加的方式，即顺序写。这样要比随机写块很多，这与磁盘的机械机构有关，顺序写之所以快，是因为其省去了大量磁头寻址的时间。

mmap，简单描述其就是将磁盘文件映射到内存, 用户通过修改内存就能修改磁盘文件。

即便是顺序写磁盘，磁盘的读写速度任然比内存慢慢的多得多，好在操作系统已经帮我们解决这个问题。在Linux操作系统中，Linux会将磁盘中的一些数据读取到内存当中，我们烂缺称之为内存页。当需要读写硬盘的时候，都优先在内存页中进行处理。当内存页的数据比硬盘数据多的时候，就形成了脏页，当脏页达到一定数量，操作系统会进行刷脏，即将内存也数据写到磁盘。

问题：不可靠，写到 mmap 中的数据并没有被真正的写到硬盘，操作系统会在程序主动调用 Flush 的时候才把数据真正的写到硬盘。

零拷贝并不是不需要拷贝，而是减少不必要的拷贝次数，通常使用在IO读写过程中。

传统io过程

如上图所示，上图共经历了四次拷贝的过程：

1）数据到到内核态的read buffer;

2）内核态的read buffer到用户态应用层的buffer；

3）用户态到内核态的socket buffer；

4）socket buffer到网卡的buffer（NIC）。

DMA

引入DMA技术，是指外部设备不通过CPU而直接与系统内存交换数据的接口技术，网卡等硬件设备支持DMA技术。

如上图所示，上图共经历了两次拷贝的过程。

sendfile

在内核版本 2.1 中，引入了 Sendfile 系统调用，以简化网络上和两个本地文件之间的数据传输。同时使用了DMA技术。

如上图所示，上图共经历了一次拷贝的过程。

sendfile（ DMA 收集拷贝）

之前我们是把页缓存的数据拷贝到socket缓存中，实际上，我们仅仅需要把缓冲区描述符传到 socket 缓冲区，再把数据长度传过去，这样 DMA 控制器直接将页缓存中的数据打包发送到网络中就可以了。

如上图所示，最后一次的拷贝也被消除了，数据-read buffer-NIC。

kafka通过java和scala实现，而Java对sendfile是通过NIO 的 FileChannel （java.nio.channels.FileChannel ）的 transferTo 和 transferFrom 方法实现零拷贝

注： transferTo 和 transferFrom 并不保证一定能使用零拷贝。实际上是否能使用零拷贝与操作系统相关，如果操作系统提供 sendfile 这样的零拷贝系统调用，则这两个方法会通过这样的系统调用充分利用零拷贝的优势，否则并不能通过这两个方法本身实现零拷贝。

[img]

为什么要用kafka？kafka适用什么样的场景？

Apache Kafka 集群环脊知拦境搭建 - - ITeye技术网站

;utm_medium=referral

接下来是老生常谈的问题：为什么要用kafka？kafka适用什么样的场景？我先和大家分享一下自己再项目中的使用总结，有其他想法的同学欢迎补充：

使用kafka的理由：

1.分布式，高吞吐量，速度快（kafka是直接通樱胡过磁盘存储，线性读写，速度快：避免了数据在JVM内存和系统内存之间的复制，减少耗性能的对象创建和垃圾回收）

2.同时支持实时和离线两种解决方案（相信很多项目都有类似的需求猛脊，这也是Linkedin的官方架构，我们是一部分数据通过storm做实时计算处理，一部分到hadoop做离线分析）。

3.open source (open source 谁不喜欢呢)

4.源码由scala编写，可以运行在JVM上（笔者对scala很有好感，函数式语言一直都挺帅的，spark也是由scala写的，看来以后有空得刷刷scala）

使用场景：

笔者主要是用来做日志分析系统，其实Linkedin也是这么用的，可能是因为kafka对可靠性要求不是特别高，除了日志，网站的一些浏览数据应该也适用。（只要原始数据不需要直接存DB的都可以）

kafka性能为什么好

人人皆知kafka性能好，但真正了解原因的人就少了很多。说起来也是悲伤的故事，我的禅仿某次面试就凉在此题。那么从设计的角度看，kafka是如何实现高性能的呢？

Kafka会把消息写入到硬盘，绝对不会丢失数据。为了优化写入速度Kafak采用了两个技术，顺序写入和 MMFile

因为硬盘是机械结构，寻址是最耗时的。所以硬盘最“讨厌”随机I/O，最喜欢顺序I/O，Kafka就是使用顺序I/O。

每一个Partition其实都是一个文件，收到消息后Kafka会把数据插入到文件末尾（虚框部分）。

Kafka的数据并不是实时的写入硬盘，它充分利用了现代操作系统分页存储来利用内存提高I/O效率。操作系统会选择适当的时机将数据写入硬盘。

缺点就是不可靠，写到扒枝mmap中的数据并没有被真正的写到硬盘，贺此纤操作系统会在程序主动调用flush的时候才把数据真正的写到硬盘。

Kafka提供了一个参数——producer.type来控制是不是主动flush，如果Kafka写入到mmap之后就立即flush然后再返回Producer叫同步 (sync)；写入mmap之后立即返回Producer不调用flush叫异步 (async)。

cosumer向broker索要消息时，kafka使用零拷贝(zero-copy) ，建立一个磁盘空间和内存的直接映射，数据不再复制到“用户态缓冲区”，直接复制到socket缓冲区

关于kafka为什么那么快和kafka为什么很快的介绍到此就结束了，不知道你从中找到你需要的信息了吗？如果你还想了解更多这方面的信息，记得收藏关注本站。

centos8安装docker（Centos8安装snmp服务） kafkamanager（kafkamanager和kafka eagle哪个好用）

kafka为什么那么快（kafka为什么很快）

kafka如何做到磁盘读写比内存读写还快？

为什么要用kafka？kafka适用什么样的场景？

kafka性能为什么好

最近发表

文章归档

标签列表

kafka为什么那么快（kafka为什么很快）

kafka如何做到磁盘读写比内存读写还快？

为什么要用kafka？kafka适用什么样的场景？

kafka性能为什么好

相关阅读

国家网络安全应急响应预案（国家网络安全应急预案应急处置包括）

cpo人工智能龙头股（人工智能龙头股票前五名）

spark招聘（spark薪资）

电商数据仓库设计（电商数据仓库设计论文）

数据挖掘分类（数据挖掘分类聚类）

包含数据后台的词条

最近发表

文章归档

标签列表