日韩无码专区无码一级三级片|91人人爱网站中日韩无码电影|厨房大战丰满熟妇|AV高清无码在线免费观看|另类AV日韩少妇熟女|中文日本大黄一级黄色片|色情在线视频免费|亚洲成人特黄a片|黄片wwwav色图欧美|欧亚乱色一区二区三区

RELATEED CONSULTING
相關(guān)咨詢
選擇下列產(chǎn)品馬上在線溝通
服務(wù)時(shí)間:8:30-17:00
你可能遇到了下面的問題
關(guān)閉右側(cè)工具欄

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營銷解決方案
可算是有文章,把Linux零拷貝講透徹了!

 本文探討 Linux 中主要的幾種零拷貝技術(shù)以及零拷貝技術(shù)的適用場景。

為高明等地區(qū)用戶提供了全套網(wǎng)頁設(shè)計(jì)制作服務(wù),及高明網(wǎng)站建設(shè)行業(yè)解決方案。主營業(yè)務(wù)為成都網(wǎng)站設(shè)計(jì)、做網(wǎng)站、高明網(wǎng)站設(shè)計(jì),以傳統(tǒng)方式定制建設(shè)網(wǎng)站,并提供域名空間備案等一條龍服務(wù),秉承以專業(yè)、用心的態(tài)度為用戶提供真誠的服務(wù)。我們深信只要達(dá)到每一位用戶的要求,就會(huì)得到認(rèn)可,從而選擇與我們長期合作。這樣,我們也可以走得更遠(yuǎn)!

圖片來自 Pexels

為了迅速建立起零拷貝的概念,我們拿一個(gè)常用的場景進(jìn)行引入。在寫一個(gè)服務(wù)端程序時(shí)(Web Server或者文件服務(wù)器),文件下載是一個(gè)基本功能。

這時(shí)候服務(wù)端的任務(wù)是:將服務(wù)端主機(jī)磁盤中的文件不做修改地從已連接的 Socket 發(fā)出去。

我們通常用下面的代碼完成:

 
 
 
 
  1. while((n = read(diskfd, buf, BUF_SIZE)) > 0) 
  2.     write(sockfd, buf , n); 

基本操作就是循環(huán)的從磁盤讀入文件內(nèi)容到緩沖區(qū),再將緩沖區(qū)的內(nèi)容發(fā)送到 Socket。但是由于 Linux 的 I/O 操作默認(rèn)是緩沖 I/O。

這里面主要使用的也就是 Read 和 Write 兩個(gè)系統(tǒng)調(diào)用,我們并不知道操作系統(tǒng)在其中做了什么。實(shí)際上在以上 I/O 操作中,發(fā)生了多次的數(shù)據(jù)拷貝。

當(dāng)應(yīng)用程序訪問某塊數(shù)據(jù)時(shí),操作系統(tǒng)首先會(huì)檢查,是不是最近訪問過此文件,文件內(nèi)容是否緩存在內(nèi)核緩沖區(qū)。

如果是,操作系統(tǒng)則直接根據(jù) Read 系統(tǒng)調(diào)用提供的 buf 地址,將內(nèi)核緩沖區(qū)的內(nèi)容拷貝到 buf 所指定的用戶空間緩沖區(qū)中去。

如果不是,操作系統(tǒng)則首先將磁盤上的數(shù)據(jù)拷貝的內(nèi)核緩沖區(qū),這一步目前主要依靠 DMA 來傳輸,然后再把內(nèi)核緩沖區(qū)上的內(nèi)容拷貝到用戶緩沖區(qū)中。

接下來,Write 系統(tǒng)調(diào)用再把用戶緩沖區(qū)的內(nèi)容拷貝到網(wǎng)絡(luò)堆棧相關(guān)的內(nèi)核緩沖區(qū)中,最后 Socket 再把內(nèi)核緩沖區(qū)的內(nèi)容發(fā)送到網(wǎng)卡上。

說了這么多,不如看圖清楚:

 

數(shù)據(jù)拷貝

從上圖中可以看出,共產(chǎn)生了四次數(shù)據(jù)拷貝,即使使用了 DMA 來處理了與硬件的通訊,CPU 仍然需要處理兩次數(shù)據(jù)拷貝。

與此同時(shí),在用戶態(tài)與內(nèi)核態(tài)也發(fā)生了多次上下文切換,無疑也加重了 CPU 負(fù)擔(dān)。

在此過程中,我們沒有對文件內(nèi)容做任何修改,那么在內(nèi)核空間和用戶空間來回拷貝數(shù)據(jù)無疑就是一種浪費(fèi),而零拷貝主要就是為了解決這種低效性。

什么是零拷貝技術(shù)(zero-copy)?

零拷貝主要的任務(wù)就是避免 CPU 將數(shù)據(jù)從一塊存儲(chǔ)拷貝到另外一塊存儲(chǔ)。

主要就是利用各種零拷貝技術(shù),避免讓 CPU 做大量的數(shù)據(jù)拷貝任務(wù),減少不必要的拷貝,或者讓別的組件來做這一類簡單的數(shù)據(jù)傳輸任務(wù),讓 CPU 解脫出來專注于別的任務(wù)。這樣就可以讓系統(tǒng)資源的利用更加有效。

我們繼續(xù)回到上文中的例子,我們?nèi)绾螠p少數(shù)據(jù)拷貝的次數(shù)呢?一個(gè)很明顯的著力點(diǎn)就是減少數(shù)據(jù)在內(nèi)核空間和用戶空間來回拷貝,這也引入了零拷貝的一個(gè)類型:讓數(shù)據(jù)傳輸不需要經(jīng)過 user space。

使用 mmap

我們減少拷貝次數(shù)的一種方法是調(diào)用 mmap() 來代替 read 調(diào)用:

 
 
 
 
  1. buf = mmap(diskfd, len); 
  2. write(sockfd, buf, len); 

應(yīng)用程序調(diào)用 mmap(),磁盤上的數(shù)據(jù)會(huì)通過 DMA 被拷貝的內(nèi)核緩沖區(qū),接著操作系統(tǒng)會(huì)把這段內(nèi)核緩沖區(qū)與應(yīng)用程序共享,這樣就不需要把內(nèi)核緩沖區(qū)的內(nèi)容往用戶空間拷貝。

應(yīng)用程序再調(diào)用 write(),操作系統(tǒng)直接將內(nèi)核緩沖區(qū)的內(nèi)容拷貝到 Socket 緩沖區(qū)中,這一切都發(fā)生在內(nèi)核態(tài),最后,Socket 緩沖區(qū)再把數(shù)據(jù)發(fā)到網(wǎng)卡去。

同樣的,看圖很簡單:

 

mmap

使用 mmap 替代 Read 很明顯減少了一次拷貝,當(dāng)拷貝數(shù)據(jù)量很大時(shí),無疑提升了效率。

但是使用 mmap 是有代價(jià)的。當(dāng)你使用 mmap 時(shí),你可能會(huì)遇到一些隱藏的陷阱。

例如,當(dāng)你的程序 map 了一個(gè)文件,但是當(dāng)這個(gè)文件被另一個(gè)進(jìn)程截?cái)?(truncate) 時(shí),Write 系統(tǒng)調(diào)用會(huì)因?yàn)樵L問非法地址而被 SIGBUS 信號終止。

SIGBUS 信號默認(rèn)會(huì)殺死你的進(jìn)程并產(chǎn)生一個(gè) coredump,如果你的服務(wù)器這樣被中止了,那會(huì)產(chǎn)生一筆損失。

通常我們使用以下解決方案避免這種問題:

①為 SIGBUS 信號建立信號處理程序

當(dāng)遇到 SIGBUS 信號時(shí),信號處理程序簡單地返回,Write 系統(tǒng)調(diào)用在被中斷之前會(huì)返回已經(jīng)寫入的字節(jié)數(shù),并且 errno 會(huì)被設(shè)置成 success,但是這是一種糟糕的處理辦法,因?yàn)槟悴]有解決問題的實(shí)質(zhì)核心。

②使用文件租借鎖

通常我們使用這種方法,在文件描述符上使用租借鎖,我們?yōu)槲募騼?nèi)核申請一個(gè)租借鎖。

當(dāng)其他進(jìn)程想要截?cái)噙@個(gè)文件時(shí),內(nèi)核會(huì)向我們發(fā)送一個(gè)實(shí)時(shí)的 RTSIGNALLEASE 信號,告訴我們內(nèi)核正在破壞你加持在文件上的讀寫鎖。

這樣在程序訪問非法內(nèi)存并且被 SIGBUS 殺死之前,你的 Write 系統(tǒng)調(diào)用會(huì)被中斷。Write 會(huì)返回已經(jīng)寫入的字節(jié)數(shù),并且置 errno 為 success。

我們應(yīng)該在 mmap 文件之前加鎖,并且在操作完文件后解鎖:

 
 
 
 
  1. if(fcntl(diskfd, F_SETSIG, RT_SIGNAL_LEASE) == -1) { 
  2.     perror("kernel lease set signal"); 
  3.     return -1; 
  4. /* l_type can be F_RDLCK F_WRLCK  加鎖*/ 
  5. /* l_type can be  F_UNLCK 解鎖*/ 
  6. if(fcntl(diskfd, F_SETLEASE, l_type)){ 
  7.     perror("kernel lease set type"); 
  8.     return -1; 

使用 sendfile

從 2.1 版內(nèi)核開始,Linux 引入了 sendfile 來簡化操作:

 
 
 
 
  1. #include 
  2. ssize_t sendfile(int out_fd, int in_fd, off_t *offset, size_t count); 

系統(tǒng)調(diào)用 sendfile() 在代表輸入文件的描述符 infd 和代表輸出文件的描述符 outfd 之間傳送文件內(nèi)容(字節(jié))。

描述符 outfd 必須指向一個(gè)套接字,而 infd 指向的文件必須是可以 mmap 的。

這些局限限制了 sendfile 的使用,使 sendfile 只能將數(shù)據(jù)從文件傳遞到套接字上,反之則不行。

使用 sendfile 不僅減少了數(shù)據(jù)拷貝的次數(shù),還減少了上下文切換,數(shù)據(jù)傳送始終只發(fā)生在 kernel space。

 

sendfile 系統(tǒng)調(diào)用過程

在我們調(diào)用 sendfile 時(shí),如果有其它進(jìn)程截?cái)嗔宋募?huì)發(fā)生什么呢?假設(shè)我們沒有設(shè)置任何信號處理程序,sendfile 調(diào)用僅僅返回它在被中斷之前已經(jīng)傳輸?shù)淖止?jié)數(shù),errno 會(huì)被置為 success。

如果我們在調(diào)用 sendfile 之前給文件加了鎖,sendfile 的行為仍然和之前相同,我們還會(huì)收到 RTSIGNALLEASE 的信號。

目前為止,我們已經(jīng)減少了數(shù)據(jù)拷貝的次數(shù)了,但是仍然存在一次拷貝,就是頁緩存到 Socket 緩存的拷貝。那么能不能把這個(gè)拷貝也省略呢?

借助于硬件上的幫助,我們是可以辦到的。之前我們是把頁緩存的數(shù)據(jù)拷貝到 Socket 緩存中。

實(shí)際上,我們僅僅需要把緩沖區(qū)描述符傳到 Socket 緩沖區(qū),再把數(shù)據(jù)長度傳過去,這樣 DMA 控制器直接將頁緩存中的數(shù)據(jù)打包發(fā)送到網(wǎng)絡(luò)中就可以了。

總結(jié)一下:sendfile 系統(tǒng)調(diào)用利用 DMA 引擎將文件內(nèi)容拷貝到內(nèi)核緩沖區(qū)去,然后將帶有文件位置和長度信息的緩沖區(qū)描述符添加 Socket 緩沖區(qū)去。

這一步不會(huì)將內(nèi)核中的數(shù)據(jù)拷貝到 Socket 緩沖區(qū)中,DMA 引擎會(huì)將內(nèi)核緩沖區(qū)的數(shù)據(jù)拷貝到協(xié)議引擎中去,避免了最后一次拷貝。

 

帶 DMA 的 sendfile

不過這一種收集拷貝功能是需要硬件以及驅(qū)動(dòng)程序支持的。

使用 splice

sendfile 只適用于將數(shù)據(jù)從文件拷貝到套接字上,限定了它的使用范圍。

Linux 在 2.6.17 版本引入 splice 系統(tǒng)調(diào)用,用于在兩個(gè)文件描述符中移動(dòng)數(shù)據(jù):

 
 
 
 
  1. #define _GNU_SOURCE         /* See feature_test_macros(7) */ 
  2. #include  
  3. ssize_t splice(int fd_in, loff_t *off_in, int fd_out, loff_t *off_out, size_t len, unsigned int flags); 

splice 調(diào)用在兩個(gè)文件描述符之間移動(dòng)數(shù)據(jù),而不需要數(shù)據(jù)在內(nèi)核空間和用戶空間來回拷貝。

他從 fdin 拷貝 len 長度的數(shù)據(jù)到 fdout,但是有一方必須是管道設(shè)備,這也是目前 splice 的一些局限性。

flags 參數(shù)有以下幾種取值:

  • SPLICEFMOVE:嘗試去移動(dòng)數(shù)據(jù)而不是拷貝數(shù)據(jù)。這僅僅是對內(nèi)核的一個(gè)小提示:如果內(nèi)核不能從 pipe 移動(dòng)數(shù)據(jù)或者 pipe 的緩存不是一個(gè)整頁面,仍然需要拷貝數(shù)據(jù)。
  • Linux 最初的實(shí)現(xiàn)有些問題,所以從 2.6.21 開始這個(gè)選項(xiàng)不起作用,后面的 Linux 版本應(yīng)該會(huì)實(shí)現(xiàn)。
  • SPLICEFNONBLOCK:splice 操作不會(huì)被阻塞。然而,如果文件描述符沒有被設(shè)置為不可被阻塞方式的 I/O ,那么調(diào)用 splice 有可能仍然被阻塞。

SPLICEFMORE:后面的 splice 調(diào)用會(huì)有更多的數(shù)據(jù)。

splice 調(diào)用利用了 Linux 提出的管道緩沖區(qū)機(jī)制, 所以至少一個(gè)描述符要為管道。

以上幾種零拷貝技術(shù)都是減少數(shù)據(jù)在用戶空間和內(nèi)核空間拷貝技術(shù)實(shí)現(xiàn)的,但是有些時(shí)候,數(shù)據(jù)必須在用戶空間和內(nèi)核空間之間拷貝。

這時(shí)候,我們只能針對數(shù)據(jù)在用戶空間和內(nèi)核空間拷貝的時(shí)機(jī)上下功夫了。

Linux 通常利用寫時(shí)復(fù)制(copy on write)來減少系統(tǒng)開銷,這個(gè)技術(shù)又時(shí)常稱作 COW。

由于篇幅原因,本文不詳細(xì)介紹寫時(shí)復(fù)制。大概描述下就是:如果多個(gè)程序同時(shí)訪問同一塊數(shù)據(jù),那么每個(gè)程序都擁有指向這塊數(shù)據(jù)的指針,在每個(gè)程序看來,自己都是獨(dú)立擁有這塊數(shù)據(jù)的。

只有當(dāng)程序需要對數(shù)據(jù)內(nèi)容進(jìn)行修改時(shí),才會(huì)把數(shù)據(jù)內(nèi)容拷貝到程序自己的應(yīng)用空間里去。

這時(shí)候,數(shù)據(jù)才成為該程序的私有數(shù)據(jù)。如果程序不需要對數(shù)據(jù)進(jìn)行修改,那么永遠(yuǎn)都不需要拷貝數(shù)據(jù)到自己的應(yīng)用空間里,這樣就減少了數(shù)據(jù)的拷貝。

除此之外,還有一些零拷貝技術(shù),比如傳統(tǒng)的 Linux I/O 中加上 O_DIRECT 標(biāo)記可以直接 I/O,避免了自動(dòng)緩存,還有尚未成熟的 fbufs 技術(shù),本文尚未覆蓋所有零拷貝技術(shù),只是介紹常見的一些,如有興趣,可以自行研究。

一般成熟的服務(wù)端項(xiàng)目也會(huì)自己改造內(nèi)核中有關(guān) I/O 的部分,提高自己的數(shù)據(jù)傳輸速率。

作者:卡巴拉的樹

編輯:陶家龍

出處:https://www.jianshu.com/p/fad3339e3448


本文名稱:可算是有文章,把Linux零拷貝講透徹了!
網(wǎng)頁地址:http://m.5511xx.com/article/cogdjdc.html