幹掉討厭的 CPU 限流,讓容器跑得更快

編者按:讓人討厭的 CPU 限流影響容器執行,有時人們不得不犧牲容器部署密度來避免 CPU 限流出現。本文介紹的 CPU Burst 技術可以幫助您既能保證容器執行服務質量,又不降低容器部署密度。文章分為上下兩篇,該文為上篇,下篇將剖析使用 CPU Burst 和其他避免限流手段的區別,以及如何配置 CPU Burst 功能以達到最佳效果。

幹掉討厭的 CPU 限流,讓容器跑得更快

在 K8S 容器排程中,容器的 CPU 資源上限是由 CPU limits 引數指定。設定 CPU 資源上限可以限制個別容器消耗過多的 CPU 執行時間,並確保其他容器拿到足夠的 CPU 資源。CPU limits 限制在 Linux 核心中是用 CPU Bandwidth Controller 實現的,它透過 CPU限流限制 cgroup 的資源消耗。所以當一個容器中的程序使用了超過 CPU limits 的資源的時候,這些程序就會被 CPU 限流,他們使用的 CPU 時間就會受到限制,程序中一些關鍵的延遲指標就會變差。

面對這種情況,我們應該怎麼辦呢?一般情況下,我們會結合這個容器日常峰值的 CPU 利用率並乘以一個相對安全的係數來設定這個容器的 CPU limits ,這樣我們既可以避免容器因為限流而導致的服務質量變差,同時也可以兼顧 CPU 資源的利用。舉個簡單的例子,我們有一個容器,他日常峰值的 CPU 使用率在250%左右,那麼我們就把容器 CPU limits 設定到400%來保證容器服務質量,此時容器的 CPU 利用率是62。5%(250%/400%)。

然而生活真的那麼美好麼?顯然不是!CPU 限流的出現比預期頻繁了很多。怎麼辦?似乎看上去我們只能繼續調大 CPU limits 來解決這個問題。很多時候,當容器的 CPU limits 被放大5~10倍的時候,這個容器的服務質量才得到了比較好的保障,相應的這時容器的總 CPU 利用率只有10%~20%。所以為了應對可能的容器 CPU 使用高峰,容器的部署密度必須大大降低。

歷史上人們在 CPU Bandwidth Controller 中修復了一些 BUG 導致的 CPU 限流問題,我們發現當前非預期限流是由於100ms級別CPU突發使用引起,並且提出 CPU Burst 技術允許一定的 CPU 突發使用,避免平均 CPU 利用率低於限制時的 CPU 限流。在雲計算場景中,CPU Burst 技術的價值有:

不提高 CPU 配置的前提下改善 CPU 資源服務質量;

允許資源所有者不犧牲資源服務質量降低CPU資源配置,提升CPU資源利用率;

降低資源成本(TCO, Total Cost of Ownership)。

你看到的CPU利用率不是全部真相

秒級 CPU 利用率不能反映 Bandwidth Controller 工作的100ms 級別 CPU 使用情況,是導致非預期 CPU 限流出現的原因。

Bandwidth Controller 適用於 CFS 任務,用 period 和 quota 管理 cgroup 的 CPU 時間消耗。若 cgroup 的 period是100ms quota是50ms,cgroup 的程序每100ms 週期內最多使用50ms CPU 時間。當100ms 週期的 CPU 使用超過50ms 時程序會被限流,cgroup 的 CPU 使用被限制到50%。

CPU 利用率是一段時間內 CPU 使用的平均,以較粗的粒度統計 CPU 的使用需求,CPU 利用率趨向穩定;當觀察的粒度變細,CPU 使用的突發特徵更明顯。以1s 粒度和100ms 粒度同時觀測容器負載執行,當觀測粒度是1s 時 CPU 利用率的秒級平均在250%左右,而在 Bandwidth Controller 工作的100ms 級別觀測 CPU 利用率的峰值已經突破400%。

幹掉討厭的 CPU 限流,讓容器跑得更快

根據秒級觀察到的 CPU 利用率250%設定容器 quota 和 period 分別為400ms和100ms ,容器程序的細粒度突發被 Bandwidth Controller 限流,容器程序的 CPU 使用受到影響。

如何改善

我們用 CPU Burst 技術來滿足這種細粒度 CPU 突發需求,在傳統的 CPU Bandwidth Controller quota 和 period 基礎上引入 burst 的概念。當容器的 CPU 使用低於 quota 時,可用於突發的 burst 資源累積下來;當容器的 CPU 使用超過 quota,允許使用累積的 burst 資源。最終達到的效果是將容器更長時間的平均 CPU 消耗限制在 quota 範圍內,允許短時間內的 CPU 使用超過其 quota。

幹掉討厭的 CPU 限流,讓容器跑得更快

如果用 Bandwidth Controller 演算法來管理休假,假期管理的週期(period)是一年,一年裡假期的額度是 quota ,有了 CPU Burst 技術之後今年修不完的假期可以放到以後來休了。

使用 CPU Burst 之後

在容器場景中使用 CPU Burst 之後,測試容器的服務質量顯著提升。觀察到 RT 均值下降68%(從30+ms 下降到9。6ms );99% RT 下降94。5%(從500+ms 下降到27。37ms )。

幹掉討厭的 CPU 限流,讓容器跑得更快

如果容器執行負載是延遲敏感型別,又有配置 quota 引起的 CPU 限流,不妨試試使用 CPU Burst 技術對延遲進行最佳化。CPU Burst 修改已合入 Linux 5。14,Alibaba Cloud Linux 也已經支援 CPU Burst 技術。

原文連結:http://click。aliyun。com/m/1000288752/

開啟App看更多精彩內容