基于英特爾® 架構的人工(gōng)智能(néng)
2023-03-31 16:25:14

本文(wén)介紹了面向 AI 推理(lǐ)的英特爾® 精(jīng)選解決方案以及其如何解決 AI 推理(lǐ)部署的痛點,包括其中(zhōng)采用(yòng)的軟件、硬件和技(jì )術。該系列解決方案有(yǒu)基礎和增強配置,提供靈活的可(kě)定制性,以滿足不同需求。您可(kě)通過閱讀本文(wén)具(jù)體(tǐ)了解如何在符合行業标準的硬件上部署優化的高速人工(gōng)智能(néng)推理(lǐ),驅動更高商(shāng)業價值。

越來越多(duō)的企業希望借助人工(gōng)智能(néng) (AI) 以增加收入、提高效率并推動産(chǎn)品創新(xīn)。尤其需要指出的是,基于深度學(xué)習 (DL) 技(jì )術的人工(gōng)智能(néng)用(yòng)例能(néng)夠帶來有(yǒu)效且實用(yòng)的洞察;其中(zhōng)一些用(yòng)例可(kě)在衆多(duō)行業推動進步,例如:

這些用(yòng)例僅僅隻是開始。随着企業将人工(gōng)智能(néng)融入業務(wù)運營,他(tā)們将發現應用(yòng)人工(gōng)智能(néng)的新(xīn)方法。然而,所有(yǒu)人工(gōng)智能(néng)用(yòng)例的商(shāng)業價值都取決于由深度神經網絡訓練的模型的推理(lǐ)速度。在深度學(xué)習模型上支持推理(lǐ)所需的資源規模可(kě)能(néng)非常龐大,通常需要企業更新(xīn)硬件以獲得其所需的性能(néng)和速度。但是,許多(duō)客戶希望擴展其現有(yǒu)的基礎設施,而不是重新(xīn)購(gòu)買單一用(yòng)途的新(xīn)硬件。您的 IT 部門已經非常熟悉英特爾® 硬件架構,其靈活性能(néng)使您的 IT 投資更高效。面向人工(gōng)智能(néng)推理(lǐ)的英特爾® 精(jīng)選解決方案是“一站式”平台,提供經過預配置、優化和驗證的解決方案,無需另外配置加速卡,即可(kě)在 CPU 上實現低時延、高吞吐量的推理(lǐ)。

面向人工(gōng)智能(néng)推理(lǐ)的英特爾® 精(jīng)選解決方案

面向人工(gōng)智能(néng)推理(lǐ)的英特爾® 精(jīng)選解決方案能(néng)幫助您快速入門,利用(yòng)基于經驗證的英特爾® 架構的解決方案,部署高效的人工(gōng)智能(néng)推理(lǐ)算法,從而加速創新(xīn)和産(chǎn)品上市。為(wèi)了加快人工(gōng)智能(néng)應用(yòng)的推理(lǐ)和上市,面向人工(gōng)智能(néng)推理(lǐ)的英特爾® 精(jīng)選解決方案結合了多(duō)種英特爾及第三方的軟硬件技(jì )術。

軟件選擇

面向人工(gōng)智能(néng)推理(lǐ)的英特爾® 精(jīng)選解決方案使用(yòng)的軟件包括開發人員工(gōng)具(jù)和管理(lǐ)工(gōng)具(jù),以輔助生産(chǎn)環境中(zhōng)的人工(gōng)智能(néng)推理(lǐ)。

英特爾® 分(fēn)發版 OpenVINO™ 工(gōng)具(jù)包

英特爾® 分(fēn)發版開放視覺推理(lǐ)和神經網絡優化工(gōng)具(jù)包(即英特爾® 分(fēn)發版 OpenVINO™ 工(gōng)具(jù)包)是一套開發人員套件,可(kě)加速高性能(néng)人工(gōng)智能(néng)和深度學(xué)習推理(lǐ)的部署。該工(gōng)具(jù)套件可(kě)針對多(duō)種英特爾® 硬件選項,對各種不同框架訓練的模型進行優化,以提供出色性能(néng)部署。工(gōng)具(jù)套件中(zhōng)的深度學(xué)習工(gōng)作(zuò)台 (DL Workbench) 可(kě)将模型量化到較低精(jīng)度。在此過程中(zhōng),工(gōng)具(jù)套件把使用(yòng)較大的高精(jīng)度 32 位浮點數(通常用(yòng)于訓練,會占用(yòng)較多(duō)内存)的模型轉換為(wèi) 8 位整數,以優化内存使用(yòng)和性能(néng)。将浮點數轉換為(wèi)整數能(néng)夠在保持幾乎相同精(jīng)度的同時,顯著提高人工(gōng)智能(néng)推理(lǐ)速度1。該工(gōng)具(jù)套件可(kě)以轉換和執行在多(duō)種框架中(zhōng)構建的模型,包括 TensorFlow、MXNet、PyTorch、Kaldi 和開放神經網絡交換 (Open Neural Network Exchange, ONNX) 生态系統所支持的任何框架。此外,用(yòng)戶還可(kě)獲得經過預訓練的公(gōng)開模型,無需再自行搜尋或訓練模型,從而加速基于英特爾® 處理(lǐ)器的開發和圖像處理(lǐ)管道優化。

深度學(xué)習參考堆棧

面向人工(gōng)智能(néng)推理(lǐ)的英特爾® 精(jīng)選解決方案配備深度學(xué)習參考堆棧 (DLRS)。這是一個集成的高性能(néng)開源軟件堆棧,已針對英特爾® 至強® 可(kě)擴展處理(lǐ)器進行優化,并封裝(zhuāng)在一個便捷的 Docker 容器中(zhōng)。DLRS 經過預先驗證,并且配置完善,已包含所需的庫和軟件組件,因此有(yǒu)助于降低人工(gōng)智能(néng)在生産(chǎn)環境中(zhōng)與多(duō)個軟件組件集成所帶來的複雜性。該堆棧還包括針對主流深度學(xué)習框架 TensorFlow 和 PyTorch 高度調優的容器,以及英特爾® 分(fēn)發版 OpenVINO™ 工(gōng)具(jù)包。該開源社區(qū)版本也有(yǒu)利于确保人工(gōng)智能(néng)開發人員可(kě)輕松獲得英特爾® 平台的所有(yǒu)特性和功能(néng)。

Kubeflow 和 Seldon Core

随着企業和機構不斷積累在生産(chǎn)環境中(zhōng)部署推理(lǐ)模型的經驗,業界逐步形成了一系列最佳實踐的共識,即 “MLOps”,類似于 “DevOps” 軟件開發實踐。為(wèi)了幫助團隊應用(yòng) MLOps,面向人工(gōng)智能(néng)推理(lǐ)的英特爾® 精(jīng)選解決方案使用(yòng) Kubeflow。借助 Kubeflow,團隊可(kě)在“零停機”的情況下順利推出模型的新(xīn)版本。Kubeflow 使用(yòng)受到支持的模型服務(wù)後端(例如 TensorFlow Serving)将經過訓練的模型導出到 Kubernetes。模型部署則可(kě)使用(yòng)金絲雀測試或影子部署來實現新(xīn)舊版本的并行驗證。如果發現問題,除了進行跟蹤,團隊還可(kě)以使用(yòng)模型和數據版本控制來簡化根本原因分(fēn)析。

為(wèi)了在需求增加時保持快捷響應的服務(wù),面向人工(gōng)智能(néng)推理(lǐ)的英特爾® 精(jīng)選解決方案提供負載平衡功能(néng),能(néng)夠跨節點将推理(lǐ)自動分(fēn)片到可(kě)服務(wù)對象的可(kě)用(yòng)實例中(zhōng)。多(duō)租戶支持提供不同的模型,從而提高硬件利用(yòng)率。最後,為(wèi)了在運行人工(gōng)智能(néng)推理(lǐ)的服務(wù)器和需要人工(gōng)智能(néng)洞察的端點之間加速處理(lǐ)推理(lǐ)請求,面向人工(gōng)智能(néng)推理(lǐ)的英特爾® 精(jīng)選解決方案可(kě)以使用(yòng) Seldon Core 來幫助管理(lǐ)推理(lǐ)管道。Kubeflow 還與 Seldon Core 集成,從而在 Kubernetes 上部署深度學(xué)習模型,并使用(yòng) Kubernetes API 來管理(lǐ)部署在推理(lǐ)管道中(zhōng)的容器。

硬件選擇

面向人工(gōng)智能(néng)推理(lǐ)的英特爾® 精(jīng)選解決方案結合了第二代英特爾® 至強® 可(kě)擴展處理(lǐ)器、英特爾® 傲騰™ 固态盤 (SSD)、英特爾® 3D NAND 固态盤和英特爾® 以太網 700 系列,因此您的企業可(kě)以在性能(néng)經過優化的平台上快速部署生産(chǎn)級人工(gōng)智能(néng)基礎設施,為(wèi)要求嚴苛的應用(yòng)和工(gōng)作(zuò)負載提供大内存容量。

第二代英特爾® 至強® 可(kě)擴展處理(lǐ)器

面向人工(gōng)智能(néng)推理(lǐ)的英特爾® 精(jīng)選解決方案具(jù)有(yǒu)第二代英特爾® 至強® 可(kě)擴展處理(lǐ)器的性能(néng)和功能(néng)。對于“基礎”配置,英特爾® 至強® 金牌 6248 處理(lǐ)器在價格、性能(néng)和集成技(jì )術之間實現了出色的平衡,能(néng)夠增強人工(gōng)智能(néng)模型上的推理(lǐ)性能(néng)與效率。“增強”配置則采用(yòng)專為(wèi)實現更快人工(gōng)智能(néng)推理(lǐ)而設計的英特爾® 至強® 鉑金 8268 處理(lǐ)器。此外,在任一配置中(zhōng)也可(kě)選用(yòng)更高型号的處理(lǐ)器。第二代英特爾® 至強® 可(kě)擴展處理(lǐ)器包含英特爾® 深度學(xué)習加速技(jì )術。這是一系列加速功能(néng),可(kě)通過專門的矢量神經網絡指令 (VNNI) 集來提高人工(gōng)智能(néng)推理(lǐ)性能(néng)。該指令集使用(yòng)一條單獨指令即可(kě)完成之前需要三條單獨指令才能(néng)進行的深度學(xué)習計算。

英特爾® 傲騰™ 技(jì )術

英特爾® 傲騰™ 技(jì )術填補了存儲和内存層之間的重要空白,讓數據中(zhōng)心能(néng)夠更快地獲取數據。這項技(jì )術颠覆了内存和存儲層,能(néng)夠在各種不同産(chǎn)品和解決方案中(zhōng)提供持久内存、大型内存池、高速緩存和存儲。

 

圖 1. 英特爾® 傲騰™ 技(jì )術填補了數據中(zhōng)心内存和存儲之間的性能(néng)空白

英特爾® 傲騰™ 固态盤和英特爾® 3D NAND 固态盤

當緩存層運行在具(jù)備低時延和高耐用(yòng)性的高速固态盤上時,人工(gōng)智能(néng)推理(lǐ)更能(néng)充分(fēn)發揮其性能(néng)。如緩存層采用(yòng)高性能(néng)固态盤而非主流串行 ATA (SATA) 固态盤,則要求高性能(néng)的工(gōng)作(zuò)負載将受益匪淺。在英特爾® 精(jīng)選解決方案中(zhōng),緩存層采用(yòng)英特爾® 傲騰™ 固态盤。英特爾® 傲騰™ 固态盤單位成本可(kě)提供較高的每秒(miǎo)讀寫次數 (IOPS),且具(jù)備低時延和高耐用(yòng)性,再加上高達 30 次的每日整盤寫入次數 (DWPD),是寫入密集型緩存功能(néng)的理(lǐ)想選擇2。容量層則采用(yòng)英特爾® 3D NAND 固态盤,可(kě)提供出色的讀取性能(néng),并兼具(jù)數據完整性、性能(néng)一緻性和驅動可(kě)靠性。

25 Gb 以太網

25 Gb 英特爾® 以太網 700 系列網絡适配器能(néng)夠提升面向人工(gōng)智能(néng)推理(lǐ)的英特爾® 精(jīng)選解決方案的性能(néng)。與使用(yòng) 1 Gb 以太網 (GbE) 适配器和英特爾® 固态盤 DC S4500 相比,使用(yòng) 25 Gb 以太網适配器配合第二代英特爾® 至強® 鉑金處理(lǐ)器和英特爾® 固态盤 DC P4600 可(kě)提供高達前者 2.5 倍的性能(néng)34。英特爾® 以太網 700 系列提供經過驗證的性能(néng);其廣泛的互操作(zuò)性可(kě)在數據彈性和服務(wù)可(kě)靠性方面滿足高質(zhì)量阈值5。所有(yǒu)英特爾® 以太網産(chǎn)品均提供全球售前和售後支持,并在産(chǎn)品周期内提供有(yǒu)限質(zhì)保。

經過基準測試驗證的性能(néng)

所有(yǒu)英特爾® 精(jīng)選解決方案均通過基準測試驗證,已滿足預先指定的工(gōng)作(zuò)負載優化性能(néng)的最低功能(néng)級别。在數據中(zhōng)心、網絡邊緣和雲中(zhōng)的各類工(gōng)作(zuò)負載中(zhōng),人工(gōng)智能(néng)推理(lǐ)正逐漸成為(wèi)其重要組成部分(fēn),因此英特爾選擇使用(yòng)标準的深度學(xué)習基準測試方法,并模拟真實場景進行測量和基準測試。

在标準基準測試中(zhōng),每秒(miǎo)可(kě)處理(lǐ)的圖像數量(即吞吐量)是在一個經過預先訓練的深度殘差神經網絡 (ResNet 50 v1) 上測量的。該神經網絡與使用(yòng)合成數據的 TensorFlow、PyTorch 和 OpenVINO™ 工(gōng)具(jù)套件上廣泛使用(yòng)的深度學(xué)習用(yòng)例(如圖像分(fēn)類、定位和檢測)密切相關。

為(wèi)了模拟真實場景,測試啓動了多(duō)個客戶端,以模拟多(duō)個請求流。這些客戶端将圖像從外部客戶端系統發送到服務(wù)器以進行推理(lǐ)。在服務(wù)器端,入站請求由 Istio 進行負載平衡。然後,請求将發送到一個可(kě)服務(wù)對象的多(duō)個實例,該對象包含通過 Seldon Core 運行的一條預處理(lǐ)、預測和後處理(lǐ)步驟管道。預測使用(yòng) OpenVINO™ 工(gōng)具(jù)包中(zhōng) Model Server 經過優化的 DLRS 容器映像完成。在請求通過管道後,推理(lǐ)結果将返回給提出請求的客戶端。在此過程中(zhōng)測量出的吞吐量和時延可(kě)幫助确保此測試配置足以支持生産(chǎn)環境中(zhōng)的推理(lǐ)規模。

基礎配置和增強配置

我們以兩種參考配置(“基礎配置”和“增強配置”)向您展示面向人工(gōng)智能(néng)推理(lǐ)的英特爾® 精(jīng)選解決方案。兩者均已經過驗證,可(kě)提供出色性能(néng)。這兩種配置經過專門的設計和預測試,可(kě)提供出衆的價值、性能(néng)、安(ān)全性和用(yòng)戶體(tǐ)驗。最終客戶也可(kě)與系統構建商(shāng)、系統集成商(shāng),或是解決方案和服務(wù)提供商(shāng)合作(zuò),根據企業和機構的需求與預算來定制這些配置。

“基礎配置”具(jù)有(yǒu)出色的性價比,且已針對人工(gōng)智能(néng)推理(lǐ)工(gōng)作(zuò)負載進行優化。“增強配置”使用(yòng)高于“基礎配置”的英特爾® 至強® 可(kě)擴展處理(lǐ)器型号,并增加一倍内存。表 1 列出了這兩種配置的詳細信息。

 

圖 2. 在面向人工(gōng)智能(néng)推理(lǐ)的英特爾® 精(jīng)選解決方案上進行的真實場景基準測試架構圖