CPU 服務(wù)器代替 GPU 服務(wù)器
2023-03-31 16:25:14

58 同城深度學(xué)習平台,是集開發實驗、模型訓練和在線(xiàn)預測為(wèi)一體(tǐ)的一站式算法研發平台,旨在為(wèi)各業務(wù)部門賦能(néng) AI 算法研發能(néng)力,支撐了 58 同城搜索、推薦、圖像、NLP、語音、風控等 AI 應用(yòng)。作(zuò)為(wèi)中(zhōng)國(guó)最大的生活信息服務(wù)商(shāng),58 同城不斷在提高深度學(xué)習平台性能(néng),提高平台資源使用(yòng)率,從而更好的提升用(yòng)戶體(tǐ)驗。

 

 

58 同城探索了在基于第二代英特爾® 至強® 可(kě)擴展處理(lǐ)器的 CPU 服務(wù)器上進行推理(lǐ)優 化,并進行了測試。測試數據顯示,CPU 服務(wù)器在部分(fēn)場景下能(néng)夠實現比 GPU 服務(wù)器 更高的推理(lǐ)性能(néng),同時在 TCO、部署靈活性等方面更具(jù)優勢。在計算機視覺領域的強 勁算力需求下,也能(néng)夠可(kě)靠的支撐快速增長(cháng)的業務(wù)需求。

 

背景:58 同城使用(yòng)在線(xiàn)推理(lǐ)為(wèi)用(yòng)戶提供精(jīng)準服務(wù)
58 同城的業務(wù)廣泛涵蓋招聘、房産(chǎn)、車(chē)輛、兼職、黃頁(yè)等海量的生活分(fēn)類信息,随着 各個業務(wù)線(xiàn)業務(wù)的蓬勃發展,58 同城上的分(fēn)類信息呈現出爆炸性增長(cháng)的趨勢。對不同 場景下的需求做好分(fēn)類信息處理(lǐ),已成為(wèi)一個重要問題。以房産(chǎn)場景為(wèi)例,用(yòng)戶每天會 上傳大量的房源相關圖片,系統如何根據用(yòng)戶上傳的海量圖片信息,精(jīng)準快速的進行識 别與分(fēn)類,是提升用(yòng)戶體(tǐ)驗、增加業務(wù)收益的關鍵。

 

為(wèi)了提高深度學(xué)習平台在線(xiàn)推理(lǐ)的性能(néng),同時盡可(kě)能(néng)降低系統的總體(tǐ)擁有(yǒu)成本(TCO), 目前,基于深度學(xué)習模型的預測服務(wù)優化已經成為(wèi)了一個重 要方向。在圖像領域的算法模型中(zhōng),如 ResNet、CRNN、 YOLOv5 等,都對硬件算力有(yǒu)較大的需求。如果采用(yòng) GPU 服 務(wù)器來進行深度學(xué)習模型推理(lǐ),将涉及到專用(yòng) GPU 硬件的采 購(gòu),以及配套的搭建、運維等成本,不僅靈活度較低、應用(yòng)範 圍受限,而且也可(kě)能(néng)會帶來較高的 TCO 壓力。同時,在 GPU  服務(wù)器上進行深度學(xué)習推理(lǐ)往往需要複雜的部署、調優過程, 門檻相對較高,難以滿足新(xīn)增應用(yòng)快速上線(xiàn)的需求。 與 GPU 服務(wù)器相比,CPU 服務(wù)器具(jù)備更強的靈活性、敏捷性, 能(néng)夠支持大數據、雲計算、虛拟化等多(duō)種業務(wù)的彈性擴展, 方便部署和管理(lǐ),滿足企業不同業務(wù)場景的動态資源需求。 此外,通過面向 AI 工(gōng)作(zuò)負載的技(jì )術特性升級以及性能(néng)優化, CPU 已經能(néng)夠廣泛滿足用(yòng)戶不同 AI 應用(yòng)對于算力的要求。 解決方案:英特爾® 至強® 可(kě)擴展處理(lǐ)器 +  OpenVINO™ 工(gōng)具(jù)套件提升推理(lǐ)性能(néng) 為(wèi)了構建更高效、更具(jù)經濟性的在線(xiàn)推理(lǐ)系統,58 同城推出 了基于英特爾® 至強® 可(kě)擴展處理(lǐ)器的 CPU 推理(lǐ)服務(wù)器方案。 該方案除了搭載高性能(néng)、面向人工(gōng)智能(néng)應用(yòng)進行優化的第二代 英特爾® 至強® 可(kě)擴展處理(lǐ)器,還通過 OpenVINO™ 工(gōng)具(jù)套件 進行了性能(néng)優化,從而進一步發揮性能(néng)潛力。 第二代英特爾® 至強® 可(kě)擴展處理(lǐ)器内置人工(gōng)智能(néng)加速功能(néng), 并已針對工(gōng)作(zuò)負載進行優化,能(néng)夠為(wèi)各種高性能(néng)計算工(gōng)作(zuò)負 載、AI 應用(yòng)以及高密度基礎設施帶來一流的性能(néng)和内存帶寬。

 

同時,采用(yòng)矢量神經網絡指令(VNNI)的英特爾® 深度學(xué)習加 速(英特爾® DL Boost)顯著提高了人工(gōng)智能(néng)推理(lǐ)的表現,這使其成為(wèi)進行深度學(xué)習應用(yòng)的卓越基礎設施。

 

OpenVINO™ 工(gōng)具(jù)套件支持加快部署廣泛的深度學(xué)習推理(lǐ)應用(yòng) 和解決方案,可(kě)支持開發人員使用(yòng)行業标準人工(gōng)智能(néng)框架、标 準或自定義層,将深度學(xué)習推理(lǐ)輕松集成到應用(yòng)中(zhōng),在英特爾®  硬件(包括加速器)中(zhōng)擴展工(gōng)作(zuò)負載并改善性能(néng)。借助面向 預推理(lǐ)模型的内置模型優化器(Model Optimizer,MO), 和面向專用(yòng)硬件加速的推理(lǐ)引擎(Inference Engine,IE)運 行時,OpenVINO™ 工(gōng)具(jù)套件可(kě)在英特爾不同平台上部署并加 速神經網絡模型,能(néng)夠在保持精(jīng)度的同時顯著提高圖像推理(lǐ)速度。

 

署環境之間的轉換,執行靜态模型分(fēn)析并調整深度學(xué)習模型, 緻力于在終端目标設備上實現最優執行能(néng)力。它支持從流行的 框架(包括 TensorFlow/ONNX/模型)到中(zhōng)間數據格式(IR, intermediate representation)的離線(xiàn)模型轉換。推理(lǐ)引擎則 提供統一的跨平台 C、C++ 和 Python API,用(yòng)于推理(lǐ)加速和 優化。

 

OpenVINO Model Server 是高性能(néng) K8S 容器化的 AI 服務(wù)部 署工(gōng)具(jù),可(kě)實現便捷高效的 AI 推理(lǐ)服務(wù)部署與運維。該工(gōng)具(jù) 依賴标準的 gPRC 和 RESTful 網絡接口,針對不同的 AI 業務(wù) 功能(néng),無需重複編寫代碼,即可(kě)實現新(xīn)模型算法服務(wù)上線(xiàn)。該 工(gōng)具(jù)同時集成了高度優化的推理(lǐ)進程,支持英特爾不同硬件平 台資源的調度

 

驗證:50% 以上的推理(lǐ)性能(néng)提升
為(wèi)了驗證在 CPU、GPU 等不同平台上進行深度學(xué)習推理(lǐ)的性 能(néng)以及 TCO 表現,58 同城進行了相應的測試,測試采用(yòng)了 基于開源的 ResNet50 模型以及基于 Inception 和 ResNet 組 合的 ResNeXt 模型,這兩種模型皆應用(yòng)在 58 同城的實際業 務(wù)中(zhōng)。參測的推理(lǐ)服務(wù)器分(fēn)别基于英特爾® 至強® 金牌 6230R  處理(lǐ)器以及 T4 GPU,其中(zhōng),前者為(wèi)雙路服務(wù)器,測試配置如 表 1 所示

6230R 處理(lǐ)器的平台的 ResNeXt 模型推理(lǐ)性能(néng)是基于 GPU  平台性能(néng)的 1.56 倍,ResNet50 模型的推理(lǐ)性能(néng)則是後者的  1.76 倍,能(néng)夠滿足 58 同城實際業務(wù)對于性能(néng)與耗時的需求。 同時,CPU 平台通常有(yǒu)着更大的靈活性與動态擴展的敏捷性, 能(néng)夠幫助 58 同城更好地為(wèi)多(duō)樣化場景提供支撐。