58 同城深度學習平臺,是集開發實驗、模型訓練和在線預測為一體的一站式算法研發平臺,旨在為各業務部門賦能 AI 算法研發能力,支撐了 58 同城搜索、推薦、圖像、NLP、語音、風控等 AI 應用。作為中國最大的生活信息服務商,58 同城不斷在提高深度學習平臺性能,提高平臺資源使用率,從而更好的提升用戶體驗。

58 同城探索了在基于第二代英特爾® 至強® 可擴展處理器的 CPU 服務器上進行推理優 化,并進行了測試。測試數據顯示,CPU 服務器在部分場景下能夠實現比 GPU 服務器 更高的推理性能,同時在 TCO、部署靈活性等方面更具優勢。在計算機視覺領域的強 勁算力需求下,也能夠可靠的支撐快速增長的業務需求。
背景:58 同城使用在線推理為用戶提供精準服務
58 同城的業務廣泛涵蓋招聘、房產、車輛、兼職、黃頁等海量的生活分類信息,隨著 各個業務線業務的蓬勃發展,58 同城上的分類信息呈現出爆炸性增長的趨勢。對不同 場景下的需求做好分類信息處理,已成為一個重要問題。以房產場景為例,用戶每天會 上傳大量的房源相關圖片,系統如何根據用戶上傳的海量圖片信息,精準快速的進行識 別與分類,是提升用戶體驗、增加業務收益的關鍵。

為了提高深度學習平臺在線推理的性能,同時盡可能降低系統的總體擁有成本(TCO), 目前,基于深度學習模型的預測服務優化已經成為了一個重 要方向。在圖像領域的算法模型中,如 ResNet、CRNN、 YOLOv5 等,都對硬件算力有較大的需求。如果采用 GPU 服 務器來進行深度學習模型推理,將涉及到專用 GPU 硬件的采 購,以及配套的搭建、運維等成本,不僅靈活度較低、應用范 圍受限,而且也可能會帶來較高的 TCO 壓力。同時,在 GPU 服務器上進行深度學習推理往往需要復雜的部署、調優過程, 門檻相對較高,難以滿足新增應用快速上線的需求。 與 GPU 服務器相比,CPU 服務器具備更強的靈活性、敏捷性, 能夠支持大數據、云計算、虛擬化等多種業務的彈性擴展, 方便部署和管理,滿足企業不同業務場景的動態資源需求。 此外,通過面向 AI 工作負載的技術特性升級以及性能優化, CPU 已經能夠廣泛滿足用戶不同 AI 應用對于算力的要求。 解決方案:英特爾® 至強® 可擴展處理器 + OpenVINO™ 工具套件提升推理性能 為了構建更高效、更具經濟性的在線推理系統,58 同城推出 了基于英特爾® 至強® 可擴展處理器的 CPU 推理服務器方案。 該方案除了搭載高性能、面向人工智能應用進行優化的第二代 英特爾® 至強® 可擴展處理器,還通過 OpenVINO™ 工具套件 進行了性能優化,從而進一步發揮性能潛力。 第二代英特爾® 至強® 可擴展處理器內置人工智能加速功能, 并已針對工作負載進行優化,能夠為各種高性能計算工作負 載、AI 應用以及高密度基礎設施帶來一流的性能和內存帶寬。
同時,采用矢量神經網絡指令(VNNI)的英特爾® 深度學習加 速(英特爾® DL Boost)顯著提高了人工智能推理的表現,這使其成為進行深度學習應用的卓越基礎設施。
OpenVINO™ 工具套件支持加快部署廣泛的深度學習推理應用 和解決方案,可支持開發人員使用行業標準人工智能框架、標 準或自定義層,將深度學習推理輕松集成到應用中,在英特爾® 硬件(包括加速器)中擴展工作負載并改善性能。借助面向 預推理模型的內置模型優化器(Model Optimizer,MO), 和面向專用硬件加速的推理引擎(Inference Engine,IE)運 行時,OpenVINO™ 工具套件可在英特爾不同平臺上部署并加 速神經網絡模型,能夠在保持精度的同時顯著提高圖像推理速度。
署環境之間的轉換,執行靜態模型分析并調整深度學習模型, 致力于在終端目標設備上實現最優執行能力。它支持從流行的 框架(包括 TensorFlow/ONNX/模型)到中間數據格式(IR, intermediate representation)的離線模型轉換。推理引擎則 提供統一的跨平臺 C、C++ 和 Python API,用于推理加速和 優化。
OpenVINO Model Server 是高性能 K8S 容器化的 AI 服務部 署工具,可實現便捷高效的 AI 推理服務部署與運維。該工具 依賴標準的 gPRC 和 RESTful 網絡接口,針對不同的 AI 業務 功能,無需重復編寫代碼,即可實現新模型算法服務上線。該 工具同時集成了高度優化的推理進程,支持英特爾不同硬件平 臺資源的調度
驗證:50% 以上的推理性能提升
為了驗證在 CPU、GPU 等不同平臺上進行深度學習推理的性 能以及 TCO 表現,58 同城進行了相應的測試,測試采用了 基于開源的 ResNet50 模型以及基于 Inception 和 ResNet 組 合的 ResNeXt 模型,這兩種模型皆應用在 58 同城的實際業 務中。參測的推理服務器分別基于英特爾® 至強® 金牌 6230R 處理器以及 T4 GPU,其中,前者為雙路服務器,測試配置如 表 1 所示

6230R 處理器的平臺的 ResNeXt 模型推理性能是基于 GPU 平臺性能的 1.56 倍,ResNet50 模型的推理性能則是后者的 1.76 倍,能夠滿足 58 同城實際業務對于性能與耗時的需求。 同時,CPU 平臺通常有著更大的靈活性與動態擴展的敏捷性, 能夠幫助 58 同城更好地為多樣化場景提供支撐。