本文介紹了面向 AI 推理的英特爾® 精選解決方案以及其如何解決 AI 推理部署的痛點,包括其中采用的軟件、硬件和技術。該系列解決方案有基礎和增強配置,提供靈活的可定制性,以滿足不同需求。您可通過閱讀本文具體了解如何在符合行業標準的硬件上部署優化的高速人工智能推理,驅動更高商業價值。
越來越多的企業希望借助人工智能 (AI) 以增加收入、提高效率并推動產品創新。尤其需要指出的是,基于深度學習 (DL) 技術的人工智能用例能夠帶來有效且實用的洞察;其中一些用例可在眾多行業推動進步,例如:
這些用例僅僅只是開始。隨著企業將人工智能融入業務運營,他們將發現應用人工智能的新方法。然而,所有人工智能用例的商業價值都取決于由深度神經網絡訓練的模型的推理速度。在深度學習模型上支持推理所需的資源規模可能非常龐大,通常需要企業更新硬件以獲得其所需的性能和速度。但是,許多客戶希望擴展其現有的基礎設施,而不是重新購買單一用途的新硬件。您的 IT 部門已經非常熟悉英特爾® 硬件架構,其靈活性能使您的 IT 投資更高效。面向人工智能推理的英特爾® 精選解決方案是“一站式”平臺,提供經過預配置、優化和驗證的解決方案,無需另外配置加速卡,即可在 CPU 上實現低時延、高吞吐量的推理。
面向人工智能推理的英特爾® 精選解決方案
面向人工智能推理的英特爾® 精選解決方案能幫助您快速入門,利用基于經驗證的英特爾® 架構的解決方案,部署高效的人工智能推理算法,從而加速創新和產品上市。為了加快人工智能應用的推理和上市,面向人工智能推理的英特爾® 精選解決方案結合了多種英特爾及第三方的軟硬件技術。
軟件選擇
面向人工智能推理的英特爾® 精選解決方案使用的軟件包括開發人員工具和管理工具,以輔助生產環境中的人工智能推理。
英特爾® 分發版 OpenVINO™ 工具包
英特爾® 分發版開放視覺推理和神經網絡優化工具包(即英特爾® 分發版 OpenVINO™ 工具包)是一套開發人員套件,可加速高性能人工智能和深度學習推理的部署。該工具套件可針對多種英特爾® 硬件選項,對各種不同框架訓練的模型進行優化,以提供出色性能部署。工具套件中的深度學習工作臺 (DL Workbench) 可將模型量化到較低精度。在此過程中,工具套件把使用較大的高精度 32 位浮點數(通常用于訓練,會占用較多內存)的模型轉換為 8 位整數,以優化內存使用和性能。將浮點數轉換為整數能夠在保持幾乎相同精度的同時,顯著提高人工智能推理速度1。該工具套件可以轉換和執行在多種框架中構建的模型,包括 TensorFlow、MXNet、PyTorch、Kaldi 和開放神經網絡交換 (Open Neural Network Exchange, ONNX) 生態系統所支持的任何框架。此外,用戶還可獲得經過預訓練的公開模型,無需再自行搜尋或訓練模型,從而加速基于英特爾® 處理器的開發和圖像處理管道優化。
深度學習參考堆棧
面向人工智能推理的英特爾® 精選解決方案配備深度學習參考堆棧 (DLRS)。這是一個集成的高性能開源軟件堆棧,已針對英特爾® 至強® 可擴展處理器進行優化,并封裝在一個便捷的 Docker 容器中。DLRS 經過預先驗證,并且配置完善,已包含所需的庫和軟件組件,因此有助于降低人工智能在生產環境中與多個軟件組件集成所帶來的復雜性。該堆棧還包括針對主流深度學習框架 TensorFlow 和 PyTorch 高度調優的容器,以及英特爾® 分發版 OpenVINO™ 工具包。該開源社區版本也有利于確保人工智能開發人員可輕松獲得英特爾® 平臺的所有特性和功能。
Kubeflow 和 Seldon Core
隨著企業和機構不斷積累在生產環境中部署推理模型的經驗,業界逐步形成了一系列最佳實踐的共識,即 “MLOps”,類似于 “DevOps” 軟件開發實踐。為了幫助團隊應用 MLOps,面向人工智能推理的英特爾® 精選解決方案使用 Kubeflow。借助 Kubeflow,團隊可在“零停機”的情況下順利推出模型的新版本。Kubeflow 使用受到支持的模型服務后端(例如 TensorFlow Serving)將經過訓練的模型導出到 Kubernetes。模型部署則可使用金絲雀測試或影子部署來實現新舊版本的并行驗證。如果發現問題,除了進行跟蹤,團隊還可以使用模型和數據版本控制來簡化根本原因分析。
為了在需求增加時保持快捷響應的服務,面向人工智能推理的英特爾® 精選解決方案提供負載平衡功能,能夠跨節點將推理自動分片到可服務對象的可用實例中。多租戶支持提供不同的模型,從而提高硬件利用率。最后,為了在運行人工智能推理的服務器和需要人工智能洞察的端點之間加速處理推理請求,面向人工智能推理的英特爾® 精選解決方案可以使用 Seldon Core 來幫助管理推理管道。Kubeflow 還與 Seldon Core 集成,從而在 Kubernetes 上部署深度學習模型,并使用 Kubernetes API 來管理部署在推理管道中的容器。
硬件選擇
面向人工智能推理的英特爾® 精選解決方案結合了第二代英特爾® 至強® 可擴展處理器、英特爾® 傲騰™ 固態盤 (SSD)、英特爾® 3D NAND 固態盤和英特爾® 以太網 700 系列,因此您的企業可以在性能經過優化的平臺上快速部署生產級人工智能基礎設施,為要求嚴苛的應用和工作負載提供大內存容量。
第二代英特爾® 至強® 可擴展處理器
面向人工智能推理的英特爾® 精選解決方案具有第二代英特爾® 至強® 可擴展處理器的性能和功能。對于“基礎”配置,英特爾® 至強® 金牌 6248 處理器在價格、性能和集成技術之間實現了出色的平衡,能夠增強人工智能模型上的推理性能與效率。“增強”配置則采用專為實現更快人工智能推理而設計的英特爾® 至強® 鉑金 8268 處理器。此外,在任一配置中也可選用更高型號的處理器。第二代英特爾® 至強® 可擴展處理器包含英特爾® 深度學習加速技術。這是一系列加速功能,可通過專門的矢量神經網絡指令 (VNNI) 集來提高人工智能推理性能。該指令集使用一條單獨指令即可完成之前需要三條單獨指令才能進行的深度學習計算。
英特爾® 傲騰™ 技術
英特爾® 傲騰™ 技術填補了存儲和內存層之間的重要空白,讓數據中心能夠更快地獲取數據。這項技術顛覆了內存和存儲層,能夠在各種不同產品和解決方案中提供持久內存、大型內存池、高速緩存和存儲。

圖 1. 英特爾® 傲騰™ 技術填補了數據中心內存和存儲之間的性能空白
英特爾® 傲騰™ 固態盤和英特爾® 3D NAND 固態盤
當緩存層運行在具備低時延和高耐用性的高速固態盤上時,人工智能推理更能充分發揮其性能。如緩存層采用高性能固態盤而非主流串行 ATA (SATA) 固態盤,則要求高性能的工作負載將受益匪淺。在英特爾® 精選解決方案中,緩存層采用英特爾® 傲騰™ 固態盤。英特爾® 傲騰™ 固態盤單位成本可提供較高的每秒讀寫次數 (IOPS),且具備低時延和高耐用性,再加上高達 30 次的每日整盤寫入次數 (DWPD),是寫入密集型緩存功能的理想選擇2。容量層則采用英特爾® 3D NAND 固態盤,可提供出色的讀取性能,并兼具數據完整性、性能一致性和驅動可靠性。
25 Gb 以太網
25 Gb 英特爾® 以太網 700 系列網絡適配器能夠提升面向人工智能推理的英特爾® 精選解決方案的性能。與使用 1 Gb 以太網 (GbE) 適配器和英特爾® 固態盤 DC S4500 相比,使用 25 Gb 以太網適配器配合第二代英特爾® 至強® 鉑金處理器和英特爾® 固態盤 DC P4600 可提供高達前者 2.5 倍的性能34。英特爾® 以太網 700 系列提供經過驗證的性能;其廣泛的互操作性可在數據彈性和服務可靠性方面滿足高質量閾值5。所有英特爾® 以太網產品均提供全球售前和售后支持,并在產品周期內提供有限質保。
經過基準測試驗證的性能
所有英特爾® 精選解決方案均通過基準測試驗證,已滿足預先指定的工作負載優化性能的最低功能級別。在數據中心、網絡邊緣和云中的各類工作負載中,人工智能推理正逐漸成為其重要組成部分,因此英特爾選擇使用標準的深度學習基準測試方法,并模擬真實場景進行測量和基準測試。
在標準基準測試中,每秒可處理的圖像數量(即吞吐量)是在一個經過預先訓練的深度殘差神經網絡 (ResNet 50 v1) 上測量的。該神經網絡與使用合成數據的 TensorFlow、PyTorch 和 OpenVINO™ 工具套件上廣泛使用的深度學習用例(如圖像分類、定位和檢測)密切相關。
為了模擬真實場景,測試啟動了多個客戶端,以模擬多個請求流。這些客戶端將圖像從外部客戶端系統發送到服務器以進行推理。在服務器端,入站請求由 Istio 進行負載平衡。然后,請求將發送到一個可服務對象的多個實例,該對象包含通過 Seldon Core 運行的一條預處理、預測和后處理步驟管道。預測使用 OpenVINO™ 工具包中 Model Server 經過優化的 DLRS 容器映像完成。在請求通過管道后,推理結果將返回給提出請求的客戶端。在此過程中測量出的吞吐量和時延可幫助確保此測試配置足以支持生產環境中的推理規模。
基礎配置和增強配置
我們以兩種參考配置(“基礎配置”和“增強配置”)向您展示面向人工智能推理的英特爾® 精選解決方案。兩者均已經過驗證,可提供出色性能。這兩種配置經過專門的設計和預測試,可提供出眾的價值、性能、安全性和用戶體驗。最終客戶也可與系統構建商、系統集成商,或是解決方案和服務提供商合作,根據企業和機構的需求與預算來定制這些配置。
“基礎配置”具有出色的性價比,且已針對人工智能推理工作負載進行優化。“增強配置”使用高于“基礎配置”的英特爾® 至強® 可擴展處理器型號,并增加一倍內存。表 1 列出了這兩種配置的詳細信息。

圖 2. 在面向人工智能推理的英特爾® 精選解決方案上進行的真實場景基準測試架構圖