AMD：嵌入式邊緣 AI 需要體現價值並方便部署

AMD：嵌入式邊緣 AI 需要體現價值並方便部署

隨著人工智慧（ AI ）技術廣泛應用於各行各業，從雲端到邊緣的解決方案逐漸成為資訊科技領域的新熱點。嵌入式邊緣 AI 在當今的各種邊緣應用中能夠大幅提升作業人員的生產力，帶動整個 AI 技術在各個領域的全面落地。邊緣 AI 的價值在於將運算和儲存資源移動到網路邊緣，縮短傳輸距離降低傳輸需求，大幅提升資料回饋的速度，降低了對系統雲端運算能力的需求。邊緣處理資料無需傳輸到遠端伺服器，從而大大減少了傳輸延遲，對於需要即時回應的應用程式場景至關重要。此外，嵌入式邊緣 AI 結構相對處理效率更高，透過優化演算法和硬體設計，可大幅降低系統處理所需的功耗。

目前的 AI 驅動型嵌入式系統實現端到端加速需要採用多晶片方法，為用戶增加了很大的開銷和設計複雜性。針對這一現狀，AMD 工業、視覺、醫療與科學市場視覺業務主管 Yingyu Xia認為，全面採用嵌入式邊緣 AI 技術仍然存在障礙，包括技能人才短缺、AI 系統的複雜性以及對失業的擔憂。為了更廣泛地推廣此類應用，不僅需要展示AI 在各個應用任務中的價值，而且還需要確保其便於部署，作為擁有多種嵌入式處理器產品的廠商，這恰是AMD 最突出的競爭優勢所在。

Yingyu Xia

AMD 工業、視覺、醫療與科學
市場視覺業務主管

在邊緣智慧的應用中，需要重點關注的是不同處理器發揮各自的處理優勢以便更好地提升邊緣智慧系統的運作效率。為了支援嵌入式設備上的生成式AI 模型，Yingyu Xia 表示計算平台需要確保高算力的同時具有高效率，採用處理器異質計算平台以及一個編譯器，能夠高效地在應用處理器（ PS ）、圖形處理單元（ GPU ）、神經處理單元（ NPU ）和現場可程式閘陣列（ FPGA ）之間分配各種工作負載。此外，它們應該提供易於使用的軟體開發工具套件（ SDK ），幫助嵌入式工程師將其模型無縫部署到硬體平台。 NPU 對於高效處理標準AI 模型至關重要，有助於加速AI 任務並最大限度地降低功耗；同時，PS 和GPU 對於處理尚未針對NPU 進行優化的更高級別的模型也提供了必要支援； FPGA 則有助於整合多種感測器模態，以利用多模態模型並確保感測器同步。此外，FPGA 可以被編程以建立客製化、最佳化的資料路徑，從而實現系統元件之間的有效資料傳輸。

----------------------------------------------------

針對各個處理器在邊緣AI 應用中的作用，AMD 工業、視覺、醫療與科學市場機器人業務主管KV Thanjavur Bhaaskar 介紹，CPU 一直以來都是功能強大的通用計算引擎，相對於許多其他計算平台，在可提供支援的廣泛軟體生態系統方面具有優勢。嵌入式處理器整合了用於渲染、視覺化和顯示的 CPU 和圖形。隨著邊緣智慧的快速成長，近來的趨勢是 CPU 除了通用運算和圖形功能外，還具有專用的 AI 運算引擎。

KV Thanjavur Bhaaskar

AMD 工業、視覺、醫療與科學
市場機器人業務主管

迄今為止，設計人員必須在設計中引入加速器才能實現高性能的 AI 推理。將專用的 AI 運算引擎引入 CPU 中，可提供靈活的架構選擇，減少佔板面積並提高能源效率。就新應用而言，邊緣智慧已經無所不在，所以可以想像在以前只有CPU 的地方現在都具備了AI 功能，例如具有AI 路徑規劃的機器人控制器、具有診斷或感興趣區域功能的醫學成像等。正在出現的主要設計要求是在滿足整體解決方案需求的情況下選擇正確的引擎進行正確的任務，因為計算工作負載的多樣性、處理器以有效處理它們的方式、以及系統中這種處理能力的可用性都發生了顯著變化。在為傳統 CPU 增加 AI 功能之外，異質處理架構的出現能夠更好的去提升邊緣 AI 在功耗和效率方面的表現。KV Thanjavur Bhaaskar 強調，處理器的選擇取決於特定的系統級別，一個解決方案可能是選擇適合特定任務的正確引擎，因為這將為解決系統中的特定計算任務提供最節能的方式。 AMD 提供的裝置結合了不同技術，包括FPGA、處理子系統（包括Arm 和RISC-V ）、基於x86 的CPU、GPU、AI 引擎，構成了可擴展性很強的產品系列，從成本優化的嵌入式裝置一直到針對資料中心市場的高階元件。

Omdia 預測

2027 年營收前 10 的嵌入式 AI 應用 ( Alexander Harrowell, Omdia, 2022 )

Omdia 預測了到2027 年預計將產生最高收入的前10 個嵌入式AI 應用（如圖所示），這些應用通常展示了上述因素中的兩個或更多，呈現出業界採用嵌入式AI 的目標領域。以工廠自動化為例，工廠中的拾取和放置機器人，需要實現對目標對象的毫米級準確識別並最小化對機械臂的干擾，這需要結合3D 視覺、點雲處理、嵌入式AI 和傳感器致動器融合。最大限度降低延遲對於維持高生產力至關重要，也有助於確保產量和整體效率的提升。這方面許多人所熟悉的另一個例子是智慧結帳系統，不僅可透過即時監控掃描商品來增強結帳體驗，還能檢測購物者的不當行為，例如將較便宜的商品（如香蕉）替換為較昂貴的商品（如牛排）。這項功能不僅鼓勵顧客使用自助結帳，減少零售商的擔憂，也解決了不斷上升的勞動成本問題。此外，還可以參考智慧交通攝影機，其需要針對速度高達 200 公里/小時的車輛擷取影像資訊。要實現這一點，需要整合各種感測器。然而，全天候持續傳輸視訊將產生極高的成本。

如需了解有關 AI 引擎機器學習記憶體拼塊存取的信息，請參閱 AI 引擎機器學習記憶體拼塊存取。
如需了解有關 AI 引擎機器學習外部記憶體存取的信息，請參閱 AI 引擎機器學習外部記憶體存取。

本文檔第2 章到第5 章聚焦AI 引擎內核編程，不僅涉及單內核編程，還涵蓋了多方面的內容，如內核之間的數據通信，這些內容都是將應用分區為多個內核以達成所需的吞吐量所必不可少的概念。

本文檔第 6 到 14 章焦點包括 AI 引擎計算圖編程構造、核心之間的資料通訊類型、透過主機應用來控制 AI 引擎計算圖以及高級計算圖編程構造。

統一 AI 模型的潛在發展趨勢

隨著 AI 模型及其參數的複雜性日益提高，對系統內部更有效的資料傳輸機制的需求也在增長。統一 AI 模型是最突出的潛在發展趨勢。與為同一背景下的各種任務管理多個專門的 AI 模型不同，統一模型可用於處理多種視覺任務。這種方法在嵌入式邊緣中提供了更有效地資源利用的可能性，尤其是在分散式 AI 架構中更為明顯。預計在這個領域會進行進一步的研究，以提高統一模型的準確性。

Yingyu Xia 特别提到:

目前一個值得關注的趨勢，即業界出現了能夠在有限標記資料下進行有效泛化的模型。這項策略在資料採集不便和需要頻繁資料訓練的場景中具有極大的價值。由於僅需要最少量的資料進行重新訓練，因此這一趨勢降低了所需的技術專長，並節省了 AI 訓練時間。

此外，大型語言模型（ LLM ）的普及使得與 AI 的互動更類似於與人類對話。只需提出一個問題，AI 就能夠理解背景語義並像諮詢專家一樣回應。目前一種趨勢是在嵌入式邊緣部署的 AI 模型中提升對視覺場景的理解。這項發展有助於作業人員更清晰地理解視覺場景，在一次影片搜尋的調查過程中，它能夠以自然的人類語言提供洞察和建議。除了評估 AI 引擎的能力外，Yingyu Xia 認為嵌入式 AI 系統還在高速和大量資料湧入的即時環境中運作。確保即時操作需要硬體平台具備高效的資料同步和前後處理管線，以有效管理資料流。在選擇嵌入式平台時，不僅要考慮 AI 引擎的效率，還要考慮它與其他關鍵部分的兼容性。 AI 引擎只是嵌入式系統的一個組成部分，為了實現最佳功能，必須透過其它重要因素進行補充，理想的平台應該是根據嵌入式用例需求可以滿足下列大部分要求的平台。

AMD Embedded+

隨面向邊緣 AI 應用市場，AMD 最近發布了加速嵌入式邊緣 AI 開發的 Embedded+ 架構，該架構將 AMD Ryzen（銳龍）嵌入式處理器與 AMD Versal AI Edge 自適應 SoC 整合在一塊闆卡上。KV Thanjavur Bhaaskar 強調，自適應運算在確定性、低時延處理方面表現出色，而 AI 引擎則能夠提升高每瓦效能推理。在在這種異質處理器架構中，Ryzen 嵌入式處理器提供了 Zen+ x86 核心，並且具備廣泛的軟體生態系統支持，Radeon 顯示卡用於渲染和顯示功能。 Versal AI Edge 自適應SoC 提供了基於Arm Cortex-A72 核心處理器的子系統用於應用處理，R5-F 用於即時處理，FPGA 用於低時延和確定性，AI 引擎用於AI 推理，最重要的是可編程I/O，支援用戶將各種感測器直接連接到平台。在自動化系統中，感測器資料的價值會隨時間推移而遞減，而這些資料必須根據盡可能最新的資訊運行，才能實現最低延遲和確定性響應。在工業和醫療應用中許多決策需要在幾毫秒內做出，這就是嵌入式邊緣 AI 最適合的方向。 Embedded+ 能最大限度地發揮合作夥伴和客戶數據價值，其高能源效率和高效能算力使合作夥伴與客戶能夠專注於滿足客戶和市場需求。

AMD Embedded+ 架構將傳統的嵌入式 PC 轉變為優化的工業和醫療 PC。低時延處理和高每瓦效能推理的結合可為關鍵任務實現高效能，包括將自適應運算與靈活的I/O、用於AI 推理的AI 引擎以及AMD Radeon 顯示卡即時整合到單一解決方案中，發揮每項技術的最大優勢。Embedded+ 架構作為一種可擴展的方法，可以透過AMD 的任何裝置組合進行更新，就在近期，AMD 推出了具有專用AI引擎的銳龍8000G 系列CPU 和第二代Versal AI Edge 系列，這些產品可以用於新一代基於Embedded+ 的主機板，以因應邊緣智慧不斷變化的需求。

KV Thanjavur Bhaaskar 特别提到:

AMD 在邊緣和雲端運算領域擁有廣泛的產品組合。AMD 不僅將 AI 功能添加到最新發布的相關裝置中，同時還將提高已有裝置的 AI 能力，考慮到功率效率與成本方面因素，預計這種趨勢將持續下去。

• AMD 嵌入式產業解決方案可為工業和商業應用打造高效能、高性價比的系統。

• 憑藉一系列靈活、可擴展的處理器，AMD 為客戶帶來更出色的運算效能、
先進安全性和各種連接選項。

• AMD 嵌入式產業解決方案可滿足遊戲、醫療、運輸、自動化等工業
和商業應用的嚴苛需求。

嵌入式環境中實現 AI 的分散式架構

在針對嵌入式環境中實現 AI 的分散式架構中，Yingyu Xia總結的關鍵是考慮嵌入式邊緣設備的限制性資源、功耗、即時要求和安全性等因素。考慮到每個 AI 參數需要 4 位元組（ 32 位元）的數據，部署原始大小的 32 位元浮點模型大多是不可行的。例如，如果有 1.7 兆個參數，嵌入式裝置上的儲存需求將達到 1.7 * 10^12 * 4 = 6.8 TB。因此，採用 BFLOAT16、FLOAT16、INT8 等新穎的資料格式以最小化所需的記憶體佔用是至關重要的。通常，量化器可以幫助將來自浮點 32 模型的資料精度降低到量化模型。此外，可以利用 AI 分析工具來識別導致最重要瓶頸的層，這有助於嵌入式 AI 工程師在邊緣優化其模型。而且，關鍵在於需要開發特定領域的模型以簡化模型複雜性，從而減少模型層數，使其更容易部署到嵌入式 AI 模型中。

作為一家可以同時提供x86、GPU、FPGA 和自適應SoC 技術的行業領導者，AMD 的嵌入式邊緣AI 技術聚焦在汽車、工業、智慧家庭和智慧城市以及網路與儲存等應用，幫助客戶快速建構面向物聯網閘道器、邊緣基礎設施、迷你電腦、瘦客戶端等智慧邊緣應用的經濟高效的產品和解决方案。

閱讀原文