當(dāng)前位置：時(shí)代焦點(diǎn)網(wǎng) -> 財(cái)經(jīng)

采用英特爾全新的性能核微架構(gòu)功耗降低80%

發(fā)布時(shí)間：2021-08-20 18:34 來(lái)源：IT之家閱讀量：18973

IT之家2021年8月19日在英特爾架構(gòu)日，英特爾公司高級(jí)副總裁，加速計(jì)算系統(tǒng)與圖形事業(yè)部總經(jīng)理Raja Koduri和幾位英特爾架構(gòu)師介紹了兩款全新x86內(nèi)核架構(gòu)的細(xì)節(jié)。

英特爾首款性能混合架構(gòu)，代號(hào)Alder Lake，智能英特爾硬件線(xiàn)程調(diào)度器，藍(lán)寶石急流，專(zhuān)為數(shù)據(jù)中心設(shè)計(jì)的下一代英特爾至強(qiáng)可擴(kuò)展處理器，基礎(chǔ)設(shè)施處理器，即將推出的顯卡架構(gòu)包括XeHPG微架構(gòu)和XeHPC微架構(gòu)，Alchemist SoC和Ponte Vecchio SoC。

X86內(nèi)核

能效核心

全新英特爾能效核心微體系結(jié)構(gòu)，以前代號(hào)為格雷斯蒙特。高能效內(nèi)核可以利用各種技術(shù)進(jìn)步，在不消耗處理器功率的情況下確定工作負(fù)載的優(yōu)先級(jí)，并通過(guò)每周期指令數(shù)改進(jìn)功能直接提高性能，包括:

具有5000個(gè)條目的分支目標(biāo)緩沖區(qū)支持更精確的分支預(yù)測(cè)

64KB指令高速緩存，在不消耗內(nèi)存子系統(tǒng)功率的情況下保存可用指令

英特爾首款按需指令長(zhǎng)度解碼器可以生成預(yù)解碼信息

英特爾的集群無(wú)序執(zhí)行解碼器在保持能效的同時(shí)，每個(gè)周期最多可解碼6條指令

寬后端有五組五寬分配和八組寬度撤回，256個(gè)無(wú)序窗口條目和17個(gè)執(zhí)行端口

支持英特爾控制流執(zhí)行技術(shù)和英特爾虛擬化技術(shù)重定向保護(hù)等功能

實(shí)現(xiàn)了支持整數(shù)人工智能運(yùn)算的AVX指令集和新擴(kuò)展

與英特爾最具生產(chǎn)力的CPU核心Skylake相比，在單線(xiàn)程性能下，高能效核心可以在相同功耗下實(shí)現(xiàn)40%的性能提升，或者以不到40%的功耗提供相同的性能與兩個(gè)運(yùn)行四個(gè)線(xiàn)程的Skylake內(nèi)核相比，四個(gè)高能效內(nèi)核提供的吞吐性能可以以更低的功耗同時(shí)提升80%的性能，在提供相同吞吐性能的情況下，功耗降低80%

性能核心

英特爾新的性能核心微體系結(jié)構(gòu)，曾被代號(hào)為黃金灣。性能核心具有更廣泛，更深入和更智能的體系結(jié)構(gòu):

更寬:解碼器從4增加到6，6Op緩存增加到8

更深:更大的物理寄存器文件，512個(gè)條目的重新排序緩沖區(qū)

更智能:提高分支預(yù)測(cè)的準(zhǔn)確性，降低有效一級(jí)延遲，優(yōu)化二級(jí)全寫(xiě)預(yù)測(cè)帶寬

性能核心是英特爾有史以來(lái)構(gòu)建的最高性能CPU核心，它通過(guò)以下功能突破了低延遲和單線(xiàn)程應(yīng)用性能的限制:

與當(dāng)前的第11代英特爾酷睿處理器架構(gòu)相比，在通用性能的ISO頻率下，它在各種工作負(fù)載下實(shí)現(xiàn)了約19%的平均改進(jìn)

顯示更高的并行度和執(zhí)行并行度的增加

配備英特爾高級(jí)矩形擴(kuò)展，內(nèi)置下一代AI加速技術(shù)，用于學(xué)習(xí)推理和訓(xùn)練。AMX包括專(zhuān)用硬件和新的指令集架構(gòu)，以顯著改善矩陣乘法

減少時(shí)間延遲，并為具有大數(shù)據(jù)和大代碼量的應(yīng)用程序提供更好的支持

客戶(hù)

阿爾德湖客戶(hù)端SoC

英特爾下一代客戶(hù)端架構(gòu)代號(hào)為Alder Lake，是英特爾首款性能混合架構(gòu)，首次集成了性能核心和能效核心兩種核心類(lèi)型阿爾德湖基于英特爾7進(jìn)程技術(shù)，支持最新內(nèi)存和最快I/O

阿爾德湖支持所有客戶(hù)端設(shè)備，從超便攜筆記本到發(fā)燒友再到商用臺(tái)式機(jī)。它采用單一且高度可擴(kuò)展的SoC架構(gòu)，并提供三種類(lèi)型的產(chǎn)品設(shè)計(jì)形式:

高性能，雙芯片，插座式臺(tái)式機(jī)處理器，具有領(lǐng)先的性能和能效支持高規(guī)格內(nèi)存和I/O

高性能筆記本處理器，BGA封裝，并增加影像單元，更大的Xe顯卡和Thunderbolt 4連接

輕薄低功耗筆記本處理器，采用高密度封裝，優(yōu)化了輸入/輸出和功率傳輸

英特爾需要在不影響功耗的情況下滿(mǎn)足計(jì)算和運(yùn)算的要求

I/O 代理對(duì)帶寬的需求為了解決這一挑戰(zhàn)，英特爾設(shè)計(jì)了三種獨(dú)立的內(nèi)部總線(xiàn)，每一種都采用基于需求的實(shí)時(shí)啟發(fā)式后處理方式

。計(jì)算內(nèi)部總線(xiàn)可支持高達(dá) 1000GBps—— 即每個(gè)內(nèi)核或每集群 100GBps，通過(guò)最后一級(jí)緩存將內(nèi)核和顯卡連接到內(nèi)存

具有高動(dòng)態(tài)頻率范圍，并且能夠動(dòng)態(tài)選擇數(shù)據(jù)路徑，根據(jù)實(shí)際總線(xiàn)結(jié)構(gòu)負(fù)載而進(jìn)行時(shí)延和帶寬優(yōu)化
根據(jù)利用率動(dòng)態(tài)調(diào)整最后一級(jí)緩存策略 —— 也就是包含或不包含

。I/O 內(nèi)部總線(xiàn)支持可高達(dá) 64GBps，連接不同類(lèi)型的 I/O 和內(nèi)部設(shè)備，能在不干擾設(shè)備正常運(yùn)行的情況下無(wú)縫改變速度，選擇內(nèi)部總線(xiàn)速度來(lái)匹配所需的數(shù)據(jù)傳輸量

。內(nèi)存結(jié)構(gòu)可提供高達(dá) 204GBps 的數(shù)據(jù)，并動(dòng)態(tài)擴(kuò)展其總線(xiàn)寬度和速度，以支持高帶寬，低時(shí)延或低功耗的多個(gè)操作點(diǎn)

英特爾硬件線(xiàn)程調(diào)度器

為使性能核和能效核與操作系統(tǒng)無(wú)縫協(xié)作，英特爾開(kāi)發(fā)了一種改進(jìn)的調(diào)度技術(shù)，稱(chēng)之為英特爾硬件線(xiàn)程調(diào)度器硬件線(xiàn)程調(diào)度器直接內(nèi)置于硬件中，可提供對(duì)內(nèi)核狀態(tài)和線(xiàn)程指令混合比的低級(jí)遙測(cè)，讓操作系統(tǒng)能夠在恰當(dāng)?shù)臅r(shí)間將合適的線(xiàn)程放置在合適的內(nèi)核上硬件線(xiàn)程調(diào)度器具有動(dòng)態(tài)性和自適應(yīng)性 —— 它會(huì)根據(jù)實(shí)時(shí)的計(jì)算需求調(diào)整調(diào)度決策 —— 而非一種簡(jiǎn)單的，基于規(guī)則的靜態(tài)方法

傳統(tǒng)意義上，操作系統(tǒng)會(huì)根據(jù)有限的可用數(shù)據(jù)做出決策，如前臺(tái)和后臺(tái)任務(wù)。硬件線(xiàn)程調(diào)度器可通過(guò)以下方式增加新維度:

使用硬件遙測(cè)工具將需要更高性能的線(xiàn)程引導(dǎo)到當(dāng)時(shí)適合的性能核上
更精細(xì)地監(jiān)控指令組合，每?jī)?nèi)核當(dāng)前狀態(tài)以及相關(guān)的微架構(gòu)遙測(cè)，從而幫助操作系統(tǒng)做出更智能的調(diào)度決策
通過(guò)與微軟合作，優(yōu)化英特爾硬件線(xiàn)程調(diào)度器在 Windows11 上的性能
擴(kuò)展 PowerThrottling API，使得開(kāi)發(fā)人員能夠?yàn)槠渚€(xiàn)程明確指定服務(wù)質(zhì)量屬性
應(yīng)用全新 EcoQoS 分類(lèi)，該分類(lèi)可讓調(diào)度程序獲悉線(xiàn)程是否更傾向于能效

XeHPG 微架構(gòu)和 Alchemist SoC

XeHPG 是一款全新的獨(dú)立顯卡微架構(gòu)XeHPG 微架構(gòu)為 Alchemist 系列 SoC 提供動(dòng)力，首批相關(guān)產(chǎn)品將于 2022 年第一季度上市，并采用新的品牌名 —— 英特爾銳炫XeHPG 微架構(gòu)采用全新的 Xe 內(nèi)核，是一款聚焦計(jì)算，可編程且可擴(kuò)展的元件

客戶(hù)端顯卡路線(xiàn)圖包括 Alchemist，Battlemage，Celestial 和 Druid SoC在演講中，英特爾展示了微架構(gòu)細(xì)節(jié)，并分享了在試產(chǎn)階段的 Alchemist SoC 上運(yùn)行的演示視頻，包括真實(shí)游戲展示，虛幻引擎 5 測(cè)試良好，全新的基于神經(jīng)網(wǎng)絡(luò)的超取樣技術(shù) XeSS 等

基于 XeHPG 微架構(gòu)的 Alchemist SoC 能夠提供可擴(kuò)展性和計(jì)算效率，并擁有以下關(guān)鍵架構(gòu)特征:

多達(dá) 8 個(gè)具有固定功能的渲染切片，專(zhuān)為 DirectX 12 Ultimate 設(shè)計(jì)
全新 Xe 內(nèi)核，擁有 16 個(gè)矢量引擎和 16 個(gè)矩陣引擎，高速緩存和共享內(nèi)部顯存
支持 DirectX Raytracing和 Vulkan Ray Tracing 的新光線(xiàn)追蹤單元
通過(guò)架構(gòu)，邏輯設(shè)計(jì)，電路設(shè)計(jì)，制程工藝技術(shù)和軟件優(yōu)化，相比 XeLP 微架構(gòu)實(shí)現(xiàn) 1.5 倍的頻率提升和 1.5 倍的每瓦性能提升
使用臺(tái)積電的 N6 制程節(jié)點(diǎn)上進(jìn)行制造

XeSS

XeSS 利用 Alchemist 的內(nèi)置 XMX AI 加速，帶來(lái)了一種可實(shí)現(xiàn)高性能和高保真視覺(jué)的全新升頻技術(shù)其使用深度學(xué)習(xí)來(lái)合成接近原生高分辨率渲染質(zhì)量的圖像英特爾表示，憑借 XeSS ，那些只能在低畫(huà)質(zhì)設(shè)置或低分辨率下玩的游戲也能在更高畫(huà)質(zhì)設(shè)置和分辨率下順利運(yùn)行

XeSS 的工作原理是通過(guò)從相鄰像素，以及對(duì)前一幀進(jìn)行運(yùn)動(dòng)補(bǔ)償，來(lái)重建子像素細(xì)節(jié)
重構(gòu)由經(jīng)過(guò)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)執(zhí)行，可提供高性能和高畫(huà)質(zhì)，同時(shí)性能提升高達(dá)兩倍
XeSS 憑借 DP4a 指令，在包括集成顯卡在內(nèi)的各種硬件上提供基于 AI 的超級(jí)采樣
多家早期的游戲開(kāi)發(fā)商已開(kāi)始使用 XeSS，本月將向獨(dú)立軟件供應(yīng)商提供 XMX 初始版本的 SDK，DP4a 版本將于今年晚些時(shí)候推出

數(shù)據(jù)中心

下一代英特爾至強(qiáng)可擴(kuò)展處理器

Sapphire Rapids 的核心是一個(gè)分區(qū)塊，模塊化的 SoC 架構(gòu)，采用英特爾的嵌入式多芯片互連橋接封裝技術(shù)，在保持單晶片 CPU 接口優(yōu)勢(shì)的同時(shí)，具有顯著的可擴(kuò)展性Sapphire Rapids 提供了一個(gè)單一，平衡的統(tǒng)一內(nèi)存訪(fǎng)問(wèn)架構(gòu)，每個(gè)線(xiàn)程均可完全訪(fǎng)問(wèn)緩存，內(nèi)存和 I/O 等所有單元上的全部資源，由此實(shí)現(xiàn)整個(gè) SoC 具有一致的低時(shí)延和高橫向帶寬

Sapphire Rapids 基于 Intel 7 制程工藝技術(shù)，采用英特爾全新的性能核微架構(gòu)。

Sapphire Rapids 提供數(shù)據(jù)中心相關(guān)加速器，包括新的指令集架構(gòu)和集成 IP，以在各種客戶(hù)工作負(fù)載和使用中提升性能。新的內(nèi)置加速器引擎包括:

英特爾加速器接口架構(gòu)指令集—— 支持對(duì)加速器和設(shè)備的有效調(diào)度，同步和信號(hào)傳遞
英特爾高級(jí)矩陣擴(kuò)展——Sapphire Rapids 中引入的新加速引擎，可為深度學(xué)習(xí)算法核心的 Tensor 處理提供大幅加速其可以在每個(gè)周期內(nèi)進(jìn)行 2000 次 INT8 運(yùn)算和 1000 次 BFP16 運(yùn)算，實(shí)現(xiàn)計(jì)算能力的大幅提升
英特爾數(shù)據(jù)流加速器—— 旨在卸載最常見(jiàn)的數(shù)據(jù)移動(dòng)任務(wù)，這些任務(wù)會(huì)導(dǎo)致數(shù)據(jù)中心規(guī)模部署中的開(kāi)銷(xiāo)。英特爾 DSA 改進(jìn)了對(duì)這些開(kāi)銷(xiāo)任務(wù)的處理，以提供更高的整體工作負(fù)載性能，并可以在 CPU，內(nèi)存和緩存以及所有附加的內(nèi)存，存儲(chǔ)和網(wǎng)絡(luò)設(shè)備之間移動(dòng)數(shù)據(jù)

基礎(chǔ)設(shè)施處理器

IPU 是一種可編程的網(wǎng)絡(luò)設(shè)備，旨在使云和通信服務(wù)提供商減少在中央處理器方面的開(kāi)銷(xiāo)英特爾推出了以下 IPU 家族的新成員

Mount Evans 是英特爾的首個(gè) ASIC IPUMount Evans 是與一家云服務(wù)提供商共同設(shè)計(jì)和開(kāi)發(fā)的

超大規(guī)模就緒，提供高性能網(wǎng)絡(luò)和存儲(chǔ)虛擬化卸載，同時(shí)保持高度控制
提供業(yè)界一流的可編程數(shù)據(jù)包處理引擎，支持防火墻和虛擬路由等用例
使用硬件加速的 NVMe 存儲(chǔ)接口，該接口擴(kuò)展自英特爾傲騰技術(shù)，以模擬 NVMe 設(shè)備
采用英特爾高性能 Quick Assist 技術(shù)，部署高級(jí)加密和壓縮加速
可使用現(xiàn)有普遍部署的 DPDK，SPDK 等軟件環(huán)境進(jìn)行編程，并且可以采用英特爾 Barefoot Switch 部門(mén)開(kāi)創(chuàng)的 P4 編程語(yǔ)言來(lái)配置管線(xiàn)

Oak Springs Canyon 是一個(gè) IPU 參考平臺(tái)，基于英特爾至強(qiáng) D 處理器和英特爾 Agilex FPGA 構(gòu)建:

卸載 Open Virtual Switch等網(wǎng)絡(luò)虛擬化功能以及 NVMe over Fabric 和 RoCE v2 等存儲(chǔ)功能，并提供硬化的加密模塊，提供 2x 100Gb 以太網(wǎng)網(wǎng)絡(luò)接口
能夠使用英特爾開(kāi)放式 FPGA 開(kāi)發(fā)堆棧定制其解決方案
使用現(xiàn)有普遍部署的軟件環(huán)境進(jìn)行編程，包括已在 x86 上優(yōu)化的 DPDK 和 SPDK

IT之家了解到，英特爾 N6000 加速開(kāi)發(fā)平臺(tái)，代號(hào)為Arrow Creek，是專(zhuān)為搭載至強(qiáng)服務(wù)器設(shè)計(jì)的 SmartNIC。其特性包括:

英特爾 Agilex FPGA。用于高性能的 100GB 網(wǎng)絡(luò)加速的英特爾以太網(wǎng) 800 系列控制器
支持多種基礎(chǔ)設(shè)施工作負(fù)載，使通信服務(wù)提供商能夠提供靈活的加速工作負(fù)載，如 Juniper Contrail，OVS 和 SRv6，它以英特爾 PAC—N3000 的成功為基礎(chǔ)

XeHPC 和 Ponte Vecchio

Ponte Vecchio 基于 XeHPC 微架構(gòu)英特爾公布了 XeHPC 微架構(gòu)的 IP 模塊信息，包括每個(gè) Xe 核的 8 個(gè)矢量和矩陣引擎，切片和堆棧信息，以及包括計(jì)算，基礎(chǔ)和 XeLink 單元的處理節(jié)點(diǎn)的單元信息在架構(gòu)日上，英特爾表示，早期的 Ponte Vecchio 芯片展示了領(lǐng)先的性能，在流行的 AI 基準(zhǔn)測(cè)試中創(chuàng)造了推理和訓(xùn)練吞吐量的行業(yè)記錄英特爾 A0 芯片性能提供了高于 45 TFLOPS 的 FP32 吞吐量，高于 5 TBps 的內(nèi)存結(jié)構(gòu)帶寬，以及高于 2 TBps 的連接帶寬同時(shí)，英特爾分享了一段演示視頻，展示了 ResNet 推理性能超過(guò) 43，000 張圖像/秒和超過(guò)每秒 3400 張圖像/秒的 ResNet 訓(xùn)練

Ponte Vecchio 由多個(gè)復(fù)雜的設(shè)計(jì)組成，這些設(shè)計(jì)以單元形式呈現(xiàn)，然后通過(guò)嵌入式多芯片互連橋接單元進(jìn)行組裝，實(shí)現(xiàn)單元之間的低功耗，高速連接這些設(shè)計(jì)均被集成于 Foveros 封裝中，為提高功率和互連密度形成有源芯片的 3D 堆疊高速 MDFI 互連允許 1 到 2 個(gè)堆棧的擴(kuò)展

計(jì)算單元是一個(gè)密集的多個(gè) Xe 內(nèi)核，是 Ponte Vecchio 的核心。

一塊單元有 8 個(gè) Xe 內(nèi)核，總共有 4MB 一級(jí)緩存，是提供高效計(jì)算的關(guān)鍵
基于臺(tái)積電先進(jìn)的 N5 制程工藝技術(shù)
英特爾已通過(guò)設(shè)計(jì)基礎(chǔ)設(shè)施設(shè)置和工具流程以及方法，為測(cè)試和驗(yàn)證該節(jié)點(diǎn)的單元鋪平了道路
該單元具有極其緊湊的 36 微米凸點(diǎn)間距，可與 Foveros 進(jìn)行 3D 堆疊

基礎(chǔ)單元是 Ponte Vecchio 的連接組織它是基于 Intel 7 制程工藝的大型芯片，針對(duì) Foveros 技術(shù)進(jìn)行了優(yōu)化

基礎(chǔ)單元是所有復(fù)雜的 I/O 和高帶寬組件與 SoC 基礎(chǔ)設(shè)施 ——PCIe Gen5，HBM2e 內(nèi)存，連接不同單元 MDFI 鏈路和 EMIB 橋接
采用高 2D 互連的超高帶寬 3D 連接時(shí)延很低，使其成為一臺(tái)無(wú)限連接的機(jī)器
英特爾技術(shù)開(kāi)發(fā)團(tuán)隊(duì)致力于滿(mǎn)足帶寬，凸點(diǎn)間距和信號(hào)完整性方面的要求
Xe 鏈路單元提供了 GPU 之間的連接，支持每單元 8 個(gè)鏈路。
對(duì) HPC 和 AI 計(jì)算的擴(kuò)展至關(guān)重要
旨在實(shí)現(xiàn)支持高達(dá) 90G 的更高速 SerDes
該單元已被添加到極光百億億次級(jí)超級(jí)計(jì)算機(jī)的擴(kuò)展解決方案中

Ponte Vecchio 已走下生產(chǎn)線(xiàn)進(jìn)行上電驗(yàn)證，并已開(kāi)始向客戶(hù)提供限量樣品Ponte Vecchio 預(yù)計(jì)將于 2022 年面向 HPC 和 AI 市場(chǎng)發(fā)布

oneAPI

目前，NVIDIA GPU，AMD GPU 和 Arm CPU 均有 Data Parallel C++和 oneAPI 庫(kù)同時(shí)，英特爾還提供了商業(yè)產(chǎn)品，包括基本的 oneAPI 基礎(chǔ)工具包，它在規(guī)范語(yǔ)言和庫(kù)之外增加了編譯器，分析器，調(diào)試器和移植工具

英特爾的 oneAPI 工具包擁有超過(guò) 20 萬(wàn)次單獨(dú)安裝
市場(chǎng)上部署的 300 多個(gè)應(yīng)用程序采用了 oneAPI 的統(tǒng)一編程模型
超過(guò) 80 個(gè) HPC 和 AI 應(yīng)用程序使用英特爾 oneAPI 工具包在 Xe HPC 微架構(gòu)上運(yùn)行
5 月份發(fā)布的 1.1 版臨時(shí)規(guī)范為深度學(xué)習(xí)工作負(fù)載和高級(jí)光線(xiàn)追蹤庫(kù)添加了新的圖形接口，預(yù)計(jì)將在年底完成

聲明：本網(wǎng)轉(zhuǎn)發(fā)此文章，旨在為讀者提供更多信息資訊，所涉內(nèi)容不構(gòu)成投資、消費(fèi)建議。文章事實(shí)如有疑問(wèn)，請(qǐng)與有關(guān)方核實(shí)，文章觀點(diǎn)非本網(wǎng)觀點(diǎn)，僅供讀者參考。

天堂中文最新版,果冻传媒在线观看视频,AA区一区二区三无码精片,欧美折磨另类系列sm

采用英特爾全新的性能核微架構(gòu)功耗降低80%

最新文章

熱門(mén)文章