环球电气之家-午夜精彩视频-中国专业电气电子产品行业服务网站!

產(chǎn)品分類

當(dāng)前位置: 首頁 > 工業(yè)電氣產(chǎn)品 > 高低壓電器 > 電加熱器 > 電阻加熱器

類型分類:
科普知識(shí)
數(shù)據(jù)分類:
電阻加熱器

解密AI芯片的加速原理

發(fā)布日期:2022-10-18 點(diǎn)擊率:68

AI 芯片的誕生

講到半導(dǎo)體,不得不從摩爾定律說起。從Intel創(chuàng)始人戈登·摩爾提出摩爾定律到現(xiàn)在已經(jīng)53年了。過去的53年中,半導(dǎo)體行業(yè)一直受著摩爾定律的指導(dǎo)。芯片越做越小,單位面積的晶體管越來越多,功耗越來越低,價(jià)格越來越便宜,也使得這個(gè)行業(yè)過去五十多年來一直保持不錯(cuò)的增長趨勢(shì)。網(wǎng)上對(duì)AI芯片的剖析實(shí)在太少,這里對(duì)一些論文和大佬的研究做一個(gè)總結(jié),希望對(duì)讀者有所幫助。

 

但是半導(dǎo)體行業(yè)風(fēng)險(xiǎn)高、投資大、回報(bào)相對(duì)來說又比較低的特點(diǎn)使風(fēng)投對(duì)半導(dǎo)體行業(yè)的投資在過去十來年一直不溫不火,甚至是持續(xù)下降的趨勢(shì)。尤其是現(xiàn)在到了后智能手機(jī)時(shí)代或者說后摩爾時(shí)代,半導(dǎo)體急需新的技術(shù)或者新的應(yīng)用場景來推動(dòng)其發(fā)展。那么新的技術(shù)和新的應(yīng)用場景是什么呢?

其實(shí)戈登·摩爾在五十三年前已經(jīng)說了“集成電路會(huì)帶來家用電腦或者至少是和中央電腦所連接的終端設(shè)備、自動(dòng)駕駛、個(gè)人便攜通訊設(shè)備等”。沒錯(cuò),智能手機(jī)后下一個(gè)推動(dòng)集成電路發(fā)展的新的應(yīng)用場景是自動(dòng)駕駛和物聯(lián)網(wǎng)。

除了新的應(yīng)用場景外,新的技術(shù)革命也必須為半導(dǎo)體發(fā)展提供動(dòng)力,新的技術(shù)革命是什么呢,沒錯(cuò),就是人工智能。人工智能的出現(xiàn)可以說讓所有行業(yè)眼前一亮,剛剛提到的無人駕駛,物聯(lián)網(wǎng)等等背后也都是因?yàn)?AI 的出現(xiàn)才帶來這樣巨大的,有前景的應(yīng)用。也就是說 AI 技術(shù)的變革才是集成電路新應(yīng)用場景落地的本質(zhì)所在。

我們知道上游芯片公司的發(fā)展一向是穩(wěn)中緩進(jìn),為什么說 AI 的發(fā)展會(huì)使芯片再次火熱起來?

我們可以把馮諾依曼架構(gòu)的五大組成部分分為三類,輸入輸出歸類于交互,控制和邏輯歸類于計(jì)算,存儲(chǔ)單獨(dú)列為一類,也就是交互、計(jì)算和存儲(chǔ)三部分。而傳統(tǒng)的計(jì)算力無法滿足深度學(xué)習(xí)大量數(shù)據(jù)的運(yùn)算,深度學(xué)習(xí)對(duì)這三方面都提出了非常多的創(chuàng)新要求,故新的計(jì)算架構(gòu)需要為 AI 算法提供支撐。

射頻, RF, AI

下面我們從以上三點(diǎn)闡述下目前比較主流的深度學(xué)習(xí)在芯片層面實(shí)現(xiàn)加速的方法。

AI 芯片的加速原理

乘加運(yùn)算硬件加速,脈沖陣列

射頻, RF, AI

脈動(dòng)陣列并不是一個(gè)新鮮的詞匯,在計(jì)算機(jī)體系架構(gòu)里面已經(jīng)存在很長時(shí)間。大家可以回憶下馮諾依曼架構(gòu),很多時(shí)候數(shù)據(jù)一定是存儲(chǔ)在memory里面的,當(dāng)要運(yùn)算的時(shí)候需要從memory里面?zhèn)鬏數(shù)紹uffer或者Cache里面去。當(dāng)我們使用computing的功能來運(yùn)算的時(shí)候,往往computing消耗的時(shí)間并不是瓶頸,更多的瓶頸在于memory的存和取。所以脈動(dòng)陣列的邏輯也很簡單,既然memory讀取一次需要消耗更多的時(shí)間,脈動(dòng)陣列盡力在一次memory讀取的過程中可以運(yùn)行更多的計(jì)算,來平衡存儲(chǔ)和計(jì)算之間的時(shí)間消耗。

下面說下脈沖陣列的基本原理:

首先,圖中上半部分是傳統(tǒng)的計(jì)算系統(tǒng)的模型。一個(gè)處理單元(PE)從存儲(chǔ)器(memory)讀取數(shù)據(jù),進(jìn)行處理,然后再寫回到存儲(chǔ)器。這個(gè)系統(tǒng)的最大問題是:數(shù)據(jù)存取的速度往往大大低于數(shù)據(jù)處理的速度。因此,整個(gè)系統(tǒng)的處理能力(MOPS,每秒完成的操作)很大程度受限于訪存的能力。這個(gè)問題也是多年來計(jì)算機(jī)體系結(jié)構(gòu)研究的重要課題之一,可以說是推動(dòng)處理器和存儲(chǔ)器設(shè)計(jì)的一大動(dòng)力。而脈動(dòng)架構(gòu)用了一個(gè)很簡單的方法:讓數(shù)據(jù)盡量在處理單元中多流動(dòng)一會(huì)兒。

正如上圖的下半部分所描述的,第一個(gè)數(shù)據(jù)首先進(jìn)入第一個(gè)PE,經(jīng)過處理以后被傳遞到下一個(gè)PE,同時(shí)第二個(gè)數(shù)據(jù)進(jìn)入第一個(gè)PE。以此類推,當(dāng)?shù)谝粋€(gè)數(shù)據(jù)到達(dá)最后一個(gè)PE,它已經(jīng)被處理了多次。所以,脈動(dòng)架構(gòu)實(shí)際上是多次重用了輸入數(shù)據(jù)。因此,它可以在消耗較小的memory帶寬的情況下實(shí)現(xiàn)較高的運(yùn)算吞吐率。

上面這張圖非常直觀的從一維數(shù)據(jù)流展示了脈動(dòng)陣列的簡單邏輯。當(dāng)然,對(duì)于CNN等神經(jīng)網(wǎng)絡(luò)來說,很多時(shí)候是二維的矩陣。所以,脈動(dòng)陣列從一維到二維也能夠非常契合CNN的矩陣乘加的架構(gòu)。

優(yōu)化 Memory 讀取

射頻, RF, AI

還可以從體系架構(gòu)上對(duì)整個(gè)的Memory讀取來做進(jìn)一步的優(yōu)化。這里摘取的是寒武紀(jì)展示的一些科研成果。其實(shí)比較主流的方式就是盡量做Data Reuse,減少片上Memory和片外Memory的信息讀取次數(shù),增加片上memory,因?yàn)槠蠑?shù)據(jù)讀取會(huì)更快一點(diǎn),這種方式也能夠盡量降低Memory讀取所消耗的時(shí)間,從而達(dá)到運(yùn)算的加速。

射頻, RF, AI

對(duì)于神經(jīng)網(wǎng)絡(luò)來說,其實(shí)很多的連接并不是一定要存在的,也就是說我去掉一些連接,可能壓縮后的網(wǎng)絡(luò)精度相比壓縮之前并沒有太大的變化。基于這樣的理念,很多剪枝的方案也被提了出來,也確實(shí)從壓縮的角度帶來了很大效果提升。

需要特別提出的是,大家從圖中可以看到,深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)包括卷積層和全連接層兩大塊,剪枝對(duì)全連接層的壓縮效率是最大的。下面柱狀圖的藍(lán)色部分就是壓縮之后的系數(shù)占比,從中可以看到剪枝對(duì)全連接層的壓縮是最大的,而對(duì)卷積層的壓縮效果相比全連接層則差了很多。

所以這也是為什么,在語音的加速上很容易用到剪枝的一些方案,但是在機(jī)器視覺等需要大量卷積層的應(yīng)用中剪枝效果并不理想。

權(quán)重系數(shù)壓縮

射頻, RF, AI

對(duì)于整個(gè)Deep Learning網(wǎng)絡(luò)來說,每個(gè)權(quán)重系數(shù)是不是一定要浮點(diǎn)的,定點(diǎn)是否就能滿足?定點(diǎn)是不是一定要32位的?很多人提出8位甚至1位的定點(diǎn)系數(shù)也能達(dá)到很不錯(cuò)的效果,這樣的話從系數(shù)壓縮來看就會(huì)有非常大的效果。從下面三張人臉識(shí)別的紅點(diǎn)和綠點(diǎn)的對(duì)比,就可以看到其實(shí)8位定點(diǎn)系數(shù)在很多情況下已經(jīng)非常適用了,和32位定點(diǎn)系數(shù)相比并沒有太大的變化。所以,從這個(gè)角度來說,權(quán)重系數(shù)的壓縮也會(huì)帶來網(wǎng)絡(luò)模型的壓縮,從而帶來計(jì)算的加速。

當(dāng)然,一個(gè)不能回避的問題是計(jì)算和存儲(chǔ)之間的存儲(chǔ)墻到現(xiàn)在為止依然存在,仍然有大量的時(shí)間消耗在和存儲(chǔ)相關(guān)的操作上。

一個(gè)很簡單直觀的技術(shù)解決方式,就是堆疊更多更快速更高效的存儲(chǔ),HBM孕育而生,也即在運(yùn)算芯片的周圍堆疊出大量的3D Memory,通過通孔來連接,不需要與片外的接口進(jìn)行交互,從而大大降低存儲(chǔ)墻的限制。

更有甚者提出說,存儲(chǔ)一定要和計(jì)算分離嗎,存儲(chǔ)和運(yùn)算是不是可以融合在一起,PIM(Processing in Memory)的概念應(yīng)運(yùn)而生。

射頻, RF, AI

除了前面說到存儲(chǔ)內(nèi)置,以及存儲(chǔ)與運(yùn)算的融合,有沒有一個(gè)更快的接口能夠加速和片外Memory的交互也是一個(gè)很好的方向。其實(shí)上面這個(gè)概念是NVIDIA提出來的interface(接口),叫做NVLink。下面的表展示的是NVLink和PCIe Gen3的對(duì)比。大家平時(shí)看到跟存儲(chǔ)相關(guān)的的PCIe卡可能是PCIe Gen3 by 4,只有4個(gè)lanes和Memory對(duì)接,但是NVLink與有16個(gè)PCIe的lanes的PCIe Gen3對(duì)比,速度也有很大的提升,可以看到NVLink在速度層面是一個(gè)非常好的interface。

上面講了一些比較經(jīng)典的加速方法。下面分享幾個(gè)已經(jīng)存在的AI加速芯片的例子,相信這樣會(huì)更加直觀。

AI 芯片實(shí)例

射頻, RF, AI

這是Google的TPU。從上邊的芯片框圖可以看到,有一個(gè)64K的乘加MAC陣列對(duì)乘加運(yùn)算進(jìn)行加速。從論文中可以看到里面已經(jīng)用到了脈動(dòng)陣列的架構(gòu)方法來對(duì)運(yùn)算進(jìn)行加速,另外也有我們前面提到的大量的片上Memory 這樣的路徑。上面藍(lán)色框圖中大家可以看到有一個(gè)24MiB的片上Memory,而且有兩個(gè)高速DDR3接口能夠與片外的DDR做交互。

TPUv2

射頻, RF, AI

上圖展示的第二代TPU。從圖中可以很直觀的看到,它用到了我們前面所說到的HBM Memory。從其論文披露的信息也可以看到,二代TPU在第一代的基礎(chǔ)上增加了我們前面說到的剪枝,權(quán)重壓縮等方面做了很多嘗試,也是一個(gè)非常經(jīng)典的云端AI加速芯片的例子。

接下來跟大家分享幾個(gè)終端做Inference的例子。

Rokid

射頻, RF, AI

這一個(gè)是Rokid和杭州國芯共同打造的一顆針對(duì)智能音箱的SoC,AI加速只是里面的一個(gè)功能。通過上面右邊的框圖可以看到里面集成了Cadence的DSP,還有自己設(shè)計(jì)的語音加速硬件IP——NPU。這款芯片還集成了一些實(shí)現(xiàn)智能音箱必要的interface,最值得一提的是在SiP層面封裝了Embedded DRAM,可以更好的在系統(tǒng)層面實(shí)現(xiàn)數(shù)據(jù)的交互,實(shí)現(xiàn)存儲(chǔ)和運(yùn)算的加速,也實(shí)現(xiàn)了AI加速的功能。

HiSilicon Hi3559A

射頻, RF, AI

這是一款華為海思最新的IP Camera芯片——3559A,從集成度以及整個(gè)設(shè)計(jì)的均衡性來說,都令人眼前一亮。可以看下右上角幾個(gè)藍(lán)色的標(biāo)準(zhǔn)模塊,里面集成的是海思自主研發(fā)的做推理的IP——NNIE,同時(shí)還集成了Tensilica DSP,在靈活性和擴(kuò)展度上做了一個(gè)非常好的補(bǔ)充。

下一篇: PLC、DCS、FCS三大控

上一篇: 射頻電路的電源設(shè)計(jì)要

推薦產(chǎn)品

更多
主站蜘蛛池模板: 塑料脸盆批发,塑料盆生产厂家,临沂塑料广告盆,临沂家用塑料盆-临沂市永顺塑业 | 润东方环保空调,冷风机,厂房车间降温设备-20年深圳环保空调生产厂家 | 压力变送器-上海武锐自动化设备有限公司| 快速卷帘门_硬质快速卷帘门-西朗门业 | 安平县鑫川金属丝网制品有限公司,声屏障,高速声屏障,百叶孔声屏障,大弧形声屏障,凹凸穿孔声屏障,铁路声屏障,顶部弧形声屏障,玻璃钢吸音板 | 飞利浦LED体育场灯具-吸顶式油站灯-飞利浦LED罩棚灯-佛山嘉耀照明有限公司 | 工业风机_环保空调_冷风机_工厂车间厂房通风降温设备旺成服务平台 | 布袋除尘器-单机除尘器-脉冲除尘器-泊头市兴天环保设备有限公司 布袋除尘器|除尘器设备|除尘布袋|除尘设备_诺和环保设备 | 潜水搅拌机-双曲面搅拌机-潜水推进器|奥伯尔环保 | 岩石钻裂机-液压凿岩机-劈裂机-挖改钻_湖南烈岩科技有限公司 | 棕刚玉-白刚玉厂家价格_巩义市东翔净水材料厂 | 照相馆预约系统,微信公众号摄影门店系统,影楼管理软件-盟百网络 | 外贮压-柜式-悬挂式-七氟丙烷-灭火器-灭火系统-药剂-价格-厂家-IG541-混合气体-贮压-非贮压-超细干粉-自动-灭火装置-气体灭火设备-探火管灭火厂家-东莞汇建消防科技有限公司 | 耐腐蚀泵,耐腐蚀真空泵,玻璃钢真空泵-淄博华舜耐腐蚀真空泵有限公司 | 液氮罐_液氮容器_自增压液氮罐-北京君方科仪科技发展有限公司 | 压缩空气冷冻式干燥机_吸附式干燥机_吸干机_沪盛冷干机 | 精密交叉滚子轴承厂家,转盘轴承,YRT转台轴承-洛阳千协轴承 | 山东集装箱活动房|济南集装箱活动房-济南利森集装箱有限公司 | 耐破强度测试仪-纸箱破裂强度试验机-济南三泉中石单品站 | 四川成都干燥设备_回转筒干燥机_脉冲除尘器_输送设备_热风炉_成都川工星科机电设备有限公司 | 自动化展_机器人展_机床展_工业互联网展_广东佛山工博会 | 工业硝酸钠,硝酸钠厂家-淄博「文海工贸」 | CE认证_FCC认证_CCC认证_MFI认证_UN38.3认证-微测检测 CNAS实验室 | 12cr1mov无缝钢管切割-15crmog无缝钢管切割-40cr无缝钢管切割-42crmo无缝钢管切割-Q345B无缝钢管切割-45#无缝钢管切割 - 聊城宽达钢管有限公司 | 欧景装饰设计工程有限公司-无锡欧景装饰官网 | 分子蒸馏设备(短程分子蒸馏装置)_上海达丰仪器 | 加盟店-品牌招商加盟-创业项目商机平台| 医学动画公司-制作3d医学动画视频-医疗医学演示动画制作-医学三维动画制作公司 | 杭州中央空调维修_冷却塔/新风机柜/热水器/锅炉除垢清洗_除垢剂_风机盘管_冷凝器清洗-杭州亿诺能源有限公司 | 玻纤土工格栅_钢塑格栅_PP焊接_单双向塑料土工格栅_复合防裂布厂家_山东大庚工程材料科技有限公司 | 平面钻,法兰钻,三维钻-山东兴田阳光智能装备股份有限公司 | GEDORE扭力螺丝刀-GORDON防静电刷-CHEMTRONICS吸锡线-上海卓君电子有限公司 | 伟秀电气有限公司-10kv高低压开关柜-高低压配电柜-中置柜-充气柜-欧式箱变-高压真空断路器厂家 | 纸箱抗压机,拉力机,脂肪测定仪,定氮仪-山东德瑞克仪器有限公司 | 游戏版号转让_游戏资质出售_游戏公司转让-【八九买卖网】 | 不锈钢轴流风机,不锈钢电机-许昌光维防爆电机有限公司(原许昌光维特种电机技术有限公司) | 大数据营销公司_舆情监测软件_上海SEO公司-文军营销官网 | 北京软件开发_软件开发公司_北京软件公司-北京宜天信达软件开发公司 | 空调风机,低噪声离心式通风机,不锈钢防爆风机,前倾皮带传动风机,后倾空调风机-山东捷风风机有限公司 | 论文查重_免费论文查重_知网学术不端论文查重检测系统入口_论文查重软件 | 一体化净水器_一体化净水设备_一体化水处理设备-江苏旭浩鑫环保科技有限公司 |