新聞中心
2023/11/30
多年來,半導(dǎo)體行業(yè)似乎已經(jīng)達(dá)到了一種穩(wěn)定的平衡:英特爾在服務(wù)器領(lǐng)域幾乎擊敗了所有的RISC處理器,同時AMD也逐漸陷入低迷,使得英特爾的x86成為了主導(dǎo)者。而在GPU領(lǐng)域起步較晚的英偉達(dá),在上世紀(jì)90年代就已經(jīng)淘汰了大多數(shù)競爭對手。而突然之間,就只剩ATI(現(xiàn)已被AMD收購)仍然在市場上存在。它只占英偉達(dá)之前市場份額的一半。
在較新的移動領(lǐng)域,似乎也是類似的壟斷故事:ARM統(tǒng)治著市場,英特爾曾用Atom處理器嘗試與之競爭,但在遭遇多次失敗后,在2015年最終選擇了放棄。就這樣,一切都與以往不同了,AMD重新成為了x86的競爭對手;針對大數(shù)據(jù)等專門任務(wù)的現(xiàn)場可編程門陣列(FPGA)的出現(xiàn)創(chuàng)造了一個新的利基市場。但實際上,隨著人工智能(AI)和機(jī)器學(xué)習(xí)(ML)的出現(xiàn),芯片世界的巨大轉(zhuǎn)變也隨之而來。隨著這些新興技術(shù)的出現(xiàn),大量的新處理器已經(jīng)到來。并且,它們都來自于不太可能的來源。
英特爾在2016年收購了初創(chuàng)公司Nervana Systems,進(jìn)入了AI芯片市場,隨后它又收購了另一家公司Movidius,目的是開發(fā)圖像處理AI;
微軟正在為其HoloLens VR/AR頭戴設(shè)備開發(fā)人工智能芯片,而且有可能在其它設(shè)備中使用;
谷歌針對神經(jīng)網(wǎng)絡(luò)開發(fā)了一種特殊的人工智能芯片——“張量處理單元(TPU)”,該處理器可用于谷歌云平臺上的人工智能應(yīng)用;
亞馬遜正在為其Alexa家庭助理開發(fā)人工智能芯片;
蘋果正在研發(fā)一款名為“神經(jīng)引擎(Neural Engine)”的人工智能處理器,該處理器將為Siri和FaceID提供動力;
ARM公司最近推出了兩款新處理器——ARM機(jī)器學(xué)習(xí)(ML)處理器和ARM物體檢測(OD)處理器,這兩者都專注于圖像識別;
IBM正在開發(fā)專門的人工智能處理器,該公司還從英偉達(dá)那里獲得了NVLink的授權(quán),用于專門針對人工智能和機(jī)器學(xué)習(xí)的高速數(shù)據(jù)傳輸;
即使是特斯拉這樣的非傳統(tǒng)科技公司也想要進(jìn)入這個領(lǐng)域,其首席執(zhí)行官埃隆馬斯克(Elon Musk)去年承認(rèn),前AMD和蘋果芯片工程師Jim Keller將在特斯拉負(fù)責(zé)硬件制造,這些還沒有將初創(chuàng)公司計算在內(nèi)?!都~約時報》指出,據(jù)不完全統(tǒng)計,專注于人工智能的芯片創(chuàng)業(yè)公司(不是單純的軟件公司或芯片公司)已經(jīng)達(dá)到了45家,并且仍在繼續(xù)增長。
為什么在多年的芯片制造停滯之后,硬件突然出現(xiàn)了爆炸式的增長?畢竟,人們已經(jīng)達(dá)成共識,英偉達(dá)的GPU對人工智能來講非常優(yōu)秀,而且已經(jīng)被廣泛使用,為什么我們現(xiàn)在需要更多的芯片,并且是更多不同的芯片?
答案有些復(fù)雜,就像人工智能本身一樣。
投資導(dǎo)向和技術(shù)發(fā)展的影響
Intersect360 Research公司CEO Addison Snell說,盡管x86目前仍是計算領(lǐng)域的主流芯片架構(gòu),但對于像人工智能這樣高度專業(yè)化的任務(wù)來說,它太普通了,該公司的主要業(yè)務(wù)是HPC(高性能計算)和人工智能?!叭藗兿M鸄I成為一個通用的服務(wù)器平臺,因此,它必須在所有事情上都做得很好”他說,“在其他芯片的基礎(chǔ)上,各個公司正在開發(fā)專門針對某一應(yīng)用的產(chǎn)品,而操作系統(tǒng)和基礎(chǔ)設(shè)施的任務(wù)仍然留給x86來做。”
處理人工智能實際任務(wù)的過程與標(biāo)準(zhǔn)計算或GPU處理是非常不同的,因此需要專門針對人工智能的芯片,x86 CPU可以完成人工智能任務(wù),而實際只需要3個步驟的任務(wù),它在執(zhí)行時需要經(jīng)過12個步驟,在某些情況下,GPU也可能把任務(wù)變得過于繁雜。
一般而言,科學(xué)計算是以確定性的方式完成的,比如你想知道2加3等于5,并計算到所有小數(shù)部分——x86和GPU可以做得很好。但是人工智能的本質(zhì)是,通過長期的觀察得出2.5加3.5等于6,而不需要真正去計算,如今人工智能的關(guān)鍵是從數(shù)據(jù)中發(fā)現(xiàn)的模式,而不是確定性的計算。
從更簡單的角度來說,人工智能和機(jī)器學(xué)習(xí)的定義是,它們利用過去的經(jīng)驗并加以改進(jìn)。比如,著名的AlphaGo就通過模擬大量的圍棋比賽改進(jìn)技術(shù)。另一個我們熟悉的例子就是Facebook的面部識別AI,經(jīng)過多年的訓(xùn)練,它可以精確地標(biāo)記你的照片(Facebook最近幾年進(jìn)行了三次重大的面部識別收購:2012年收購Face.com、2016年收購Masquerade,2016收購Faciometrics)。
一旦用人工智能開展學(xué)習(xí),就不需要重新學(xué)習(xí)了。這是機(jī)器學(xué)習(xí)的標(biāo)志(人工智能更大定義的一個子集)。從本質(zhì)上講,機(jī)器學(xué)習(xí)(ML)是一種使用算法來解析數(shù)據(jù)、從中學(xué)習(xí)、然后根據(jù)這些數(shù)據(jù)做出判斷或預(yù)測的實踐。這是一種模式識別的機(jī)制——機(jī)器學(xué)習(xí)軟件記住2加3等于5,所以整個人工智能系統(tǒng)可以使用這些信息。
再比如說,自動駕駛汽車的AI,并不是通過確定的事物來判斷周圍物體的活動路徑,它通過以往的經(jīng)驗,表示曾經(jīng)有一輛車,按照這樣的方式行駛。因此,系統(tǒng)能夠預(yù)測到特定類型的動態(tài)。
這種預(yù)測問題解決的結(jié)果是,人工智能計算可以通過單精度計算來完成。因此,雖然CPU和GPU都可以很好地完成,但實際上它們對任務(wù)來說是多余的。一個單精度芯片足以完成這項工作,并且能在更小、更低的功耗下完成。
毫無疑問,對于芯片來說,功耗和范圍是一個大問題——也許對人工智能來說尤其如此,因為一個尺寸并不能適用于這一領(lǐng)域的所有情況。在人工智能中包含機(jī)器學(xué)習(xí),機(jī)器學(xué)習(xí)中又包含深度學(xué)習(xí),所有這些都可以通過不同的設(shè)置被部署到不同的任務(wù)中?!安⒎撬械娜斯ぶ悄苄酒际且粯拥?,”英特爾旗下Movidius公司的營銷總監(jiān)Gary Brown說。Movidius針對深度學(xué)習(xí)過程制作了一個自定義芯片,因為深度學(xué)習(xí)涉及的步驟在CPU上受到高度限制。
“每個芯片可以在不同的時間處理不同的智能問題,我們的芯片是視覺智能,算法通過由攝像頭輸入的內(nèi)容學(xué)習(xí)。這是我們的重點。”Gary Brown表示,甚至有必要對網(wǎng)絡(luò)邊緣和數(shù)據(jù)中心等其加以區(qū)分——而在這個領(lǐng)域,公司只是意識到他們需要在不同的地方使用不同的芯片。
“處于邊緣的芯片無法與數(shù)據(jù)中心的芯片競爭,”他說,“像Xeon這樣的數(shù)據(jù)中心芯片必須具備高性能的性能,它與智能手機(jī)中的AI是不同的。在那里你必須將功耗降到1瓦以下,所以問題是,“哪里(的本地處理器)還不夠好,所以需要一個輔助芯片?”
畢竟,如果想在智能手機(jī)或AR頭戴設(shè)備上使用人工智能,電源是一個挑戰(zhàn),英偉達(dá)的Volta處理器在人工智能處理領(lǐng)域占很重要的地位,但其功耗可達(dá)300瓦。所以不可能被用于手機(jī)中。
Sean Stetson是自動駕駛工業(yè)車輛制造商Seegrid的技術(shù)進(jìn)步總監(jiān),他也認(rèn)為人工智能和機(jī)器學(xué)習(xí)到目前為止一直受到普通處理器的不好的影響。他表示:“為了讓算法發(fā)揮作用,無論是機(jī)器學(xué)習(xí)、圖像處理還是圖形處理,它們都有非常具體的工作流?!比绻麤]有專門針對這些模式設(shè)置的計算核心,那么就會進(jìn)行大量的無用數(shù)據(jù)加載和傳輸。當(dāng)你在最低效的時候移動數(shù)據(jù)時,就會產(chǎn)生很多信號和瞬態(tài)的能量。而處理器的效率是以每條指令使用的能量來衡量的?!?
當(dāng)然,更加專業(yè)化以及更高的能效并不是這些新的人工智能芯片存在的全部原因。IBM公司研究員兼IBM Power systems開發(fā)副總裁Brad McCredie表示,人們都爭先恐后地加入這一行列的更明顯的原因是:回報將會非常豐厚。他說:“IT行業(yè)幾十年來第一次看到了增長,我們看到了指數(shù)增長的拐點?!鳖A(yù)期會有新的資金進(jìn)入這一行業(yè),而這一切都圍繞著人工智能。這就是導(dǎo)致大量風(fēng)投涌入這一領(lǐng)域的原因,人們看到了淘金潮,這是毫無疑問的”。
一個全新的生態(tài)系統(tǒng)
專注于人工智能的芯片并不是憑空設(shè)計的,伴隨它們的是處理人工智能和機(jī)器學(xué)習(xí)高度并行性的新方法。如果你構(gòu)建了一個人工智能協(xié)處理器,但是使用過時的標(biāo)準(zhǔn)PC技術(shù)甚至是過時的服務(wù)器,那么這就像把法拉利引擎放在大眾甲殼蟲中一樣。
英特爾公司首席技術(shù)官兼Nervana聯(lián)合創(chuàng)始人Amir Khosrowshahi表示?!爱?dāng)人們談?wù)撊斯ぶ悄芎虯I芯片的時候,構(gòu)建人工智能解決方案需要大量的非人工智能技術(shù),它會涉及到CPU、內(nèi)存、SSD和互連等,要讓所有這些都發(fā)揮作用,是非常關(guān)鍵的?!?
例如,當(dāng)IBM為任務(wù)關(guān)鍵系統(tǒng)設(shè)計其Power9處理器時,它使用英偉達(dá)的高速NVLink來支持核心互連、PCI Express Generation 4,以及它自己的接口OpenCAPI(相干加速器處理器接口),OpenCAPI是一種新的連接類型,它為內(nèi)存、加速器、網(wǎng)絡(luò)、存儲和其他芯片提供高帶寬、低延遲連接。
McCredie說,x86的生態(tài)系統(tǒng)沒有跟上。他指出,PCI Express Gen 3在市場上已經(jīng)有7年沒有重大更新(第一次只是最近才出現(xiàn)),而IBM是最早采用這一技術(shù)的公司之一,x86服務(wù)器仍在使用PCIe Gen 3,它的帶寬只有4 Gen的一半。他說:“計算能力的爆炸式增長將需要更大的計算能力,我們需要處理器來做它們能夠完成的所有事情,然后在這個基礎(chǔ)上再多做一些,該行業(yè)終于開始關(guān)注內(nèi)存帶寬和輸入/輸出帶寬的性能,這些東西正成為系統(tǒng)性能的一階約束”。
McCredie繼續(xù)說道:“我認(rèn)為加速器將會增長,將來會有更多的工作負(fù)載,因此需要更多的加速。我們甚至?xí)剡^頭來加速常見的工作負(fù)載,例如數(shù)據(jù)庫和ERP(企業(yè)資源規(guī)劃)。我認(rèn)為,我們正看到行業(yè)中一個堅實的趨勢開始,現(xiàn)在我們更加注重加速,更加注重市場適應(yīng)性。
但是硬件本身并不能在機(jī)器學(xué)習(xí)中學(xué)習(xí),軟件才是主要的部分。在所有這些新芯片的熱潮中,幾乎沒有提到與硬件協(xié)同工作的軟件?!靶疫\(yùn)的是,這是因為這些軟件在很大程度上已經(jīng)存在,它正在等待芯片趕上來,”金融分析和人工智能開發(fā)商OTAS Technologies的首席執(zhí)行官Tom Doris說。
“我認(rèn)為,如果你看一看以前的歷史,就會發(fā)現(xiàn)一切都是硬件驅(qū)動的,算法并沒有太大的改變,技術(shù)進(jìn)步都是由硬件的進(jìn)步推動的,這對我來說有點意外,因為我已經(jīng)離開這個領(lǐng)域好幾年了,自90年代末以來,軟件和算法方面并沒有發(fā)生太大的變化,基本上都是計算能力的改變”他說。
彭博首席技術(shù)官辦公室的數(shù)據(jù)科學(xué)家David Rosenberg也認(rèn)為,目前軟件的狀況良好。他表示:“在某些領(lǐng)域,軟件還有很長的路要走,這與分布式神經(jīng)計算的技術(shù)有關(guān),但對于我們已經(jīng)知道解決方法的問題,軟件已經(jīng)得到了很好的改進(jìn)?,F(xiàn)在的問題是硬件怎樣能夠足夠快地、高效地執(zhí)行軟件?!?
事實上,目前的情況是,硬件和軟件正在并行開發(fā),目的是支持這一新的人工智能芯片及其用例。前斯坦福大學(xué)教授Ian Buck說,在英偉達(dá),軟件和硬件團(tuán)隊的規(guī)模大致相同。Buck教授開發(fā)了CUDA編程語言(CUDA允許開發(fā)者編寫應(yīng)用程序并使用Nvidia的GPU進(jìn)行并行處理,而不是CPU)。Buck在英偉達(dá)主要負(fù)責(zé)的是人工智能領(lǐng)域。
他說:“我們正在針對系統(tǒng)軟件、程序庫、人工智能框架和編譯器開發(fā)新的架構(gòu),所有這些都是為了利用每天出現(xiàn)的新方法和神經(jīng)網(wǎng)絡(luò),在人工智能領(lǐng)域取得成功的唯一途徑,不僅僅是構(gòu)建偉大的芯片,而且要緊密地整合到軟件的堆棧中,以實現(xiàn)和優(yōu)化每天都在發(fā)明的新網(wǎng)絡(luò)?!?
因此,對于Buck來說,人工智能代表一種新的計算方式的原因之一是,他相信它確實構(gòu)成了硬件和軟件之間的一種新型的關(guān)系,我們不需要考慮向后的兼容性,我們正在重新設(shè)計那些擅長處理此類任務(wù)的處理器,并與軟件一起運(yùn)行。
這場芯片競賽的未來在哪?
雖然現(xiàn)在人工智能芯片領(lǐng)域有很多潛在的開發(fā)商,但圍繞這些計劃的最大問題之一是,有多少會進(jìn)入市場,有多少能夠接觸到供應(yīng)商,又有多少會被淘汰。畢竟如今大多數(shù)的人工智能芯片仍然只是幻影。
當(dāng)涉及到許多非CPU制造商設(shè)計的人工智能芯片時,比如谷歌、Facebook和微軟等,似乎這些公司正在為自己的使用定制芯片,而且很可能永遠(yuǎn)不會把它們推向市場。這些實體擁有數(shù)十億美元的收入,完全有能力投入到定制芯片的研發(fā)中,而無需立即得到投資回報。因此,用戶可能會依賴谷歌的TPU作為谷歌云服務(wù)的一部分,但谷歌不會直接出售TPU服務(wù)。這也是Facebook和微軟期望的模式。
而其他芯片則肯定會上市,英偉達(dá)最近宣布了三款新型芯片:為智能機(jī)器人設(shè)計的Jetson Xavier系統(tǒng)芯片、為自主出租車的深度學(xué)習(xí)而設(shè)計的Drive Pegasus芯片以及針對半自動駕駛汽車的Drive Xavier。為所有這些提供動力的是Isaac Sim虛擬仿真環(huán)境,開發(fā)者可以用它來訓(xùn)練機(jī)器人,并用Jetson Xavier進(jìn)行測試。
與此同時,英特爾承諾,其收購Nervana公司后推出的的首款機(jī)器學(xué)習(xí)處理器將在2019年以Spring Crest的代號進(jìn)入市場。目前,該公司還擁有一款名為“Lake Crest”的人工智能芯片,利用這一芯片,開發(fā)者們可以使用人工智能來解決自己的問題。英特爾表示,Spring Crest最終將提供三到四倍于Lake Crest的性能。
所有這些都能存活嗎?“我認(rèn)為,在未來,我們將看到人工智能的進(jìn)化過程,”Movidius公司的Gary Brown說?!叭绻阆胍跀?shù)據(jù)中心使用AI,就需要一個數(shù)據(jù)中心芯片,如果你想要一個頭戴設(shè)備,你也可以找到一個對應(yīng)的芯片,這將是AI芯片的發(fā)展趨勢,我們可能會看到不同的芯片有不同的優(yōu)勢,這些可能會被集成到CPU中,我們可能還會看到有多個功能的芯片。”
如果所有的感覺都像是似曾相識,也許現(xiàn)實就是這樣,人工智能芯片的發(fā)展在某種程度上與過去芯片的演變過程相匹配——從高度專業(yè)化和眾多競爭對手開始,但最終一些產(chǎn)品獲得了動力,少數(shù)幾個市場領(lǐng)導(dǎo)者則具備多個功能。30年前,80386是最重要的桌面芯片,如果你需要在Lotus 1-2-3中做大量計算,你可以為你的IBM PC-AT購買數(shù)學(xué)協(xié)微處理器80387。接著是80486,英特爾成功地將數(shù)學(xué)處理器集成到CPU中。然后,CPU慢慢地獲得了諸如安全擴(kuò)展、內(nèi)存控制器之類的東西,之后是GUP。
就像其他技術(shù)一樣,目前新興的人工智能芯片產(chǎn)業(yè)領(lǐng)域眾多競爭對手的局面不會維持太久。例如,OTAS的Doris指出,許多不上市的內(nèi)部使用芯片會成為高級技術(shù)人員的主要項目,而更換政權(quán)通常意味著采用行業(yè)標(biāo)準(zhǔn)。Intersect360的Snell指出,今天的人工智能芯片初創(chuàng)公司也將減少——正如他所說,“現(xiàn)在有太多的競爭對手需要整合?!笔聦嵣?,許多初創(chuàng)公司只是希望開辟出一個利基市場,吸引大公司來收購它們。
IBM的McCredie說:“我同意,這將會是一個艱難的過程,但是范圍必須縮小,有一天,這可能意味著這個新的芯片領(lǐng)域看起來與老的芯片領(lǐng)域并無兩樣——就像之前的x86、英偉達(dá)GPU、ARM等。
但就目前而言,這種人工智能芯片競賽剛剛起步,許多新進(jìn)入者都打算繼續(xù)向前。