PC處理器市場變天 Intel龍頭地位動搖?

2020-02-14
作者 黃燁鋒, EETimes China

UserBenchmark資料庫日前出現‘Ryzen 7 4800U’低壓處理器的跑分成績,達到了單核138分,全核1074分。這個分數在處理器中是什麼量級呢?

前不久,UserBenchmark跑分測試的資料庫中出現一款名為‘Ryzen 7 4800U’的低壓處理器,8核心、16執行緒,其跑分成績達到了單核138分,全核1074分(搭載該處理器的筆電型號為HP EliteBook 845 G7 Notebook PC)。這個分數在處理器中是什麼量級呢?

從英特爾(Intel)去年年中針對筆電產品發佈標準電壓的旗艦處理器Core i9-9980HK (TDP 45W)來看,在UserBenchmark資料庫中的跑分為單核128分,多核1101分。

20200214_PC_NT61P11, Intel

而這款‘Ryzen 7 4800U’是AMD針對超輕薄筆電(Ultrabook)推出的TDP 15W低壓處理器。這其中令人驚奇的點有兩個:其一,Ryzen 7 4800U是AMD的低壓處理器,其跑分成績已經相當於英特爾第9代Core的筆電標壓處理器。其二,目前採用英特爾最新第10代Core低壓處理器Core i7-10710U (6核心、12執行緒),在UserBenchmark的使用者提交得分資料庫中,最頂尖的得分是143分/910分(所有用戶提交平均分115分/638分)。

由於AMD Ryzen 7 4800U的頻率更低,所以理應拿來做比較的應該是4700U,無奈尚無4700U的成績,所以單核性能沒有有效的參考。但至少AMD定位筆記型電腦的低壓處理器,已經部分達到或超過了英特爾的同代競品,這在過去十幾年都是相當罕見的,尤其是高階市場的競爭。

當然,之前針對筆記型電腦散熱的探討文章中已經提過,討論低壓處理器的性能需要極大程度考慮設備的系統設計,包括運作功率、散熱設計等。Ryzen 7 4800U尚未正式上市,UserBenchmark資料庫中這個搶跑成績,除了數字之外,沒有透露任何資訊。所以我們並不清楚這個成績究竟是怎麼跑出來的,以及是否能夠反映實際執行環境。

只是無論如何,AMD自2017年以來發動的這波攻勢,大概都是英特爾始料未及的,畢竟英特爾穩坐PC處理器市場頭把交椅已經有十多年之久,並且始終在技術、產品表現上較AMD有著碾壓級的優勢。

20200214_PC_NT61P10, Ryzen

市佔率由盛轉衰…

AMD在2017年發佈初代Zen架構以後,十多年來第一次在處理器性能上有了與英特爾叫板的資本,而且還保持了傳統的性價比優勢。而在上個月,坊間不少媒體撰文提及,AMD的PC處理器市場份額已經逼近40%。

實際就統計機構Mercury Research的歷史資料來看,AMD在這塊市場的季度出貨量常年徘徊在10%左右,近九成市場長期被英特爾把持。如果AMD能在短短兩年不到的時間裡扭轉市場局面至40%,那也絕對稱得上是逆襲了。不過實際情況恐怕並沒有這麼美好。40%這個資料的出處,是一個基準測試平台PassMark,它統計的是每季提交跑分成績的用戶數。

20200214_PC_NT61P2, PassMark

(來源:PassMark)

上面這張圖是PassMark統計自2004年第一季至今的用戶比重數量變遷。到2020年第一季, AMD用戶數量的確已經接近40%,但從其統計方法就很容易想見,這個資料不能代表一般的消費市場。因為一方面PassMark只針對Windows平台,另一方面會提交測試成績的用戶大多都是技術愛好者——而AMD在技術愛好者中的用量顯著大於一般消費用戶。所以40%這個數字大致上是不靠譜的。

不過,從這張圖的歷史趨勢來看,雖然數字可能無法代表市場整體狀況,但其歷史走向還是符合實際情況的。例如,在2005年前後,AMD與英特爾的市佔率非常接近。實際上,AMD在2003年推出K8處理器,首度將記憶體控制器放到CPU內部,同時導入x86-64處理器Athlon 64,實現對64位元的支持——無論在這個向下相容的決定中,AMD是否存在過錯,當時AMD都一度將自家PC處理器產品推向了高峰。而且在此期間,英特爾Pentium 4正背負高頻低效的批評。2004年下半年起的一段時間內,AMD出現了與英特爾在PC處理器市佔相持不下的局面。

但好景不長,收購ATI成為AMD走下坡的轉捩點。AMD自2006-2008的三個財年營業利潤都處於虧損狀態,其中2007年的營業利潤為-27.10億美元。2009年,AMD出售旗下晶圓製造廠(即現在的Global Foundries),以及行動繪圖晶片業務(也就是現在高通的Adreno)。

2011年AMD為PC處理器做出了如今看來錯誤的技術決策:CMT (Clustered MultiThreading),並在後續的處理器產品上,單核性能拉開了與英特爾越來越大的差距,直至幾乎完全放棄高階市場,以及被嘲笑「i3秒全家」。實際上,AMD在2012、2014、2015、2016年的營業利潤全部以負數狀態出現在財報中,其中2012年、2015年,AMD的年度收益也大幅下滑,分別下跌17%和28%。

這些在PassMark的市場份額走勢中也相當明確地展現出來。不過在PassMark的資料中,2017年似乎成為又一個轉捩點,並在2019年有一波強勢反彈。2017年正是AMD宣佈推出Zen架構的一年,而去年則有Ryzen 3000系列發佈。

對AMD來說,第一代Zen架構發佈有著里程碑式的意義。也是從Zen初代開始,AMD的PC處理器終於在單核性能上趕上英特��,彌合了多年來的產品競爭鴻溝。針對這一點,我們先來談一談在Zen以前,AMD選擇CMT技術路線之後,其處理器走的是怎樣一條路。

把點歪的技能樹扶正

過去十幾年來,AMD都採用一種名為推土機(Bulldozer)的處理器微架構。這裡我們不談AMD在CPU製程方面的落後問題,畢竟英特爾保持了十多年的製造製程絕對領先:2017年Zen發佈之際,AMD更早的APU主流產品線還在用28nm製程,這個時候英特爾的Kaby Lake處理器產品已經在用14nm製程。更重要的是,Bulldozer架構將整數scheduler和吞吐能力翻倍,整數單元模組能夠同時接收兩個指令的執行緒——這對於整數運算負荷較重的工作更有優勢。

但每兩個整數單元共用一個浮點運算單元。Bulldozer更適合用模組(module)來劃分,而非傳統的核心(core)。2個實體整數核心以及1個浮點核心構成一個模組。在「核心」這個概念上,AMD也在宣傳中將1個模組算作2個核心。這種CMT的微架構理念:處理器的某些部分,是給2個執行緒共用的;而某些部分則是每個執行緒獨佔的。

20200214_PC_NT61P3, Bulldozer

Bulldozer架構1個完整的模組,也就是2個核心。(來源:Wikipedia)

這種思路與英特爾選擇的SMT (Simutaneous MultiThreading)顯著不同,在英特爾的超執行緒技術中,兩個虛擬的同步執行緒,共用1個實體核心的資源。

更具體一點來談,一個Bulldozer CMT模組,針對整數運算來說就是2個核心,但對浮點運算來說有時是1個核心、有時又可以算作2個核心——這主要取決於執行的兩條執行緒中,浮點指令是否填滿了CMT模組中的浮點單元,以及浮點運算單元正在執行的是128bit還是256bit浮點操作。因為在模組中,每2個整數核心,只搭配了1個浮點單元——這個浮點單元又包含2個128bit FMAC (浮點乘法累加)執行單元。

AMD之所以選擇這種方案,主要因為當時大部分作業系統工作,都是基於整數運算的,如迴圈反覆運算、真假布林值比較或者預測。CMT所要達成的理念是更加充分、高效地利用執行單元。然而在實際發展中,作業系統日常負載對浮點運算能力開始提出更高的要求,傳統的作業系統在分派任務的時候也面臨效率問題。加上在僅有一個執行緒的情況下,CMT模組面臨大量整數運算單元空閒的問題。CMT方案最早在昇陽(Sun)推出之初,就定位於偏弱的單核性能,以及借由堆核心的方式來達成高性能,實際證明並不適用於PC市場。比較有趣的是,由於CMT這種設計方案的特殊性,當時甚至有消費用戶將AMD告上法庭,稱AMD宣傳的核心數目存在欺詐問題。

此外,Bulldozer還有一些設計理念也始終被人詬病。例如直寫式(write-through)的L1 cache,以及1個模組共用的L2 cache,都導致更高的延遲和功耗。另外Bulldozer沒有採用μop cache,也增加了指令解碼功耗與延遲。加上製程方面的缺陷,AMD在高階市場上沒有能力與英特爾一戰也顯得理所應當。

20200214_PC_NT61P4, Opteron

Bulldozer的最後一代產品挖掘機(Excavator,第四代Bulldozer)在規劃中,已經針對原版的Bulldozer設計做了很大的改進,包括晶片設計上金屬堆疊、新的執行緒/dispatch機制,新的內部分析技術實現更低的功耗、更高的性能;更大的L1-D cache,L1 BTB等。在2016年AMD公佈的產品規劃圖中,採用新核心(Excavator這代微架構的核心名為Carrizo)的APU,預計到2020年能效較2014年可以提升25倍。

不過我們都知道,2017年Zen就問世了,Bulldozer退出歷史舞臺。只是Zen的誕生並不是一蹴而就的。一般認為,2012年Jim Keller回歸AMD是Zen得以誕生的主要推力。Jim Keller當時的目標就是要建構一支隊伍,為新架構奠定基礎。Jim Keller在AMD花了三年時間構建起Zen,之後又去了Tesla。

隨後AMD又花了一年時間對Zen做精調,Zen便以Ryzen (銳龍)處理器的名號於2017年問世了。Zen架構的目標就是構建起屬於高階CPU應有的性能,或者說要像英特爾那樣獲得足夠好的單核性能,所以放棄CMT是一定的。

20200214_PC_NT61P5, ZenCore

AMD曾經提到,Zen較Excavator核心的IPC性能提升40%。(來源:AMD)

從各種角度來看,Zen架構更像是當代高性能處理器了。相較Bulldozer,Zen的改進主要在於加入了μop cache,這樣一來最近用過的指令就能放進μop佇列,而不需要進行再次解碼,一定程度節省了核心與cache之間的開銷;L1、L2、L3三個層級的cache改進,包括cache頻寬、容量的顯著增加;以及真正轉向SMT,1個實體核心能跑兩個執行緒,第2條執行緒也能存取執行埠、佇列與cache。

在實現方式上,AMD的SMT和英特爾的超執行緒還是有區別的,例如Zen採用2個scheduler,1個給INT整數,1個給FP浮點。更多的變化當然不止這些,比如在功耗問題上,Zen針對圍繞核心的關鍵路徑做更為激進的監控,在各個區域控制好頻率和功率(Zen有更多的不同時脈區域);還有加強的分支預測器,更大的scheduler、dispatch、retire,加強的load/store單元等等。

Ryzen處理器還有一點十分重要的改進,即初代開始採用GlobalFoundries的14nm FinFET製程;而且在Ryzen 3000 (Zen 2)產品上針對桌面端CPU採用台積電的7nm製程。由於英特爾的10nm製程遲遲未能進入量產階段,且應用於Ice Lake-U十代Core行動版的10nm製程顯然也還不夠成熟:市場上已經部署的Ice Lake處理器頻率未能抬升到與14nm Comet Lake同等高度,即表明英特爾仍需要時間對10nm製程做調優。考慮到英特爾的10nm製程,與台積電的7nm製程基本可認為是同代製程,那麼AMD多年的CPU製造製程落後問題也幾近解決。

20200214_PC_NT61P6, efficiency gain

在Zen架構問世之初,AMD宣稱相較最出色的Bulldozer產品,其IPC提升超過40%,且功耗不變——在產品問世之際,當時就有不少技術愛好者和分析師質疑AMD是否真能達成自己所說的成績。而在正式發佈會上,AMD又改了這個數字,提及依據SPEC的基準測試成績來看,新一代產品較Piledriver性能提升52%,並較Excavator提升64%。

與此同時,AMD還提到了每瓦性能2.7倍的提升,而為效率提升做出貢獻的主要包括了上圖中提到的這些因素。

20200214_PC_NT61P7, AnandTech

單執行緒性能比較,藍點表示英特爾Core,紅點表示AMD產品,未標註文字的藍點應該是不同頻率下英特爾Kaby Lake處理器的成績。(來源:AnandTech)

20200214_PC_NT61P8, AnandTech

多執行緒性能比較。(來源:AnandTech)

AMD在Ryzen初代(Zen初代)剛發佈之後,從AnandTech的測試結果來看,Ryzen初代處理器最重要的變化就在單執行緒性能表現上,AMD終於達到了與英特爾同代旗艦PC處理器產品相似的水準,這也是AMD這些年在Zen上努力的方向,包括全新的預取(pre-fetch)演算法,μop cache的導入,明顯更大的L2 cache等等。單核性能以往從來都是英特爾的傳統優勢專案,英特爾也在包括微架構、製造製程等諸多層面為保持這種優勢地位做了不小的努力。

Ryzen初代產品的多執行緒測試則表現出了十分顯眼的競爭力,尤其在綜合考量產品售價(橫軸,此時尚未考慮到英特爾產品的後續降價)與性能表現時。這樣的性能表現在以往可是從未有過的。值得注意的是,上面這兩張圖中的A10-7890K乃是此前AMD BulldozerAPU產品(Kaveri)中性能之冠,Ryzen 7 1700較之已經有了性能方面極大的提升。

20200214_PC_NT61P9, AnandTech

總體產品性能與價格比較。(來源:AnandTech)

次年,AMD發佈改良版Zen架構:Zen+,以及採用Zen+的Ryzen 2000系列產品;在CES 2019年的展會上,Zen 2架構宣佈推出,且這一年Ryzen 3000系列開始採用台積電的7nm製程(Ryzen行動平台產品例外)。如果說初代Zen發佈,還算是將性能達成可與英特爾媲美的程度,那麼其後的步伐就大有在性能上趕超英特爾的意思了。

尤其就日常任務來看,當AMD的處理器開始在單核性能表現上與英特爾越來越齊頭並進時,英特爾的產品策略也做了相當激進的調整,這是過往十幾年都不曾出現過的局面。例如英特爾一舉將第8代Core低壓處理器的核心數量翻倍——被用戶戲稱為「一屁股坐在了牙膏管上」,且架構都還沒來得及做大幅調整(Kaby Lake Refresh)就開始做產品部署;另外就是產品的降價策略越來越激進,尤其在Ryzen第3代執行緒Threadripper CPU正式發佈以後,英特爾很快就對高階產品線Cascade Lake-X架構Core i9相應產品做了價格調整,最高降幅達到50%。

從現有雙方桌面級PC處理器的高階產品對決來看,去年底同期上市的AMD Ryzen 7 3950X (16核心/32執行緒/4.5GHz睿頻/TDP 280W/TSMC 7nm/749美元)與英特爾 Core i9-10980XE(18核心/36執行緒/4.6GHz睿頻/TDP 165W/14nm/999.99美元),同平台下,後者已經開始在應付某些CPU絕對性能跑分測試(如Cinebench R15/R20)時相較前者越來越吃力。

當然在英特爾堅守的類似於SPECworkstation這樣的生產力測試項,以及遊戲項目測試中仍然保有優勢;另外在第10代Core產品中,英特爾加入了一些新的特性,包括AVX-512原生支持,以及英特爾Deep Learning Boost,對AI做加速(其中包含有AVX-512向量神經網路指令支援)。只不過現有消費級桌面用戶市場還鮮有應用場景,而且這些新特性大概暫時不能反映到系統性能跑分成績上來——這對英特爾而言或許也不算公平。

但無論如何,英特爾在PC處理器領域性能方面的絕對領先優勢的確已經不再。

市場變化跡象

有關PC處理器市場方面更為抽象的變化,如前文所述,英特爾開始更積極地參與堆核心的競爭中,且在近兩年持續多次對產品價格做出調整,甚至越來越注重召開產品發佈會的時機。這些都是對AMD產品愈發具備競爭力的回應。

英特爾在PC處理器市場的基本盤更在於PC OEM廠商:去年微軟(Microsoft)首次在Surface產品線上導入了AMD Ryzen版本的Surface Laptop 3筆記型電腦,而且價格較英特爾 Core版更便宜。這原本是比對同一款消費電子產品,相同外殼、尺寸甚至是散熱設計的前提下,英特爾與AMD競品的大好機會。不過可惜的是,在行動產品線上,英特爾與AMD的產品更多表現出錯位競爭的方式。

就兩個版本的Surface Laptop 3在性能、續航及效率上的比較來看,英特爾 Core版仍然碾壓AMD Ryzen版。不過微軟為這款筆記型電腦選配的英特爾處理器是最新的Ice Lake-U產品,即第10代Core低壓處理器中,採用新製程(10nm)和新架構的產品;而AMD Ryzen版,雖說也是最新的Ryzen 3000系列,但行動版的Ryzen 3000並沒有採用最新的Zen 2架構,也沒有採用7nm製程。這種錯位競爭實則產生了明確的代差。

無論如何,PC OEM廠商開始在同型號產品中採用AMD、英特爾兩個版本的處理器乃至兩個平台,都表現出AMD的市場競爭力正在加強,且延續多年的市場頹勢也在發生變化。微軟也並非唯一一個正在這麼做的OEM廠商。AMD競爭力的加強,從其近兩年的財報就能看出十分顯著的變化,不僅是年度收益持續上揚,FY2019 Q4營業利潤增幅達到了213%。

上個月的CES 2020展會上,AMD宣佈推出Ryzen 4000系列行動處理器,相較於Ryzen 3000系列行動處理器,這次的產品也開始和Ryzen桌上出版一樣採用台積電7nm製程、Zen 2架構核心、TDP設計15-45W等。行動版Ryzen 3000系列還在用一代改良版的Zen+架構,以及Global Foundries的12nm製程。另外這次的Ryzen 4000行動版核心數目至多推高到了8個,前文提到的Ryzen 7 4700U/4800U即在其列,8核心低壓處理器對ultrabook市場來說又是一劑強心針。

除了CPU部分,其餘的提升還包括:繪圖運算部分至多8個Vega CU (運算單元),較上一代頻率更高,但少了3個CU。不過AMD表示由於製程提升,8 CU在實際性能表現上優於上一代的11 CU。AMD宣稱在3D Mark Time Spy中,這次的繪圖性能比英特爾Core i7-1065G7 (英特爾最新10nm、Ice Lake-U架構低壓處理器)高出28%,主記憶體支援LPDDR4X,至多64GB。

AMD特別在發佈會上說,這次的主記憶體時脈與Infinity Fabric是脫鉤的,所以空閒狀態(idle states)就能進一步節能——這一點似乎原本就屬於Zen 2架構的特性;配合在APU供電方面的架構改進,進一步降低功耗;另外進入和退出空閒狀態的延遲,部分減少80%,協助進行功率閘控(power gating),以及確保回應及時。

包括標壓版在內的Ryzen 4000行動處理器,都仍不支援PCIe 4.0。AMD宣稱TDP 15W的CPU每瓦性能能夠提升2倍,所以核心數量翻倍,且頻率不變,但功耗保持一致。APU整體的同頻功耗降低20%。可能會讓英特爾感到恐懼的是,AMD宣稱Ryzen 4000行動版處理器預計在今年一季上市。這大概足夠給英特爾再次造成壓力了,因為從英特爾的計畫表來看,Ice Lake之後的下一代產品(Tiger Lake,以及英特爾的10nm真正成熟)預計今年年末才會問世。

而本次發佈也造就了文首提到的Ryzen 7 4800U低壓處理器達到標壓處理器跑分成績的局面,即便對於這裡的跑分環境我們仍然抱持懷疑態度。但顯然地,今年的PC,尤其筆記型電腦市場又將掀起一波性能攀升的小高潮,這在摩爾定律持續減緩的當下實在是罕見——技術的良性競爭就是可以為消費用戶帶來這樣的遍歷。

除此之外,預計到今年第三季Zen 3架構就要登場了,Ryzen 4000桌上型電腦版處理器也將到來。這是英特爾又需要花時間精力正面迎擊的戰局,英特爾在過去十幾年裡似乎從未如此被動過。

去年11月,德國最大零售商Mindfactory.de的CPU總銷量中,有82%是屬於AMD的,最暢銷的產品為Ryzen R7 3700X/3600X。在Mindfactory.de的銷售歷史上,2018年以前未曾發生AMD超過英特爾的情況。同樣在這個月,亞馬遜(Amazon)最暢銷處理器Top 10榜單中,AMD佔了8席,其中排名第一的是Ryzen 2700X。雖然如前文所述,CPU的消費市場出售管道並不能說明太多,但英特爾如今必須重視這一局面了。

最後還要提及的是,就我們觀察英特爾近年的財報狀況,單從年度收益、淨利潤和現金流的角度來看,AMD的公司規模始終無法與英特爾相提並論;AMD歷年來的年度營收都不到英特爾的1/10。英特爾的營利來源也遠不止CPU市場。但對於英特爾而言,PC處理器所在的客戶運算事業群(CCG)業務仍然佔其年度總營收約52%,雖然我們不清楚PC處理器在其中具體比重是多少。

英特爾近年的財務狀況始終十分健康。在財力雄厚,以及早年有著教科書級的市場行為做助力的前提下,英特爾要找回市場,並且重新擁有技術方面的領先優勢或許也並不算難事。只是此刻,英特爾必須開始關注市場狀況的變化、對手動向,以及儘快找到因應之策了。

活動簡介
未來寬能隙半導體元件會在哪些應用成為主流?元件供應商又會開發出哪些新的應用寬能隙元件的電路架構,以協助電力系統開發商進一步簡化設計複雜度、提升系統整體效率?TechTaipei「寬能隙元件市場與技術發展研討會」將邀請寬能隙半導體的關鍵供應商一一為與會者解惑。
贊助廠商
訂閱EETT電子報