Oct. 31, 2022
新創公司創鑫智慧僅成軍第三年,首款人人工智慧(AI)加速晶片就採用成本高昂的台積電7nm製程,吸引業界關注;董事長暨執行長林永隆在半導體業界累積近40年的專業資歷,更讓外界對公司的前景抱有高度期待。他們擘劃的宏大願景,是立志成為世界級的AI加速器供應商。
從被列為全美最優秀理工大學之一的美國伊利諾大學香檳校區取得博士,林永隆返台就在清華大學資訊工程系擔任教授,曾任清大研發長及創意電子技術長,此次創立創鑫智慧,是他第二度創業。在創意之後相隔21年再次走上創業路,是因為林永隆發現了AI的潛在機會,「大家都知道AI就是新的挑戰跟機會,教授本身就是探索未知,創業即便很辛苦,但讓很多人聚集起來一起做事,是很棒也很了不起的事情。」
天時地利人和兼備,讓林永隆決定帶領一群IC設計工程師組成團隊,於2019年成立了創鑫智慧,去年進駐新竹科學園區,目前資本額10.46億元,主要投資人包括緯創旗下鼎創、凌陽創業投資、力晶科技、以及台灣集富一號創業投資有限合夥(Jafco Taiwan I Venture Capital Limited Partnership)等。他們專注在打造資料中心推薦系統用的AI加速晶片,是聯發科外,台灣第二間以7nm製程及以下先進製程的公司。
據國外媒體的統計資料,7nm在2020年的晶圓代工價格落在9,000美元(約新台幣28萬元),晶圓廠可能依不同廠商的條件提供相對應的報價,但等於生產一批(Lot) 25片晶圓來說,就需要投入至少新台幣600萬元的費用,近年晶圓代工歷經漲價,可想而知費用是更加高昂。龐大的成本壓力,讓台系IC設計廠對採用這樣的先進製程相對保守,而這也是創鑫智慧投產7nm生產這400mm2的晶片,為何如此引人注目的原因之一。
「7nm是經過評估過後覺得最佳的點,」談到為何選擇7nm,林永隆的心中有盤算,但僅透露做這樣的決定,產品當然一定有獨到之處。他表示,無論選擇哪個製程,都一定有先設定並找到能最優化目標的方案,他們設定效能跟效率的目標後,7nm就是眾多考量後最適合的技術,「半導體的進步在你的運算力、耗能跟成本,如何針對問題透過軟體跟硬體設計跟優化,讓產品做出來有優勢。
提升8bit格式推論準確度 創鑫智慧手握兩武器
資料中心的推薦系統,目的就是提升用戶體驗,進而增加使用者對社群平台的黏著度;好比臉書(Facebook)等社群平台,會依據不同使用者的喜好推薦廣告及影片,背後靠的就是AI推薦系統。創鑫智慧打造AI加速晶片,則是要提供資料中心更快、更準、更省電的解決方案,林永隆進一步解釋,人無時無刻都在做選擇,假設推薦的內容不好,用戶體驗就差,如何做得準確度夠高,得做很多更精細的運算,尤其看不到的東西要做間接的推敲,是很有挑戰的部分。
多數的AI訓練使用32bit浮點數(FP32)格式,格式由1位代表正負符號、8位指數及23位尾數組成;直接用32bit推論(Inference)準確度最高,但功耗大,且要頻繁跟DRAM做資料交換,也會影響到運算時間,因此大部分推論會轉為16bit或8bit格式運算。轉換到較少位元的格式,運算所需DRAM空間相對小,但準確度則會被影響;若以8bit INT8的格式推論來說,資料量是32bit的4分之1,但準確度卻會降到99.87%。
100%跟99.87%僅0.13%的差異,對自然語言分析、醫療影響、以及推薦系統等要求高準確度的AI應用來說,有著極大的影響;以推薦來說,準確度相差1%,都可能攸關某個被推薦的內容會不會被點擊,也就直接影響到平台的收益。能提升8bit格式推論時的準確度,便是創鑫智慧的AI加速晶片的特點。
創鑫智慧首款RecAccel的ASIC、產品代號N3000的AI加速晶片,擁有10組運算引擎,運算力可達200TOPS (Tera Operations Per Second),另外內建160MB記憶體(SRAM),消耗20W即可進行每秒2,000萬次的推論。運用該AI加速晶片,以IN8精度進行推論的準確度能提升至99.97%。
據創鑫智慧提供的數據,假設32bit格式進行推論準確度為100%,16bit BF16格式的推論準確度為99.998%;由此可見,使用他們AI加速晶片,可讓INT8推論的準確度趨近BF16。此外,為進一步提高8bit推論的準確度,創鑫智慧打造另一項秘密武器「FFP8」的浮點格式,該格式可以根據資料的特性,提供更有彈性的浮點數配置方式;透過FFP8的格式推論搭配其AI加速晶片,準確度能拉升至99.996%。
創鑫智慧的RecAccel方案搭配其獨門的FFP8浮點格式,可有效提升8bit推論的準確度。
(來源:創鑫智慧)
FFP8是創鑫智慧用三年時間研發出來的心血結晶,去年申請美國專利,今年通過;其AI加速晶片搭配FFP8,也就組成其獨特的高效率AI加速推薦系統,預計今年第四季推出完整系統,展示每推論僅需1微焦耳(Micro joule)的能效。能有這樣的成果,林永隆指出,是軟硬體相輔相成的結果,由於FFP8相對INT8運算較複雜,也需要解讀資料格式,為維持運算速度,就得有相對應的電路設計在運算後做正確資料解讀。
創鑫智慧的AI加速晶片,預計搭配大容量LPDDR (Low Power DDR)系列DRAM製作成雙M.2 (Dual M.2)的模組形式走進應用市場,可用於開放運算計畫(Open Compute Project,OCP)的Glacier Point載板卡,以及一般伺服器的PCIe Gen 5載板卡,最快今年第四季送樣。安裝了AI加速晶片後,當資料中心的伺服器收到AI運算的需求,CPU就會把推論工作卸載(offload)給AI加速晶片,運算就在晶片裡完成後傳回,大幅縮短運算時間及降低功耗。
技術提升腳步不停歇 劍指世界級AI加速器供應商
隨著AI技術持續演進,林永隆認為,現在用8bit的格式推論,未來也會走到6bit、4bit甚至2bit,或是混合格式的推論,以他們的目標來說,會持續嘗試降低成本,同時維持準確度,軟硬體部分需要同時做精進。他表示,AI發展非常快速,現在產品做出來到市場推廣是第一步,下一世代的AI,技術面還有很多可能性,包括異質整合、3D封裝等前瞻技術,現在都已在進行研究。
針對異質整合,目前創鑫智慧已申請加入UCIe (Universal Chiplet Interconnect Express)聯盟。UCIe聯盟又稱小晶片(Chiplet)互連產業聯盟,包括台積電、日月光、高通、微軟、AMD等大廠都參與其中,林永隆期許,如同個人電腦透過PCIe介面做系統跟系統的連接,透過加入聯盟跟業界用相同的傳輸介面,就能將心力更集中在研發AI核心引擎技術上。
創鑫智慧目前連同新竹總部及板橋分公司,團隊規模來到40人,著眼未來需求,還在持續擴編中,以徵求研發跟行銷人才為主。林永隆表示,若想像是在跑一場馬拉松,當前的目標就是一步一步穩健地跑穩,達成各階段的里程碑,希望找到能經得起考驗,對他們做的事情有感,且想做AI、有意願進入新創公司的人才加入團隊,「我們對未來的願景,是要成為世界級的AI加速器供應商!」
本文同步刊登於《電子工程專輯》雜誌2022年10月號