全世界最厲害的頭腦、最捉摸不透的管理動向、不知何去何從的地球命運,都在【世界公民電子報】。 【橘世代電子報】為讀者提供面對人生下半場所需七個面向的資訊,為第二人生做足功課,活出精彩亮麗!
★ 無法正常瀏覽內容,請按這裡線上閱讀
新聞  健康  udn部落格  
名人堂電子報
2025/02/05 第3171期 | 訂閱/退訂 | 看歷史報份
 
名人觀點
闕志克/DeepSeek技術突破的含金量
闕志克
一月二十日川普上任,DeepSeek發表了DeepSeek-R1,並宣稱其效能可媲美OpenAI最先進的大語言模型,而訓練成本則可壓到低於六百萬美元,約當其他公司的十分之一以下。隔一天,川普政府宣布投資額高達五千億美元、專為AI運算設計的超大型資料中心建置計畫,名為Stargate。一星期後,美國股市半導體相關股票包括台積電都慘遭血洗,輝達第一天損失的市值,就約當可口可樂、迪士尼和耐吉市值的總和。

DeepSeek的橫空出世為什麼這麼震撼?首先,一個之前毫不見經傳、本業為量化金融交易的小公司在不到兩年間,就做出了性能名列前茅的大語言模型,打破了只有財大氣粗的公司才能研發大語言模型的迷思。其次,如果DeepSeek有關模型訓練資源的說法屬實,則建造像Stargate之類的超級資料中心是不是AI時代最迫切甚至最明智的投資,就很有待商榷。尤其近兩年來AI運算基礎設施的投資景況像極了兩千年初的網際網路泡沫,股市投資人現下對AI硬體股的縮手,正反映了這種潛藏的疑慮。

大多數研發大型語言模型的中國公司其實比其美國同業更擁護開源模式,DeepSeek也不例外,甚至將關鍵技術寫成兩篇研究報告公開發表。那麼,DeepSeek究竟發明了什麼必殺秘技,才掀起滔天波瀾?

大語言模型在訓練時,給定一個輸入單元及其相對應的輸出,經由梯度計算,動態調整語言模型上的權重;訓練最先進的語言模型通常需要超過一兆個以上的輸入單元。在推論時,給定一串輸入單元(如用戶的問題),透過語言模型的權重計算就能一個單元一個單元地產生輸出(如回應問題的答案)。

大型語言模型訓練和推理計算的主要效能瓶頸其實不是運算量太大,而是每處理一個輸入單元就需要將模型搬進搬出處理器一次所需的時間太長。專家協作(MOE)架構的理念是設計N個小專家模型使其能夠與總量體相當的單一大通才模型有相同的能力,但處理每個單元只需存取其中幾個小模型,藉以減少記憶體存取量。這個想法不算創新,法國的大語言模型公司Mistral就是使用MOE架構。然而,如何盡量加大N而不破壞語言模型訓練的穩定性仍是待解決的挑戰。Mistral約只能將動態模型存取量降低三倍左右,DeepSeek最重要的突破是它能夠做到十八倍:DeepSeek-V3總共含六七一○億個參數,但處理每個單元所需要的參數量卻只有三七○億。

DeepSeek還發明了一種可以大幅縮小訓練時中間計算結果的壓縮方案,以及在推論時可以產出多個輸出單元的預測機制,更有效地攤銷掉模型存取所造成的效能損失。至於DeepSeek為增強推理能力所用的強化學習策略,以及製作等效模型的知識蒸餾手法,在業界都很常見。

雖然DeepSeek的技術突破並非一騎絕塵,但它帶出的產業意涵卻很深遠。其一,美國在AI領先中國的幅度不會超過十二個月,而且不像台積電在半導體製程的領先,這個差距縮小的速度只會愈來愈快。再來,現在與其說是AI的史普尼克時刻,不如說是AI的安卓時刻,因為安卓作業系統的出現造成了中國智慧手機業的百花齊放,終成一方之霸。中國公司從1變N的量產擴張能力有可能在語言模型領域重現嗎?第三,DeepSeek的技術勢將大幅降低語言模型訓練所需的運算資源,但這個演變預期將推升語言模型的總體訓練量及推論量,反而提高AI計算資源的整體需求。(作者為清華大學合聘教授)

從三振到全壘打!教你看懂棒球比賽的20個英文術語!
Lisa 2024年11月24日,臺灣棒球歷史寫下了輝煌的一頁!在世界棒球12強賽冠軍賽中,中華隊以出色的表現擊敗勁敵日本,成功奪冠,贏得榮耀!身為一日球迷,你是否也在轉播時被滿滿的棒球術語搞得一頭霧水呢?趁著這次機會,我們一起來學習棒球相關的英文詞彙吧!下次看棒球轉播時,保證你能看得更懂、更享受!

花蓮補助加碼!山海交織的兩天一夜,帶你玩出不一樣的深度之旅
你有多久沒被旅行驚喜到了?想像一下,當你一邊騎著馬在海岸邊迎風奔馳,一邊偷偷想著:「天啊,這是我的生活嗎?」還是說,你更喜歡挑戰極限,在森林吊橋上搖搖晃晃,尖叫著為自己加油?無論你是哪一種人,這篇文章都能給你靈感!更棒的是,政府現在祭出旅遊補助,住OwlStay故事所「綠舍」還能大省荷包!
 
本電子報著作權均屬「聯合線上公司」或授權「聯合線上公司」使用之合法權利人所有,
禁止未經授權轉載或節錄。若對電子報內容有任何疑問或要求轉載授權,請【
聯絡我們】。
  免費電子報 | 著作權聲明 | 隱私權聲明 | 聯絡我們