AI 的論文發表無數,有科學價值或僅是技術成果的展示?
Photo by Karolina Grabowska from Pexels
今年一月「自然」(Nature) 期刊登載了一篇 Google Health 的文章,說他們研究的 AI 可以從女性乳腺的掃描影像,找出乳癌的徵兆,比放射學家判斷的更精確更快速,有擴大發展的潛力。不料這篇文章立即引起學者的質疑,說這個結果在方法上說的不夠詳細,也沒有提供演算法與程式碼,在別的研究人員無法複製重現之下,這一項研究失去科學價值,不過是技術的發表。隔月由 31 位學者聯名投書自然期刊,十月刊登出來。
包括美國、加拿大、歐洲的31位學者,投書的標題是AI的透明度與重現性(Transparency and Reproducibility),這確實觸及到AI的根本。科學的發展在透明,研究成果可以分享同儕,讓大家引用、評估、或作為進一步發展的根基,大家互踩肩膀的進展。AI 的研究或有其特殊性,也有人說AI還在實驗階段,所以相對封閉。根據「2020 AI勢態報告」,僅有15%的研究項目供人分享程式碼,而業界較學界更為謹慎,尤其像 OpenAI 與 DeepMind 更把編碼包得緊緊的。
說起來AI從實驗室走進我們的生活,在應用上出現了不少偏差,現在慢慢走進醫療的領域,如果不加透明度與重現性的查證,就立即應用,在安全上不無顧慮,Google 的乳癌 AI 經學者指出之後,大概就不會臨床應用了。實驗室的成功,在現實環境可能失敗,讓不同的研究人員在不同的環境複製,可以快速的讓問題出現,AI 也會因此更為成熟。
話雖如此,有人擔憂 AI 已經有「黑盒子」的現象了,我們雖然設計了機器學習模型,但經過重複的運轉,幾乎很難知道如何產生所得到的結果,有誰知道圍棋高手 AlphaGo 是怎麼算出來下一步棋的?2020 的報告說,AI 重現的條件有三:程式、資料、硬體,但要滿足這個三條件到一定的程度,能讓 AI在另一環境重複出現,困難重重,有的甚至不可能。
拿到了程式碼,就可以在電腦上還原 AI 的功能?專家說沒那麼容易,因為 AI 模型涉及許多細節,像是增加參數、調整數值,任何的改變都會影響結果,所以除了程式碼,還需要元數據 (Metadata),來描述模型的調整與訓練,否則單有程式碼並無用處。另外有的實驗室,用特別的軟體運轉他們的模型,這些軟體又可能有所有權,是否願意與人分享無從得知。
資料分享也是同樣情形,多是專屬不願分享他人,尤其像敏感如醫療個資更不能分享。AI 需要大量資料來訓練模型,只有像臉書等大型數位機構才能從用戶取得大量資料,一般試驗室或學校都要花很大精力取得。在不願分享之下,專家建議可以指引方向,告訴別人有哪些地方或有類似的資料。
AI需要龐大的電腦能量來訓練功能,功能越複雜需要的能量越大。例如訓練會寫文章的 GPT-3,一位投資人估算可能花了 OpenAI 一千萬美元,還不包括系統發展與雛形訓練的花費,全數恐要加兩三倍,這種預算非小型研究機構或學校所能負擔,一般的 AI 實驗室與學校只能用普通的硬體設備。
所以 AI 的重現確實困難,而論文的發表卻一年多於一年,學者們越感到認證的困難,於是有人從基層發動了。McGill 大學也是臉書的 AI 學者 Joelle Pineau,設計一套發表論文的清單,除了文章,還包括程式碼,以及詳細敘述實驗的過程,期望研究人員在大型會議上發表這結構的論文。另有學者讓學生把資料較齊全的 AI 論文,把AI功能還原重現,做為機器學習的課堂作業。又有學者設計網站,做為論文附帶程式碼的連結。
這些學者們的努力,希望 AI 走向更科學化的發展,並建議有份量的科學期刊,能把有科學價值的論文,與技術成果的發表,分開處理,以維護期刊的信譽。
|