FIND研究員:楊尚融
語言模型的發展代表了人工智慧技術在自然語言處理領域的重大突破。從最早的圖靈測試到現今的GPT系列,語言模型的演進不僅反應了技術的進步,也展示了人類如何賦予機器更高層次的語言理解和生成能力。
模仿遊戲(imitation game)
人工智慧(Artificial Intelligence,AI)的起源,最早可以追溯到20世紀中期,人工智慧之父艾倫·圖靈(Alan Turing)所提出的「圖靈機(Turing machine)」概念。圖靈機是一台假想的機器,用該機器來模擬人們利用紙筆進行數學運算的過程,此一概念為電腦科學及計算理論奠定基礎。接著圖靈於1950年提出了「圖靈測試」,這是一種評估機器智慧的方法,本質上它是個「模仿遊戲」。該遊戲由一名人類提問者、一名人類受試者,以及一台機器組成。「提問者」透過打字與「人類受試者」及「機器」進行交流,但不能看到他們。機器的任務是模仿人類回答問題,使提問者無法分辨出誰是人類,誰是機器。如果提問者在相當長的一段時間內無法準確區分誰是機器?誰是人類?則表示該機器通過測試,具有類似人類的智慧。
模式匹配(Pattern Matching)
圖靈測試被提出來之後,激發大量關於機器智慧的研究。例如1966年,麻省理工實驗室發明出一個聊天機器人Eliza,她被定義成一位心理治療師。1995年另一個更先進的聊天機器人Alice被發明出來,Alice使用AIML(Artificial Intelligence Markup Language)語言技術進行對話。AIML由開發者定義「模式」和「相應的回應」,ALICE再透過「模式匹配」技術來識別使用者輸入的關鍵詞,並根據預先定義的AIML規則進行回應。這種方法使ALICE能夠處理許多的對話情境。
不論是Eliza或Alice,他們聊天的原理,都基於「模式匹配」,即機器只要看到一個關鍵詞,就會被觸動一個預設的動作。放眼現今,很多購物網站或銀行的聊天機器人,仍是仰賴「模式匹配」的技術。例如當我們提到退貨,網站就會給出退貨流程;提到ATM,聊天機器人就會標記出地圖上附近的ATM據點。這種模式雖然稱不上智慧,但確實節省許多人力,不必再去處理重複又機械性的操作流程。
機器學習(Machine Learning)
但想通過「圖靈測試」,單憑「模式匹配」的技術很難成功,於是便出現語言學習中的新流派:「機器學習(Machine Learning)」。「機器學習」有別於以往按照特定程式碼運作的規則;它著重於訓練電腦從大量的數據中學習並找出規律,進而預測及決策,再根據經驗不斷地改進。2001年Smarter child被開發出來,設計成為即時通訊軟體中(如MSN Messenger和Yahoo Messenger)的虛擬人物。
它運用先進的「機器學習」模型,模仿人類對話,回答天氣預報、新聞時事、股市行情等各種問題,使得互動聊天更為自然。開發出Smarter child的公司在2007年被科技巨擘-微軟收購,微軟將其技術整合到自家產品當中,提升了Windows Live Messenger智慧助理和聊天機器人的功能。由此可見,微軟很早就開始覬覦這個領域,之後更是持續投注大量的資源在自然語言處理和人工智慧技術方面的研究。
人工神經網絡(Artificial Neural Networks, ANN)
自2010年起,「機器學習」中的一個領域-「人工神經網絡(Artificial Neural Networks, ANN)」開始迅速發展。這種仿生物神經網絡的運算模型,特別擅長處理需要靠「直覺」來完成的任務。直覺性任務涉及多種維度的數據或模糊的資訊,難以透過明確的規則或演算法來解決。此外,直覺性任務往往包含複雜的模式和關聯性;欲解決這類任務,需要依賴於過去的經驗和學習所構成的基礎。
人工神經網絡由多層神經元組成,每一層神經元接受前一層的輸出,再處理。它能夠逐層學習數據中的特徵,從初級特徵(如邊緣、紋理)到高級特徵(如形狀、結構、臉型、音調及頻率),最終區分出不同的人像、圖像及聲音。而且人工神經網絡擅長從大量的數據中歸納出共同的特徵或規律,並在數據含有干擾值和不確定因素時,依然能夠做出合理的判斷。例如車輛在行駛中,會遇到各種不確定因素(如天氣變化、道路狀況),自動駕駛系統的神經網絡能夠藉由訓練中學到的經驗,做出穩定的決策。
人工神經網絡在圖像處理、人臉識別、聲音識別、自動駕駛和等領域逐漸有了顯著的成果,但是在文字領域(自然語言處理,NLP)卻一直進展得不順利。直到2017年Google提出新的學習框架:Transformer。Transformer特別擅長處理語言數據,它有別於傳統模型依賴序列、逐字逐句處理文字;而是能夠捕捉句子中長距離的語意依賴關係,並更完整地理解上下文,從而提升文字處理的精確性。有了Transformer這個深度學習的模型,使得機器在文字學習領域的發展突飛猛進。目前很多自然語言處理模型(如BERT、GPT)都建立在Transformer的基礎架構上。
GPT粉墨登場
技術方面已經有所突破,尚缺資金和人才。於是Elon Musk(特斯拉、SpaceX 創辦人)、Sam Altman(著名加速器Y Combinator前總裁)、Greg Brockman(支付公司Stripe 前首席技術長)、Ilya Sutskever(Google Brain 的AI 研究員)等人共同注資10億美金,於2015年創立了OpenAI。OpenAI最初的定位為一家非營利組織,致力於人工智慧研究,並公開其研究成果和技術細節,讓全球的研究人員和開發者都能夠利用OpenAI的成果進一步創新和應用。
OpenAI成立後將研究重心放在自然語言處理(NLP)領域,專注在以Transformer為主的模型開發。2018年6月推出一款具開創性的語言學習模型:「Generative Pre-trained Transformer(GPT)」。緊接著OpenAI增加模型的參數量和訓練數據的規模,在2019年11月推出GPT-2。GPT-2成功之後,OpenAI繼續擴大其研究規模,在2020年6月推出GPT-3。作為GPT系列的第三代語言模型,它在自然語言處理(NLP)領域具有重大的意義。GPT-3是當時世界上規模最大的語言模型,擁有1,750億個參數,為GPT-2的100多倍。如此巨大的參數規模使其具備了更強的語言理解和生成能力。
在機器學習領域,競爭主要集中在兩個關鍵方面:「模型設計」和「參數量」。即使擁有優秀的模型,也需要極大的數據量來支持;參數量越大,模型的潛力越高。但這也意味著必須投入巨額資金進行訓練和驗證。為了確保持續性的技術開發,OpenAI 開始尋求外部資金的支持,包括從 Microsoft獲得約10億美元的投資。經此變化,OpenAI 也轉型為一家「有限營利」的機構,這種轉型允許OpenAI分配部分收益給投資者,並限制公開某些核心技術的細節。
結論
語言模型的演進顯示了人工智慧在處理自然語言方面的巨大潛力。隨著技術的成熟和應用的擴展,語言模型將在更多領域內發揮重要作用,進一步改變人機互動的方式。
封面圖片來源:Pexels
參考資料來源:
1.圖靈機 - 維基百科,自由的百科全書 (wikipedia.org)
2.漫談模式 : Pattern matching (openhome.cc)
3.Pattern Matching: Algorithms & Applications | BotPenguin
4.機器學習 - 維基百科,自由的百科全書 (wikipedia.org)
5.什麼是神經網路?| 神經網路的類型 | Cloudflare