ChatGPT在短短5天內吸引超過百萬人註冊,從煉成方法、學者與業者的角度、未來商機的所在,真正一次看懂ChatGPT
對於AI掌控世界,人類總是有很多想像,《駭客任務》、《銀翼殺手》、《西方極樂園》、《黑鏡》系列都是代表作,但誰知道引起波瀾的,會是一款聊天機器人。
AI研究實驗室OpenAI靠著ChatGPT──基於自然語言生成模型GPT-3.5──製作的聊天機器人,透過超人性化的回覆、幾乎萬事皆可問並提供極高正確率的答案,席捲了全球媒體報導、社群動態的注意力,短短5天就吸引超過百萬人註冊。引用麻省理工學院媒體實驗室研究科學家凱特.達林(Kate Darling)的說法:「連同Google、Facebook和其他公司在開發的大型語言模型,這類生成式AI正在徹底改變遊戲規則。」
那在ChatGPT背後的關鍵技術GPT-3.5厲害在哪,它又能做到什麼?研究NLP(自然語言處理)的教授、以NLP為創業題目的創業家,又對新時代有什麼看法?
ChatGPT有多厲害?一款聊天機器人究竟紅什麼?
GPT-3.5(OpenAI尚未公布GPT3.5的數據,目前已知為GPT-3的升級版)是ChatGPT的基礎,它是基於Google於2017年發布的自然語言處理模型Transformer所創立。用最淺白的說明, Transformer的特色,是透過數學找尋規則,一改過去AI訓練需要大量人力「標籤」的流程,只要餵入大量未標籤文本資料即可訓練,省下了大量的人力與資源 。在2021年史丹佛大學發表的一篇論文中,研究人員將Transformer模型稱為「基礎模型」,他們認為其推動了AI的典範移轉。
GPT-3把Transformer運用到新高度的原因之一,是其擁有1,750億個參數,證明了「大就是好」。這個數字有多大?Google推出基於Transformer的語言模型BERT擁有的參數量是3.4億、另一個知名的語言模型ELMo的參數量則為0.94億,雖然跟處理能力、發表時間有所關聯,但也能知道GPT-3的龐大。
ChatGPT則是基於GPT-3的進化版GPT-3.5,其運作流程是:輸入大量的文本資料,包含維基百科、文章、論文、書籍後,開始進行「文字接龍」,去猜測句子中的下一個字(以英文的話則是字彙)應該是什麼。
舉例來說:「皮卡丘是什麼顏色?」這個題目有正確答案,應該要接上「黃色」。如果模型回答錯誤,扮演「老師」的研究人員會輸入正確答案,教導它回覆標準的回答。隨後模型開始學習研究人員的行為模式,不斷循環加強。
ChatGPT是怎麼煉成的?圖解4個關鍵步驟
超大量的參數、人為的細部調整,讓ChatGPT幾乎能夠回答各式各樣的問題,包含寫詩、寫論文、寫電子郵件、總結文章,只要有關文字的語言生成,幾乎都難不倒它。 背後更深層的意義是,這次第一次AI達到「全民皆可用」的程度,OpenAI不只是推出一個新的語言模型,更像是推出了一個「產品」,也才能在社群上掀起強力的旋風。
主要研究領域包含機器學習、語意理解的台灣大學電機系教授李宏毅從學界的角度觀察,OpenAI的GPT-3、ChatGPT帶來的是「概念上的創新」,「過去我們認為語言模型要經過特殊的微調,才能符合各種不同的應用。」像是要應用在翻譯的語言模型、應用在寫文章的語言模型、應用在寫信的語言模型,需要不同的微調才能運作。舉例來說,Google旗下的聊天機器人LaMDA,為了更好的完成對話任務,導入了情感分析、對話狀態管理等應用與調整。
「GPT-3本來就很強,只是不知道人類要什麼,透過人類老師的引導學習,不再經過特別的微調,就可以做到翻譯、寫文章、寫程式等各種應用, 就像是一個基本功很強的人,把各種武功招式看過一次就會用。 」李宏毅說。
ChatGPT商機在哪?會大量取代客服嗎?
也因為ChatGPT的表現,讓許多人開始討論起各種不同的應用與商機,從業者的角度可以更清楚地理解其機會與挑戰所在。
推出可以回覆旅客疑難雜症的智慧音箱小美犀、以NLP為技術核心的「犀動智能」,在最近的距離觀察GPT-3與ChatGPT。因犀動智能在一年多前就取得GPT-3語言模型授權,也研究過ChatGPT的兄弟模型InstructGPT,「對於ChatGPT的成果,我們不會到非常驚訝,但還是對於它的人性化回覆感到滿驚豔,是過去沒有看過的品質。我們在2019年創業的時候,就預測未來5年NLP會成長得很快,沒想到轉折點就在這禮拜(訪問於ChatGPT問世之初)。」犀動智能共同創辦人暨執行長沈書緯說。
在商業層面上,應用GPT-3模型做客服、問答、助理功能的公司大有人在,但也不是萬能解方,犀動智能的共同創辦人暨技術長馬世英說:「 國外有很多採用GPT-3技術的公司,目前我們看到大多是複合式地利用多個模型。 」因為每一次輸入文字到GPT-3、再輸出成果都需要成本,以OpenAI目前對所有用戶公布,最強的語言模型Davinci來說,0.02美元可以處理750個字(英文字彙),在不確定使用者數量、無法限制使用者輸入的字數時,累積下來的成本難以計算。
以犀動智能為例,旗下小美犀每月處理的詢問次數遠超百萬量級,全採用最高級的語言模型費用就相當可觀,「所以必須學習面對不同的任務,在不同的語言模型中切換,對企業的技能要求會更高。」馬世英說。
再舉例來說,許多人會直覺聯想到ChatGPT會為聊天機器人客服帶來劇變,但如果只是簡單的Q&A問題,像是「銀行幾點開門」、「最大提款上限是多少」,就不一定需要用到成本高昂的GPT系列。
怎麼「催眠」AI,也成一大商機可能性
除了應用語言模型本身,還有另外一個商機存在,那就是如何催眠、暗示(prompt)ChatGPT,得到想要的成果。
什麼是催眠?
雖然ChatGPT已經可以回覆大多數的問題,但當要用來做特定產業的客服,就需要做些事前準備,像是輸入:接下來回覆問題時,都以xx銀行的營業守則為主;或是輸入:你現在開始,是寶可夢的圖鑑,回覆問題都需要以《寶可夢》世界的規則為主。
這都是很粗淺的例子,現在已經可以看到一些複雜的玩法,像是有人將ChatGPT催眠成文字冒險遊戲、在其中導入作業系統等,只要給予適度地暗示,ChatGPT可以做到非常多超乎想像的事情。就像先前所述,GPT-3基本功很強,仰賴師父怎麼把潛能引導出來。
「我相信未來用來『催眠』GPT-3的文字是有商機存在的,連學界都會誕生一堆催眠大師,因為只要改幾個詞彙,可能每個人催眠的結果都不一樣,像是你怎麼把GPT-3催眠成一個電話客服或是其他服務,甚至是專門用來催眠ChatGPT的語言模型也會存在。」李宏毅說。
當然不論是靈活地在語言模型中切換,或是學會催眠的技巧之外,從更宏觀的層面來說,加速語言模型運算能力的硬體設計,或用更少的資料量達成相同的成效,甚至是全新的語言模型也都存在機會與可能性,「我們還離語言模型的終點還有很長一段距離,原因很簡單,人類遠遠不需要這麼多資料量,就可以做的比ChatGPT更好。突破的方式就是我們對今天的模型,還能怎麼樣更進一步的了解,AI還是一個黑盒子,未來會有很多研究人員像是腦科學家一樣去解剖AI。」李宏毅說。
只是就像是沈書緯所提到的,ChatGPT帶來的轉折點比想像中還要快,下一次轉折也許就不遠之後,「我真正期待的是GPT-4,它會帶來『核彈級』的影響,這點絕對毫無疑問。」AI、超大型的語言模型的確將要改變我們的生活方式,在弄清未來、面對未知時,人類永遠需要更多的對話──互相對話或是學會與ChatGPT對話都是。
本文引用數位時代