AI-NLP發展突飛猛進,企業如何運用此趨勢?
TAcc+新創分析師 許雅音
自然語言處理(NLP)以驚人速度發展,GPT-3達成1750億個參數後不到一年,Google Brain所發表的Switch Transformer就已達到了上兆的參數,隨著NLP的突飛猛進,帶來許多新的應用和商機。Google跟Open NLP目前都正快速發展,想趕上OpenAI,我們將持續追蹤與更新後續發展。
- 自OpenAI釋出首個商業產品,開放GPT-3的API以來,已過了10個月,但GPT-3要納入企業運用,需要有行業知識和公司內部資料的重新餵入,或許是新創機會所在 —
隨著OpenAI獨家授權GPT-3給Microsoft,走向商業化,內部另一個仍堅持開源資料信念的團體組成了EleutherAI,期間受到美國的加密貨幣礦商CoreWeave的硬體協助,並開發了GPT-Neo(類似GPT-3的模型),免費向公眾開源。
邁向商業化的OpenAI,於2020 年6 月,推出了能夠訪問自家AI 模型GPT-3 的API獲得廣泛好評,並在2020年10月開始收費,以1個英文單字為1.4 Tokens(代幣)換算,級距分別是,100K、2M、10M,及更多,對應價格為免費、100美元、400美元,及大規模採購價。
GPT-3 是一個通用的NLP模型,用來分析語彙(包含字串、文章等)的工具。GPT-3可以執行許多NLP任務,而無需進行任何參數更新或微調。作為與任務無關的模型,GPT-3可以執行任務而僅需有限提示。
目前,已有超過300個應用程式在使用GPT-3,全球數萬用戶也在該平台上進行開發計畫。使用者只要輸入一些字詞或句子等文本提示(hint text),GPT-3能夠看懂,並進行文本補齊。
舉例而言,行銷與人力資源公司Viable透過使用GPT-3 來幫助其了解客戶,可從客戶調查、客服、評論等文本中去識別主題、情感、情緒等。並在幾秒鐘之內提取洞察摘要。另一個例子,則是新社交體驗公司Fable,在創建一種新型的互動式寓言故事的過程中,使用GPT-3 來構建故事裡的虛擬人物。
在機器學習即服務(MLaaS)商業模式的時代,跟NLP相關機器學習的應用,許多企業與其花費大量時間和金錢進行模式訓練,不妨選擇花費一些錢,購買OpenAI花費近1200萬美元進行訓練的GPT-3 API服務。
但要使GPT-3(通用型NLP)運用到銀行,醫療保健,工業等領域中,還需要訓練特定用於某領域的模型。例如,公司內部政策文件、患者健康記錄,或機器服務手冊,需要抓取特別領域文本或隱私資料進行訓練。換言之,直接將純粹的GPT-3納入企業運用,沒有行業知識和公司內部資料,難以實際落地。
許多AI新創公司在欲打入企業的過程中,不約而同地認為有規模的企業對於資料、數據的態度是謹慎保護的,即使是跨部門交流,都不見得那麼容易。對數據的態度,是企業採用AI所遇到的主要障礙。另一點是需要行業知識(Domain Knowledge)來推動AI,企業內部的資料除了隱私外,還需要足夠多的行業知識來判別,因此「人」與AI的協作,是企業導入AI不可少的環節。
NLP的進展突飛猛進,包含: 透過特殊運算GPT-3準確性提升30%,及Google Brain發表的Switch Transformer擁有1.6兆參數(是GPT-3的9倍)等新聞,但AI若要真正落實到企業內部,則需要具有行業知識和公司內部資料,台灣新創公司或許能另闢蹊徑,往落實GPT-3到行業內部的方向努力。
參考資料:
- “ GPT-3 Powers the Next Generation of Apps,” OpenAI, 2021.
- “ Does your enterprise plan to try out GPT-3? Here’s what you should know,” VentureBeat2, 2021.
- “ 5 Natural Language Processing Companies Using GPT-3,” nanalyze, 2021.
- “ New Contextual Calibration Method Boosts GPT-3 Accuracy Up to 30%,” Synced, 2021.