AI-小數據模型如何成為中小企業轉型的機會?
TAcc+新創分析師 許雅音
許多組織發現自身已喪失大數據軍備競賽的入場券,因此開闢小數據結合特殊的AI演算法,為此領域帶來新的潛力。
- 大數據被大企業會壟斷,中小型公司剩下的小數據機會在於透過轉移學習和集體學習這兩種技術以活用小數據 —— 數據不足是AI落地最常見的阻礙,醫療業與製造業的業主通常只有少量或是比例失衡的數據集,且處理大數據需要大量的樣本來學習,成本極高且耗時,但小數據搭配特殊的AI演算法則可以從有限的數據中學習。
處理小數據的演算法分為以下幾種,包含常被應用在擴大數據集的轉移學習(Transfer learning)、被應用在私人數據(銀行業務、醫療保健)領域的合成數據生成(Synthetic data generation)、能夠學習稀有案例且模擬人類學習方式的小樣本學習(Few-shot learning),以及能夠槓桿類似資源的集體學習(Collective Learning)。透過這些特殊的演算法,能讓小數據加值,令中小規模的公司在數據量短缺和成本不足的情況下,也能成功訓練出有價值的模型。
上述演算法所開發出來的機器學習模型,效果當然無法與大數據的模型媲美,但至少令中小規模的公司買到進入機器學習領域的入場券,目前每家公司遇到的挑戰,都是受限於小數據,理想的解決方式是透過集體學習方式,讓第三方 AI 解決方案可使用集體學習整合這些小數據集,進而創建足夠大的資料庫,在許多公司想自動化相似案例時能發揮作用。例如Google在2016年提出的聯盟式學習(Federated learning)就能夠在保護客戶隱私的前提下,進行機器學習模型訓練。
大數據的訓練成本驚人,根據Google估計,訓練1000個參數大約需要支付1美元。 這意味著OpenAI的175B參數GPT-3可能要花費數千萬的培訓費用。台灣現況是,以中小企業為主的台灣很難獲取真正的大數據,如何開發小數據AI演算,及靈活使用小數據,可能是台灣新創公司可加緊投入的方向。
參考資料:
- “ A Return to Small Data for 2021,” RTInsights, 2021.
- “ TOP 10 MACHINE LEARNING COMPANIES MAKING A DIFFERENCE IN 2021,” Analytics Insights, 2021.
- “ Why Small Data is Essential for Advancing AI,” DataSeries, 2020.
- “ The secrets of small data: How machine learning finally reached the enterprise,” Venturebeats, 2020.
- “ Small Data Can Play a Big Role in AI,” Harvard Business Review, 2020.