隨著生成式人工智能(generative AI)技術已經開始被廣泛應用,一些全球領先企業都已經開始使用這種技術的產品,其比例相信已達到了一半以上。與此同時,許多其他公司也在加速推出集成了生成式人工智能技術的新產品。然而,對於這種技術的研究和應用背後的人們來說,都了解到訓練大型語言模型(large language models,LLMs)和其他其他支持 ChatGPT、Stable Diffusion 和 Midjourney 等產品的轉換器模型(transformer models)所需的數據皆來自於人類源頭,如書籍、文章、照片等,而這些內容並沒有經過 AI 的幫助而產生。但隨著越來越多的人使用人工智能來生成和發佈內容,一個明顯的問題出現了:當 AI 生成的內容在互聯網上大量傳播時,並成為訓練模型的主要數據來源時,會發生什麼呢?
來自英國和加拿大的一組研究人員對這個問題進行研究,並表示對當前的生成式人工智能技術及其未來令人擔憂。根據該論文指,在訓練中使用模型生成的內容會導致生成的模型出現不可逆轉的缺陷。而本質上,當人工智能模型生成的數據最終污染了後續模型的訓練集時,模型崩潰就會發生。這種污染 AI 生成的數據會導致模型對現實的認知產生扭曲。另一個問題是歧視,例如 AI 生成的內容偏向某個種族或性別,那麼模型可能會偏向這些群體,忽略其他群體的需求或觀點。
惟幸的是,即使繼續使用現有的 AI 模型,研究人員發現也有避免模型崩潰的辦法,而具體方法有兩種。第一種方法是保留一個獨家或主要由人類生成的數據集,並避免將其與 AI 生成的數據混合。然後,可以定期使用此數據重新訓練模型,或完全使用此數據從頭開始刷新模型。第二種避免生成式人工智能模型質量下降和減少不必要的錯誤或重複的方法是將全新、乾淨、由人類生成的數據集引入訓練中。但是,正如研究人員所指出的,這將會是一個重大挑戰。因為到目前為止,還沒有一個可靠的大規模標註機制或者由內容生產者或 AI 公司區分內容的方法。
儘管存在潛在問題,研究人員得出的結論是,人工製作內容(human content)將在未來比現在更有價值,因為它可以作為訓練 AI 模型的關鍵基礎。因此,製作高質量人工製作內容的內容創作者可能在長期中具有優勢。
家族辦公室投資經理
徐立言(本欄每逢周一刊出)
www.facebook.com/hsulylab/