« 返回前頁列印

政經縱橫 | 2019-06-27 10:00

黃錦輝: 社交網絡分析存倫理灰色地帶

放大圖片

自然語言處理(Natural Language Processing, NLP)是人工智能的重要技術領域之一。自人工智能於上世紀中期面世以來,科學家一直鑽研開發智能算法,以分析及理解人類如何透過文字及語音來表達意思(semantics)。中文自然語言處理是筆者的研究領域,除了發表過百篇論文外,也於1998年創辦了香港第一間互聯網中文新聞檢索公司(慧科訊業公司,Wiser)。隨着數碼經濟迅速發展,自然語言處理技術變得炙手可熱,其相關應用遍布全球。例如網商會利用用戶針對新產品的評語,為產品進行評分;政府透過網上言論去了解網民對政務的評價;明星透過分析粉絲的聊天訊息來評估自己的知名度等。

自然語言處理技術近年有着顛覆性的進步,主要基於3個原因。首先,社交網絡普及化產生超海量的文字訊息,例如全球在微博、推特、臉書等社交平台每分鐘發出的帖子數以億計;二是超級電腦運算速度的飆升;三是機器學習(包括深度學習)的算法效率突飛猛進。有了這3件寶物,人工智能工程師便可以設計出適合公司需求的自然語言應用系統。然而,不管軟硬件技術有多先進、能力有多強、效率有多高,自然語言處理技術面對不少「倫理準則」(ethics)的問題,常見問題包括以下幾項:

企業或採用偏頗NLP處理模型

‧以偏概全:企業為了發表有利於自家產品的分析,刻意採用偏頗的自然語言處理模型(biased NLP model)。

‧排斥異己:企業無所不用其極,設法拒絕不利於自己產品的訊息,這情況產生訊息排斥(information exclusion)的效應,導致分析結果完全不可靠。

‧指鹿為馬:由於企業在模型培訓(model training)時沒有提供適當訊息,系統在分類過程中,便會把不認識或以前未見過的事件歸納於錯誤的類別,造成過分普及化(Overgeneralization)的現象,影響自然語言處理的表現。

‧樣本不足(Under-representation):儘管社交網絡中擁有超大量訊息,但倘若缺乏與目標相關的訊息,這會大大影響前期自然語言處理模型訓練的效率,導致文字分析效果嚴重失準。

‧侵犯私隱:系統從文字分析中可以直接或間接暴露客戶的個人身份,例如透過用戶網絡聊天的習慣識別出個別人士的身份。企業往往未獲得客戶同意之前便利用這些資料以營商圖利。

(節錄)

全文