熱門:

2019年6月27日 黃錦輝

社交網絡分析存倫理灰色地帶

自然語言處理(Natural Language Processing, NLP)是人工智能的重要技術領域之一。自人工智能於上世紀中期面世以來,科學家一直鑽研開發智能算法,以分析及理解人類如何透過文字及語音來表達意思(semantics)。中文自然語言處理是筆者的研究領域,除了發表過百篇論文外,也於1998年創辦了香港第一間互聯網中文新聞檢索公司(慧科訊業公司,Wiser)。隨着數碼經濟迅速發展,自然語言處理技術變得炙手可熱,其相關應用遍布全球。例如網商會利用用戶針對新產品的評語,為產品進行評分;政府透過網上言論去了解網民對政務的評價;明星透過分析粉絲的聊天訊息來評估自己的知名度等。

自然語言處理技術近年有着顛覆性的進步,主要基於3個原因。首先,社交網絡普及化產生超海量的文字訊息,例如全球在微博、推特、臉書等社交平台每分鐘發出的帖子數以億計;二是超級電腦運算速度的飆升;三是機器學習(包括深度學習)的算法效率突飛猛進。有了這3件寶物,人工智能工程師便可以設計出適合公司需求的自然語言應用系統。然而,不管軟硬件技術有多先進、能力有多強、效率有多高,自然語言處理技術面對不少「倫理準則」(ethics)的問題,常見問題包括以下幾項:

企業或採用偏頗NLP處理模型

‧以偏概全:企業為了發表有利於自家產品的分析,刻意採用偏頗的自然語言處理模型(biased NLP model)。

‧排斥異己:企業無所不用其極,設法拒絕不利於自己產品的訊息,這情況產生訊息排斥(information exclusion)的效應,導致分析結果完全不可靠。

‧指鹿為馬:由於企業在模型培訓(model training)時沒有提供適當訊息,系統在分類過程中,便會把不認識或以前未見過的事件歸納於錯誤的類別,造成過分普及化(Overgeneralization)的現象,影響自然語言處理的表現。

‧樣本不足(Under-representation):儘管社交網絡中擁有超大量訊息,但倘若缺乏與目標相關的訊息,這會大大影響前期自然語言處理模型訓練的效率,導致文字分析效果嚴重失準。

‧侵犯私隱:系統從文字分析中可以直接或間接暴露客戶的個人身份,例如透過用戶網絡聊天的習慣識別出個別人士的身份。企業往往未獲得客戶同意之前便利用這些資料以營商圖利。

(節錄)

全文

標籤: #政經分析#

回上

信報簡介 | 服務條款 | 私隱條款 | 免責聲明 | 廣告查詢 | 信報會議中心租賃 | 加入信報 | 聯絡信報

股票及指數資料由財經智珠網有限公司提供。期貨指數資料由天滙財經有限公司提供。外滙及黃金報價由路透社提供。

本網站的內容概不構成任何投資意見,本網站內容亦並非就任何個別投資者的特定投資目標、財務狀況及個別需要而編製。投資者不應只按本網站內容進行投資。在作出任何投資決定前,投資者應考慮產品的特點、其本身的投資目標、可承受的風險程度及其他因素,並適當地尋求獨立的財務及專業意見。本網站及其資訊供應商竭力提供準確而可靠的資料,但並不保證資料絕對無誤,資料如有錯漏而令閣下蒙受損失,本公司概不負責。