« 返回前頁列印

2024-03-07 00:00

科網人語 葉文瀚博士

阿里EMO模型的利與弊

阿里巴巴(09988)智能計算研究所上月發布生成式人工智能(Generative AI)模型EMO,引起全球廣泛關注。EMO是一款多語言模型,能夠根據輸入的照片及語音,生成逼真的表情動作,突破以往只能生成靜態影像的限制,為數碼媒體及虛擬內容生成帶來巨大創新。 為展示EMO的卓越能力,阿里巴巴特別在軟件代碼託管平台 GitHub分享多條演示影片,包括美企OpenAI旗下模型Sora生成的東京街頭人物片段,旨在彰顯其領先地位。 EMO使用超過250小時涵蓋演講、電影、歌唱表演等多種類型的談話影片加以訓練,令其語音編碼器及面部區域掩模(Mask)能夠確保生成的臉部動作與語音內容匹配。 簡單而言,EM ...

(節錄)全文共756字