2024-03-07 00:00
科網人語 葉文瀚博士
阿里EMO模型的利與弊
阿里巴巴(09988)智能計算研究所上月發布生成式人工智能(Generative AI)模型EMO,引起全球廣泛關注。EMO是一款多語言模型,能夠根據輸入的照片及語音,生成逼真的表情動作,突破以往只能生成靜態影像的限制,為數碼媒體及虛擬內容生成帶來巨大創新。
為展示EMO的卓越能力,阿里巴巴特別在軟件代碼託管平台 GitHub分享多條演示影片,包括美企OpenAI旗下模型Sora生成的東京街頭人物片段,旨在彰顯其領先地位。
EMO使用超過250小時涵蓋演講、電影、歌唱表演等多種類型的談話影片加以訓練,令其語音編碼器及面部區域掩模(Mask)能夠確保生成的臉部動作與語音內容匹配。
簡單而言,EM ...
(節錄)全文共756字