2025-02-20 00:00
EJ Tech 創科鬥室
AI模型接編程散工 獨立開發力遜人類
美企OpenAI周二(18日)公布測試基準SWE-Lancer,以評估人工智能(AI)模型在處理現實編程散工時的表現。團隊從自由工作平台Upwork,收集了1488份軟件工程任務,其報酬總計約100萬美元(約780萬港元),按照工作性質分為獨立貢獻與管理兩類,再交付不同AI模型處理。
研究發現,AI處理上述工作能力有限,表現最佳的Anthropic Claude 3.5 Sonnet,只能完成約四分一獨立貢獻,以及不足一半管理任務,合計約賺取40萬美元。
有關成果說明,AI模型目前在審查決策具優勢,惟獨立開發方面未及人類工程師,業界未來可循此方向思考如何安排人機分工。
Fiverr推自訓模型惹 ...
(節錄)全文共564字