熱門:

2025年2月18日 國際財經

馬斯克聊天機械人Grok 3亮相 稱性能勝DeepSeek

美國富商馬斯克旗下初創xAI發布新一代聊天機械人Grok 3。

馬斯克和其xAI團隊人員在美國時間周一晚上網上直播發布Grok 3,並在進行現場示範,期間有逾370萬人次觀看直播。他們指出,Grok 3在很短的時間內實現功能比Grok2強大一個數量級,在多個基準測試中優於OpenAI的GPT-4o、Anthropic的Claude-3.5、DeepSeek V3和Google旗下Gemini 2.0 Pro。

團隊表示,雖然Grok起步較遲,但在大規模多任務語言理解(MMLU)得分上以超快的速度追上ChatGPT。Grok 3所涉及的訓練是Grok 2的10倍,也將具有類似DeepSeek R1和OpenAI o3 Mini的推理能力。目前Grok 3已在xAI內部運行2周。

推Deepsearch智能搜尋引擎

此外,xAI推出名為Deepsearch的Grok 3智能搜尋引擎。xAI工程師強調,Deepsearch是xAI的第一代廣泛代理工具,不僅幫助工程師、研究人員和科學家編寫代碼,也能幫助每個人回答日常遇到的問題。

在一系列現場演示中,馬斯克演示了Grok 3的搜索能力,如問「下一次的星艦發射是什麼時候」,Grok 3會像DeepSeek一樣,顯示模型正在做什麼,包括瀏覽的網頁、思考的過程,並確認網頁上的資訊是否可信,再得出一個相關的結論。最終,大模型以清單形式預測了下一次星艦的發射期。馬斯克和其團隊亦在演示中讓Grok 3解決一道物理題,並創作一款融合《寶石方塊》(Bejeweled)和《俄羅斯方塊》(Tetris)的遊戲。

X Premium Plus用戶率先試用

對於用戶何時能體驗Grok 3,馬斯克稱,會首先向預定用戶開放。由於模型仍在不斷更新和改進中,蘋果應用商店上線的Grok版本會相對落後,而網頁版更新最為及時。至於Grok 3的語音模式非常棒,但目前仍有點不穩定,大概一周後可能推出。xAI工程師補充說,Grok語音助手目前正在進行完善,並將在未來幾周內向用戶開放。

Grok 3目前仍在持續訓練中,該團隊強調,現在展示的只是Grok 3的測試版本,但已在多項指標上領先市場。隨着持續優化,未來的完整版本將更具競爭力。此外,Grok 3 Mini Reasoning(精簡版推理模型)也在訓練中 ,儘管其規模較小,卻在某些情境下超越完整版本,顯示AI在長時間訓練後仍有極大的增長潛力。

團隊指出,社交平台X上的Premium Plus用戶將是第一批獲得Grok 3存取權限的群體。公司亦推出了一個名為Super Grok的單獨訂閱服務,為那些想要最先進的功能和最早訪問新功能的忠實粉絲提供服務。

談及開發Grok 3最難的部分,馬斯克表示,最難的是訓練模型和100%的邏輯推理過程,那種複雜程度就像隨時隨地預測宇宙的發展情況。

被問及是否會開源時,馬斯克稱,每次做下一個版本時會開源上一個版本,當Grok 3變得穩定後,可能要幾個月時間,Grok 2就會開源。

Arena score評測中第一

另外,Grok 3在Chatbot Arena score評測中,以1402最高分奪冠,擊敗GPT-4o、把DeepSeek R1狠甩在後,擠下Gemini 2.0-flesh和Gemini2.0 pro。Arena score評測反映模型在理解能力、語言生成能力、知識廣度、適應性、長文本處理上的表現。

馬斯克早前形容Grok 3「聰明得可怕」(scary smart),並聲稱Grok 3的表現已超越「我們所知的任何已發布產品」,又謂xAI是利用合成數據進行訓練,可透過反覆檢查數據以反思所犯的錯誤,從而實現邏輯一致性。

回上

信報簡介 | 服務條款 | 私隱條款 | 免責聲明 | 廣告查詢 | 加入信報 | 聯絡信報

股票及指數資料由財經智珠網有限公司提供。期貨指數資料由天滙財經有限公司提供。外滙及黃金報價由路透社提供。

本網站的內容概不構成任何投資意見,本網站內容亦並非就任何個別投資者的特定投資目標、財務狀況及個別需要而編製。投資者不應只按本網站內容進行投資。在作出任何投資決定前,投資者應考慮產品的特點、其本身的投資目標、可承受的風險程度及其他因素,並適當地尋求獨立的財務及專業意見。本網站及其資訊供應商竭力提供準確而可靠的資料,但並不保證資料絕對無誤,資料如有錯漏而令閣下蒙受損失,本公司概不負責。