OpenAI直播第12天:王炸!o3模型!

“你知道嗎?AI的智能水平已經逼近甚至超越了人類的極限。” 

今天凌晨2點,OpenAI的12天直播迎來了最高潮——o3模型的震撼發佈。這場發佈會不僅標誌着AI技術的又一次飛躍,也宣告了OpenAI在通往通用人工智能(AGI)道路上的無可匹敵。


爲何直接跳過o2?

有趣的是,OpenAI此次直接跳過了“o2”版本,原因竟是爲了避免與英國電信服務提供商O2的商標衝突,乾脆直接邁向o3。而這一跨越式的命名,似乎也隱喻了o3的強大性能。 


---


o3的能力究竟有多強?

我們先從幾個關鍵評測基準說起。 


1. 軟件工程考試(SWE-Bench Verified) 

   這是一項模擬軟件工程師編程能力的測試,要求代碼快速、準確且無錯誤。o3的得分爲71.7%,遠超前代o1。 


2. 編程競賽平臺Codeforces 

   Codeforces是全球知名的編程競賽平臺,高手如雲。o3的得分高達2727,相當於全球排行榜第175名,超越了99.99%的人類參賽者。 


3. 數學競賽與科學考試 

   - 在AIME 2024數學競賽中,o3幾乎接近滿分,成爲首個達到這一水平的AI模型。 

   - 在博士級科學考試GPQA Diamond中,雖然進步幅度不及數學和編程,但也展現了顯著的提升。 


4. 高級數學基準測試(FrontierMath) 

   這是由60多位頂尖數學家合作開發的測試,專門評估AI在高級數學推理方面的能力。爲了避免數據污染,所有題目均爲全新原創。此前,GPT-4等模型在此測試中的成功率不足2%,而o3的成功率提升至25.2%,幾乎開創了一個新領域。 


---


ARC-AGI:AI智能的終極考驗 

ARC-AGI(Abstraction and Reasoning Corpus for AGI)是一個極具挑戰性的評估標準,旨在測試AI的抽象推理能力。其任務要求AI在完全陌生的環境中識別模式並解決問題,真正考驗其適應性和通用智能。 


過去幾代AI模型在ARC-AGI上的表現如下: 

- GPT-2 (2019): 0% 

- GPT-3 (2020): 0% 

- GPT-4 (2023): 2% 

- GPT-4o (2024): 5% 

- o1-preview (2024): 21% 

- o1 (2024): 32% 

- o1 Pro (2024): ~50% 


而今天,o3的得分達到了驚人的87.5%,遠超人類閾值分數85%。從2019年的0%到如今的87.5%,這段旅程堪稱AI發展的奇蹟,僅用半年時間便實現了從5%到87.5%的飛躍。 


如果將AI模型的進化比作DOTA的分段,過去的競爭還停留在“傳奇”階段,而o3已經一躍成爲“超凡入聖”,傲視羣雄。 


---


未來展望:2025年,AI行業的全新篇章 

儘管o3的表現令人驚豔,但目前它仍屬於“期貨”階段,僅向紅隊(安全測試團隊)開放申請。OpenAI計劃在2025年初推出基於o3的小型模型“o3-mimi”,預計在1月底開放,但很可能僅限Pro會員使用。 


隨着o3的發佈,AI行業的未來更加令人期待。推理模型、智能代理(Agent)、AI硬件以及世界模型的進化,都將推動整個行業邁向更高的臺階。2024年只是一箇中間態,而2025年,將是AI技術全面爆發的一年。 


你準備好迎接這一切了嗎?


---


OpenAI 12天直播發布回顧(想看之前的朋友可以去主頁,每天都有介紹)


OpenAI直播第1天:上線o1滿血版,推出200美刀的Pro會員

OpenAI直播第2天:強化微調

OpenAI直播第3天:Sora正式上線!

OpenAI直播第4天:ChatGPT Canvas更新

OpenAI直播第5天:ChatGPT和Apple

OpenAI直播第6天:高級語音模式-視頻通話

OpenAI直播第7天:發佈 Projects

OpenAI直播第8天:搜索功能更新

OpenAI直播第9天:發佈o1 api

OpenAI直播第10天:給chatgpt打電話

OpenAI直播第11天:客戶端升級

OpenAI直播第12天:王炸!o3模型!

更多遊戲資訊請關註:電玩幫遊戲資訊專區

電玩幫圖文攻略 www.vgover.com