OpenAI ChatGPT 上新 Deep Research:刷榜“人類最後的考試”

2025年2月3日,OpenAI在一次臨時召開的發佈會上,推出了名爲“Deep Research”的新功能。該功能旨在將推理大模型的思考能力應用於聯網搜索,使其能夠在數十分鐘內完成通常需要人類專家數小時才能完成的複雜研究任務。

在被稱爲“人類最後的考試”的測試中,Deep Research刷新了最高分,比之前的o3-mini高推理設置分數高出一倍。該測試包含3000多個多選和簡答題,涵蓋從語言學、火箭科學到生態學的100多個主題。與o1相比,Deep Research在化學、人文和社會科學以及數學領域表現尤爲突出,展現了類似人類在必要時尋找專業信息的能力。

在另一項名爲GAIA的測試中,Deep Research在現實世界問題的評估中也刷新了記錄。出於保護基準測試的目的,OpenAI僅展示了Deep Research在完成這些任務時的搜索過程,隱去了最終答案。

目前,Deep Research功能將對Pro、Plus和Team用戶開放。Plus用戶每月可使用約10次,免費用戶也能獲得少量的使用額度。OpenAI表示,正在構建一個更高效的版本,以滿足用戶需求。

OpenAI指出,Deep Research專爲在金融、科學、工程等領域從事高強度知識工作、需要深入精確且可靠研究的人羣設計。該功能由OpenAI o3驅動,通過基於真實任務(涉及瀏覽器和Python工具的使用)的訓練,採用了與o1相同的強化學習方法。用戶只需輸入一個提示,Deep Research就會查找、分析並整合數百個在線資源,生成一份達到研究分析師水平的綜合報告。

使用方法上,用戶可以點擊輸入框下方的Deep Research按鈕,並支持上傳文件以添加額外資料。例如,用戶可以要求編寫一份關於過去三年零售業變化的研究報告,並運用項目符號和表格來提升內容的清晰度。在此過程中,ChatGPT會確認問題細節信息,然後開始分析和挖掘信息。側邊欄會顯示所採取的步驟摘要和使用的信息來源。完成任務的時間大概是5至30分鐘,最終結果將以報告的形式輸出。

OpenAI表示,接下來幾周內,將爲這些報告添加嵌入式圖片、數據可視化和其他分析輸出。與GPT-4o等相比,Deep Research對於需要深度和細節的多方面、特定領域的問題,能夠進行廣泛探索並引用每個觀點。然而,OpenAI也指出了Deep Research的侷限性,包括有時會在回覆中產生事實幻覺或做出錯誤的推斷,可能在區分權威信息和謠言方面遇到困難,以及在自信度校準方面表現出弱點,常常無法準確傳達不確定性。此外,報告和引用中可能會有輕微的格式錯誤,並且啓動任務可能需要更長的時間。

下一步,OpenAI計劃在本月內將Deep Research推向移動和桌面App端。目前,Deep Research可以訪問公開網絡和上傳的文件,未來將能夠連接到更多專業化的數據源,使其輸出更加穩健和個性化。OpenAI預見,ChatGPT將實現Agent體驗的融合,用於異步、現實世界的研發和執行。Deep Research(可進行異步在線調查)與Operator(可進行現實行動)的結合,將使ChatGPT能夠執行越來越複雜的任務。

OpenAI研究員Jason Wei表示,Deep Research不僅是出色的Agent,也可以被視爲互聯網的新界面。人類使用互聯網需要大量時間來搜索和點擊,受到時間和注意力的限制。而AI永遠不會疲倦,可以一次瀏覽許多網站,並擁有幾乎無限的世界知識。他認爲,將來,通過瀏覽器手動瀏覽互聯網將過時,就像手動計算數字而不使用計算器一樣。

OpenAI toG業務負責人Felipe Millon分享了一個個人故事。他的妻子被診斷出患有雙側乳腺癌,在手術後,他們面臨是否應該接受放療的決策。Millon使用Deep Research上傳了手術報告,並詢問ChatGPT的建議。ChatGPT不僅證實了人類專家提到的內容,還搜索出了全新的參考研究。Millon認爲,這是一個將改變世界的工具。

此外,一些第三方團隊提前獲得了Deep Research的測試資格,並分享了測試結果。他們的測試包括撰寫從2020年到今天每一天的歷史、分析文學作品以及查閱財務報告以發現未報告的財務違規行爲等。測試中發現的侷限性包括有時信息缺失引用來源、沒有“停止”按鈕以及搜索偏離主題時需要重新開始等。

總體而言,Deep Research的推出標誌着OpenAI在開發AGI(通用人工智能)的宏偉目標上邁出了重要一步。

更多遊戲資訊請關註:電玩幫遊戲資訊專區

電玩幫圖文攻略 www.vgover.com