OpenAI發(fā)布ChatGPT Agent:能主動思考、自選工具,智能體賽道大變天 | 您所在的位置:網(wǎng)站首頁 › 屬猴與屬豬的合不合事業(yè)(yè) › OpenAI發(fā)布ChatGPT Agent:能主動思考、自選工具,智能體賽道大變天 |
今天凌晨1點,OpenAI進行了技術直播發(fā)布了重磅產品ChatGPT Agent。 ChatGPT Agent具備自主思考和行動的能力,能夠主動從其技能庫中選擇合適的工具,包括Operator、?Deep Research和ChatGPT來完成各種超復雜任務。 例如,用戶可以要求?ChatGPT Agent分析三個競爭對手并制作幻燈片演示文稿等請求。ChatGPT會智能地瀏覽網(wǎng)站、選擇日期、篩選結果、運行代碼,甚至自動生成經(jīng)過潤色的幻燈片演示文稿或電子表格。 也就是說你只需要一個提示,ChatGPT Agent就會幫你完成所有工作等待結果就好。 OpenAI首席執(zhí)行官Sam Altman還非常罕見地發(fā)表了一篇長文來說明ChatGPT Agent: 今天 我們推出了一款名為?ChatGPT Agent?的新產品。 Agent代表著?AI?系統(tǒng)能力的新高度,可以借助自身的計算機為你完成一些出色的復雜任務。它融合了Deep Research和?Operator?的核心優(yōu)勢,但實際功能比聽起來更強大,它能進行長時間思考、使用多種工具、進一步思考、采取行動,之后再深入思考,如此循環(huán)。 例如,在發(fā)布會上,我們展示了一個為朋友婚禮做準備的演示:購買服裝、預訂行程、挑選禮物等。我們還展示了一個工作場景的案例:分析數(shù)據(jù)并制作演示文稿。 盡管它的實用性很強,但潛在風險也不容忽視。 我們在其中內置了大量安全保障和警示機制,并且部署了比以往任何時候都更全面的風險緩解措施,從強化訓練、系統(tǒng)防護到用戶控制等方方面面都有覆蓋,但我們無法預判所有情況。本著迭代部署的原則,我們會向用戶發(fā)出重點警示,同時給予用戶自主選擇的空間,讓他們可以謹慎地使用各項功能。 如果要向我的家人解釋這款產品,我會說它處于技術前沿,尚在試驗階段;是一個體驗未來的機會,但在我們通過實際應用研究并改進它之前,不建議用它處理高風險事務或涉及大量個人信息的場景。 我們并不確切知道它會產生哪些影響,但不良分子可能會試圖?“欺騙”?用戶的?AI?代理,讓它們泄露不應泄露的隱私信息,或執(zhí)行不應執(zhí)行的作,而這些手段是我們無法預知的。我們建議,為了降低隱私和安全風險,僅向代理提供完成任務所需的最低權限。 比如,我可以讓?Agent?訪問我的日歷,以便為團體晚餐找到合適的時間。但如果只是讓它幫我買些衣服,就不需要授予任何額外權限。 像查看我昨晚收到的郵件,并自主處理所有需要處理的內容,無需進一步詢問這類任務,風險會更高。這可能導致惡意郵件中的不可信內容欺騙模型,造成你的數(shù)據(jù)泄露。 我們認為,從實際應用中學習至關重要,同時人們也應在我們更好地量化和緩解潛在風險的過程中,謹慎、逐步地采用這些工具。與其他新的能力層級一樣,社會、技術以及風險緩解策略需要協(xié)同發(fā)展。 技術架構方面,ChatGPT Agent通過其虛擬計算機處理任務,能夠流暢地在推理與執(zhí)行之間切換。在面對復雜任務時,不僅能夠進行邏輯推理,還能夠實際執(zhí)行任務,從而獨立完成復雜的多步驟任務。 例如,當用戶要求?ChatGPT Agent“查看我的日歷,并根據(jù)最新動態(tài)簡要匯報即將舉行的客戶會議”時,能夠理解任務需求,主動從日歷應用中獲取信息,并整理出簡潔的匯報內容。 ChatGPT Agent另一個重要功能模塊是其多工具集成能力,將?Operator?的網(wǎng)站交互能力、Deep Research的信息整合能力以及?ChatGPT的深度對話能力融合在一起,形成統(tǒng)一的智能體系統(tǒng)。 Operator的能力使得?ChatGPT?智能體能夠在網(wǎng)頁上滾動、點擊和輸入文本,從而與網(wǎng)站進行直接互動;而Deep Research則擅長分析和總結信息,能夠幫助?ChatGPT?智能體處理復雜的多步驟任務。 此外,ChatGPT Agent還配備了多種網(wǎng)絡工具,包括可視化瀏覽器、文本瀏覽器和直接API?訪問權限。這些工具為?ChatGPT?智能體提供了不同的網(wǎng)絡信息訪問與交互途徑,使其能夠選擇最優(yōu)路徑以最高效地完成任務。 例如,可以通過?API?快速獲取財務數(shù)據(jù)或體育賽事比分,同時也能與主要面向人類設計的網(wǎng)頁進行視覺交互。所有這些作均通過?ChatGPT?自身的計算環(huán)境完成,無論采用何種工具組合,任務全程的相關背景信息均會共享。 在執(zhí)行任務時,ChatGPT?智能體能夠動態(tài)學習并優(yōu)化其工作方式。通過強化學習,模型在執(zhí)行任務時會根據(jù)結果調整其策略,從而不斷改進其性能。這種動態(tài)學習能力使得?ChatGPT?智能體能夠根據(jù)不同的任務需求靈活調整其行動策略,提高任務完成的速度和準確性。 ChatGPT Agent還專為迭代式、協(xié)作式工作流程設計,顯著提升了其交互性和靈活性。在任務執(zhí)行過程中,用戶可以隨時中斷對話以澄清指令、重新定位任務方向,或引導其朝向預期結果。ChatGPT?智能體會從中斷處繼續(xù),同時整合新信息,但不會丟失先前進展。使得用戶能夠在任務執(zhí)行過程中隨時調整任務方向,確保任務結果符合用戶的預期。 在安全性方面,ChatGPT?智能體的設計也充分考慮了用戶的安全需求。在執(zhí)行涉及敏感或重要作前,ChatGPT會明確征得用戶的授權,確保用戶始終掌握控制權。此外,ChatGPT?智能體還具備主動監(jiān)督和風險緩解功能,能夠主動拒絕高風險任務,例如,金融交易或敏感法律互動。 根據(jù)OpenAI公布的測試數(shù)據(jù)顯示,ChatGPT Agent?在多項測試中表現(xiàn)優(yōu)異。在?“人類終極考試”?中,單次嘗試通過率達41.6的新SOTA成績,采用并行策略時分數(shù)提升至44.4;在“前沿數(shù)學”基準中,準確率達27.4%,大幅超越以往模型。 在模擬復雜現(xiàn)實世界任務的內部基準測試中,針對復雜且具經(jīng)濟價值的知識型工作任務,其輸出在約一半案例中與人類相當或更好,顯著優(yōu)于o3和o4-mini,涵蓋多種現(xiàn)實專業(yè)工作。 在DSBench?中表現(xiàn)顯著超越人類;在SpreadsheetBench?中大幅優(yōu)于現(xiàn)有模型,被賦予直接編輯電子表格能力時得分達?45.5%,遠超?Excel?中Copilot?的?20.0%。 在衡量投資銀行分析師建模任務能力的內部基準中,顯著優(yōu)于深度研究和?o3,涉及多種建模任務,均按數(shù)百項標準評分。 在BrowseComp基準中以68.9%?的成績創(chuàng)SOTA,比深度研究高17.4 %;在WebArena中表現(xiàn)優(yōu)于由o3驅動的CUA。 有網(wǎng)友表示,ChatGPT Agent更像是Manus 2.0。Manus剛推出時概念確實很有意思,但它太不穩(wěn)定了,根本沒法好好用。 很期待體驗?ChatGPT Agent,看看它是否能配得上這些熱度,這算是向?AGI又邁進了一步嗎? 這真的太令人興奮了,已經(jīng)迫不及待想嘗試了。而且我完全認同這種做法:“強大的智能體可能擁有超強能力,但同時也伴隨著巨大風險。風險不僅來自惡意攻擊者,還包括幻覺問題。讓我們一起探索,去理解其中的深層影響吧。 團隊這次更新太棒了,對此我非常期待。盼著能用起來,也期待著它會隨著時間推移變得更強大。 我很欣賞你們把它交到我們手中的做法,沒有等到那個遙不可及的零風險高標準才發(fā)布。在我看來,帶著提醒和注意事項去信任用戶,這做法非常好。 這太不可思議了!看著人工智能真的能瀏覽網(wǎng)站、完成實際任務,感覺就像科幻小說照進了現(xiàn)實。我已經(jīng)在琢磨,這能如何為內容創(chuàng)作者和小企業(yè)簡化工作流程了。生產力革命,從現(xiàn)在開始! 來源:AIGC開放社區(qū),原文標題:《OpenAI深夜發(fā)布ChatGPT Agent:能主動思考、自選工具,智能體賽道大變天》 風險提示及免責條款 市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用戶特殊的投資目標、財務狀況或需要。用戶應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據(jù)此投資,責任自負。 |
今日新聞 |
推薦新聞 |
專題文章 |
CopyRight 2018-2019 實驗室設備網(wǎng) 版權所有 |