
速途網3月29日消息(報道:李楠)近日,昆侖萬維2050全球研究院、新加坡南洋理工大學、蘇黎世聯邦理工學院研究團隊聯手開源了數字智能體全流程研發工具包AgentStudio,旨在為研究人員和開發者提供一個覆蓋智能體完整開發流程的綜合性平臺,讓開發者們能夠輕松、高效、靈活地構建專屬數字智能體。
AgentStudio所提供的工具涵蓋數字智能體開發的全部流程,包括智能體觀察與動作空間、跨平臺的在線環境支持、交互式數據收集與評估、可擴展的任務套件、以及相應的圖形界面。此外,研究團隊還評估了多個多模態大模型完成數字世界任務的能力。
AgentStudio是一個完全免費的開源項目,項目團隊希望通過這一開源努力,與人工智能社區攜手加速智能體技術發展,促進前沿知識共享與合作。目前,AgentStudio相關論文、代碼、數據、文檔已全部公開。
論文標題:AgentStudio: A Toolkit for Building General Virtual Agents
論文鏈接:https://arxiv.org/abs/2403.17918
項目主頁與文檔:https://skyworkai.github.io/agent-studio/
開源代碼:https://github.com/SkyworkAI/agent-studio
Leaderboard:https://huggingface.co/spaces/Skywork/agent-studio-leaderboard

(AgentStudio論文截圖)
智能體:大模型產業最前沿
近來,隨著大模型技術在自然語言理解、工程能力、數據能力、存儲能力等領域的突破,大量以大模型技術驅動的智能體(Agents)不斷涌現,在通用性、實用性、可落地性等方面都表現卓越。
不同于傳統軟件程序,基于大模型能力打造的AI智能體具備感知環境、進行決策、執行動作等能力,并能夠通過獨立思考、調用工具去逐步完成給定目標,成為當前全球AI大模型領域的關注最前沿。此前,昆侖萬維已經推出“天工SkyAgents”AI Agents開發平臺,用戶可以通過自然語言和簡單操作,無需代碼編程,即可在幾分鐘之內部署屬于自己的AI Agents。
現如今,在大模型的助力下,數字智能體(virtual agents)可以通過操控手機電腦上的軟件幫助人們完成許多日常工作,提高工作效率。
然而,當前數字智能體的進展很大程度上受到了基準環境和數據來源的限制,他們大都僅在簡單、受限的場景下評估與演示,從而掩蓋了面臨的挑戰,離真正落地需要的可用性與可靠性仍有較大距離,然而缺乏全面、真實的收集數據環境又阻礙了這些智能體能力的進一步提升。
AgentStudio工具包的開發,正是基于當前人工智能領域對高效、可擴展智能體開發工具的迫切需求。該工具包不僅包括了智能體觀察與動作空間的定義工具,還提供了跨平臺的在線環境支持,使得開發者可以在不同的平臺和設備上進行智能體的開發與測試。此外,AgentStudio還支持交互式數據收集與評估,以及可擴展的任務套件,極大地增強了其實用性和靈活性。
AgentStudio:靈活、通用、可擴展



(AgentStudio架構及環境介紹。AgentStudio是一個支持與真實世界計算機在線交互的平臺。與現有環境相比,它具有最通用的智能體觀察和動作空間,同時提供了對工具制造與使用、收集人類反饋與數據集等功能的支持。)
目前,全球有多種數字智能體開發工具包,支持不同的開發環境和應用領域。與現有工具相比,AgentStudio的主要優勢在于:
目前,全球有多種數字智能體開發工具包,支持不同的開發環境和應用領域。與現有工具相比,AgentStudio的主要優勢在于:
- 可復現、多模態、跨平臺的在線環境:AgentStudio支持通過Docker、VNC、FastAPI以及虛擬機等方式便捷地連接包括Windows、MacOS、Linux等各種操作系統與設備,相比現有環境更加注重真實落地場景。
- 統一的標準化的輸入輸出:為了支持智能體和盡可能多地各種軟件進行交互,AgentStudio采用了最為通用的輸入輸出方式,既支持像人一樣通過觀察電腦屏幕的圖像作為輸入,操作鍵盤鼠標和命令行作為輸出,也支持進行函數調用和使用API,達到通用計算機控制。
- 全面、可擴展、可組合的任務集:AgentStudio包含了在十余個應用上用于全面評估AI智能體完成指令的能力,全方位覆蓋各種應用軟件,如文檔操作、郵件處理、日歷使用、音樂播放、視頻編輯器、代碼編輯器等,涵蓋復雜真實應用場景,同時包含了范圍從單個底層操作到跨任務的組合性任務的不同難度的多級任務。AgentStudio基于該任務集,公開了相應的leaderboard。
- 完整的智能體數據收集與評估代碼:AgentStudio的功能不僅包含了對智能體能力的評估,而且包含了完整開源的數據集收集代碼,可用于人工標注數據集,也可用于智能體自行收集經驗。
- 關注工具創造與使用:在開放域中的工具創造與使用是AI智能體的核心能力之一。以電腦為例,AgentStudio為智能體提供了最通用的三類工具:鍵盤、鼠標、與命令行,同時支持智能體進一步在交互過程中自行創造并復用新的工具,如用于創建、修改日歷的工具集,實現智能體的不斷自我提升。
- 交互式可視化界面:?AgentStudio提供用戶友好的輕量化GUI界面,幫助用戶方便快捷地一鍵自動化創建任務并搜集數據。以下流程圖將直觀呈現使用AgentStudio創建任務并收集數據的過程。通過AgentStudio提供的用戶友好的界面,用戶可以實現跨平臺的人工演示的錄制,包括輸入任務指令、通過交互界面得到坐標、編輯和運行代碼、記錄智能體軌跡等一系列功能,這些大幅簡化了大規模數據收集的難度,為下一代智能體數據規模化提供了基礎。


使用AgentStudio創建任務并收集數據以及與環境交互的過程
多維度全面評估
除了搭建工具包外,研究團隊還評估了多個多模態大模型完成數字世界任務的能力。為了全面評估智能體的能力,AgentStudio的結果從多個維度入手:
- 圖形界面grounding數據集:任務僅包含單步動作,指令為不需要規劃的底層操作,主要關注智能體和圖形界面交互的能力;
- 日常任務與組合性任務集:任務完成調用復雜API,或需要多步動作、并常常需要跨軟件交互。該任務集用于衡量智能體完成日常任務、以及進行復雜動作規劃的能力。
AgentStudio的評測結果還進一步分析了現有多模態模型在圖形界面grounding數據集表現不佳的可能原因和相應的改進方法,并衡量了模型自我評估的能力,這些都對智能體的自我提升和真實落地至關重要。根據評測結果,研究團隊在論文中還討論了若干有前景的研究方向,包括更通用的圖形界面grounding模型和算法、從視頻演示中學習等。



智能體全流程解決方案
從環境到智能體,從數據到評估,AgentStudio提供了一套完整的解決方案覆蓋了構建智能體的全過程,將極大地加速了智能體的發展。AgentStudio的建立在研究團隊對智能體、工具調用、代碼解釋器的深入理解與積累之上。
目前,研究人員已經開源了所有結果,包括環境的實現、智能體數據集、算法實現等,希望幫助人工智能社區搭建更多能夠完成復雜任務的AI智能體。歡迎感興趣的研究與開發者們下載使用,并關注AgentStudio團隊其他相關項目。
AgentStudio團隊其他相關工作:
Synapse:https://ltzheng.github.io/Synapse
Cradle:https://baai-agents.github.io/Cradle/
FinAgent:https://arxiv.org/abs/2402.18485