1月,OpenAI宣布進軍AI智能體領域,中國公司智譜也推出了新版的GLM-PC 1.1。從回答問題到執行任務,AI智能體的發展進入了新的階段。
當地時間1月23日,美國人工智能公司OpenAI推出了首款AI智能體Operator。這款智能體能夠模擬人類操作瀏覽器完成購物、訂餐、論文整理等任務,通過融合視覺識別與高級推理的CUA模型實現復雜步驟規劃。工作流程中,Operator會依據需求捕獲屏幕畫面,通過GPT-4o的視覺能力理解界面內容,再依靠強化學習制定下一步計劃,并使用虛擬鼠標和鍵盤執行點擊、滾動或輸入等操作,直至任務完成或需要用戶輸入。目前,Operator將以每月200美元的訂閱費面向美國ChatGPT Pro用戶開放測試。
同一天,中國公司智譜AI發布了去年12月公布的AI智能體GLM-PC 1.0的升級版——GLM-PC 1.1。本次更新優化了多種任務流程,不僅能夠自動處理文件、發送定制化微信內容,還借鑒了人類左右腦分工的概念,以“左腦邏輯+右腦感知”的雙引擎架構實現多模態交互,甚至生成代碼與視頻內容,展示了超越文本生成的操作層突破。智譜公眾號文章演示了在淘寶中一鍵加購辣條等產品、截取小紅書春節檔圖片轉發微信群聊并詢問觀看意愿、以及給群聊成員每人單獨發送一段2025年新春祝福語和AI自動生成的蛇年主題圖片。這些新春祝福甚至可以按照每個人的名字進行定制發送。
新版GLM-PC的背后是智譜自主研發的多模態模型CogAgent與代碼模型CodeGeex的深度融合。該系統以代碼形式指揮工作流程和工具調用,強化了深度思考模式下的規劃、推理、反思能力,從而能夠穩定高效地應對復雜場景與任務。實際執行時,GLM-PC能感知多層環境反饋,協助反思,以有效自我糾正與優化。
目前,通用人工智能技術已進入L3級(智能體)階段,核心競爭圍繞各家企業模型的自主操作能力展開。除了OpenAI和智譜,谷歌、微軟、Anthropic以及國內多家AI公司也都相繼推出類似產品。上海人工智能產業研究院院長朱兆穎預測,AI智能體將是生成式AI的下一個前沿,預計2025年市場規模將達100億美元以上,2025年將成為AI智能體大放異彩的應用元年。