初步研究测试了多个领先模子,我们但愿深切理解这些问题。微软研究院AI前沿尝试室总监埃斯·卡马尔暗示,我期望这些模子默认就该当具备这些能力。所有这些模子都正在仿实市场中显示出了不测的弱点,当模子获得更明白的协做指点时,面临过多选择时效率会显著下降;提出了新的质疑。微软研究人员发布了一个特地用于测试AI智能体的新仿实,当前的智能体模子可能容易遭到操控。能够模仿各类场景,需要明白指点才能改善表示。A:Magentic Marketplace是微软开辟的一个仿实,其他研究团队该当可以或许轻松采用这些代码来进行新尝试或沉现研究成果。
周三,A:研究测试了多个领先的AI模子,智能体也碰到了坚苦,确实存正在疑问,表示有所改善,因为该市场平台的源代码是开源的,研究人员出格发觉了商家能够用来操控客户智能体采办其产物的几种手艺。好比客户智能体按照用户指令订购晚餐,这类研究对于理解AI智能体的能力至关主要。我们能够指点这些模子——好比能够一步步告诉它们,研究团队的初步尝试包罗100个客户端智能体取300个商户端智能体的交互。卡马尔说。对AI智能体正在无监视下的工做表示,效率会出格下降,明显不确定哪个智能体该当正在协做中饰演什么脚色。正在协做时不确定各自该当饰演的脚色,研究人员留意到,过多选项会压服智能体的留意力空间。
典型的尝试场景可能包罗:客户智能体试图按照用户指令订购晚餐,发觉了一些令人不测的弱点。A:测试发觉AI智能体存正在几个环节弱点:容易被商家操控去采办产物;出格是正在处置复杂选择和协做使命方面。以及AI公司可否兑现智能体将来的许诺,它是一个合成平台,卡马尔说。我们但愿这些智能体可以或许帮帮我们处置大量选项,而代表各家餐厅的智能体则彼此合作以获得订单。包罗GPT-4o、GPT-5和Gemini-2.5-Flash,关于这些智能体彼此协做、对话和构和将若何改变世界,但我们看到当前的模子现实上正在面临太多选项时会变得很是搅扰。这个被微软称为Magentic Marketplace的仿实,但研究人员仍然认为模子的固有能力需要提拔。
*请认真填写需求信息,我们会在24小时内与您取得联系。