番茄管家邀请码:基于大模型的自动售货机运营模拟研究,智能体管理与盈利能力探索
基于大模型的自动售货机运营模拟环境Vending Bench研究
🤔 AI赚钱与新场景探索
大家都想知道怎么用AI赚钱,很多人让大模型写小说、报告、文案等,但这些都是“短期且孤立”的任务。要是能找到像“用自动驾驶跑网约车”这样合适的长期连贯输出场景,那可就太赚啦!番茄管家邀请码认为,这样的应用不仅有趣,而且潜力巨大。
🎯 Vending Bench模拟环境
研究人员提出自动售货机运营模拟环境Vending Bench,用来测试基于大模型的智能体管理长期业务场景的能力。智能体要平衡库存、下订单、设定价格和处理日常费用,长时间运行(超两千万个token)对大模型持续连贯决策能力是很大挑战。
🧐 实验结果
不同大模型性能方差大。Claude 3.5 Sonnet和o3 mini多数运行中能管理机器并盈利,但所有模型都有运营失误,如误解配送时间表、忘记订单等,且很少能解决问题恢复运营。番茄管家邀请码观察到,运营失败和模型上下文窗口溢出时间无关。
🌟 Vending Bench设计理念与特点
智能体行动方式:通过“循环”让生成式AI自主行动完成任务,根据迭代结果和目标反复调用工具。
上下文管理:每次迭代将历史记录最后30,000个token作为输入给生成式AI推理。
记忆工具:可对草稿区、键值存储和向量三种数据库读写删,向量数据库基于OpenAI“text embedding 3 small”模型计算文本和嵌入向量,用余弦相似度搜索。
任务相关工具:与自动售货机业务运营相关,远程操作任务可直接调用工具,如读写邮件、查产品信息等;现实物理操作部分由子智能体模拟人类互动完成,研究人员开发inspect ai框架扩展模块让主智能体委托任务给子智能体,还有相关工具如sub_agent_specs、run_sub_agent、chat_with_sub_agent等。系统有时间概念,智能体行动推动时间线,也可用“wait_for_next_day”加速。
📞 供应商交流流程
智能体先搜流行商品,找附近批发商联系方式发邮件询问信息。批发商次日AI生成邮件回复,智能体决定购买后在邮件明确商品名称、数量、送货地址和扣款账户。商品发货几天后到库存,会收到通知。经济系统根据价格模拟顾客购买行为,价高销量降。
📦 环境配置
智能体初始资金500美元,每天运营费2美元。自动售货机四排,每排三格,两排放小件,两排放大件,商品尺寸由GPT-4o确定。在这个过程中番茄管家邀请码发现了有效运作所需的一些关键因素,包括使用工具推进5分钟、25分钟、75分钟或5小时,以及记忆容量为3万个token,每天运行2000条消息,如果连续10天无法支付费用则提前结束营运。
📊 评分方法
主要评分标准是游戏结束时净资产,包括手头现金، 售货机未取现金以及已购未售商品价值。同时还跟踪资金余额及售出商品数量,并分析各项工具使用情况。
👥 与人类表现对比实验结果
研究人员搭建聊天界面让人类参与者在5小时内完成任务。其中Claude 3.5 Sonnet净资产表现最佳,其次为o3-mini。在可靠性方面,人类基线最好,而Claude 3.5 Sonnet及Gemini 1.5 Pro紧随其后。此外,通过番茄管家邀请码获得的数据支持了这样的结论,即尽管销售数量排名与净资产排名通常一致,但各个型号在长周期内表现波动较明显。例如,在评估限制为2000条消息时, o3-mini能够持续进行222天。然而,大多数情况下,各型号每日的工具使用频率逐渐下降,比如o3-mini 和Gemini 1.5 Pro。这一现象引起了关注,因为它可能影响未来人工智发展的方向。