字节 Seed 开源 UI-TARS-1.5:基于视觉-语言模型构建的多模态智能体
作者:灵犀软件园时间:2025-04-19 09:31:02
本站 4 月 18 日消息,本站从豆包大模型团队获悉,UI-TARS-1.5 昨日正式发布并开源。这是一款基于视觉-语言模型构建的开源多模态智能体,能够在虚拟世界中高效执行各类任务。
有关的链接如下:
GitHub:https://github.com/bytedance/UI-TARS
Website:https://seed-tars.com/
Arxiv:https://arxiv.org/abs/2501.12326
UI-TARS-1.5 基于字节此前提出的原生智能体方案 UI-TARS,通过强化学习进一步增强了模型的高阶推理能力,使模型能够在“行动”前先进行“思考”。
该版本的模型中,团队还展示了一个新的愿景:以游戏为载体来增强基础模型的推理能力。与数学、编程等领域相比,游戏更多依赖直观的、常识性的推理,并较少依赖专业知识,因此,游戏通常是评估和提升未来模型通用能力的理想测试场景。
据介绍,UI-TARS 是一个原生 GUI 智能体,具备真实操作电脑和手机系统的能力,同时,还可操控浏览器、完成复杂交互任务。UI-TARS-1.5 能够实现精准 GUI 操作,基于团队在四个维度的技术探索:
视觉感知增强:依托大规模界面截图数据,模型可理解元素的语义与上下文,形成精准描述。
System 2 推理机制:在动作前生成“思维(thought)”,支持复杂任务的多步规划与决策。
统一动作建模:构建跨平台标准动作空间,通过真实轨迹学习提升动作可控性与执行精度。
可自我演化的训练范式:通过自动化的交互轨迹采集与反思式训练,模型持续从错误中改进,适应复杂环境变化。
相关文章
-
字节 Seed 开源 UI-TARS-1.5:基于视觉-语言模型构建的多模态智能体
本站 4 月 18 日消息,本站从豆包大模型团队获悉,UI-TARS-1 5 昨日正式发布并开源。这是一款基于视觉-语言模型构建的开源多模态智能体,能够在虚拟世界中高效执行各类任务。有关的链接如下:G
-
苹果 Apple Pencil 专利曝光,未来可支持 5G / 卫星无线通信
本站 4 月 18 日消息,科技媒体 patentlyapple 昨日(4 月 17 日)发布博文,报道称苹果公司获批一项新专利,涉及未来的 Apple Pencil(USB-C)设计,让其支持无线通
-
美国当局关税政策背景下,消息称苹果开始在巴西组装 iPhone 16e 手机
本站 4 月 18 日消息,据外媒 MacMagazine 报道,富士康正在悄悄调整苹果 iPhone 供应链布局,开始在巴西组装 iPhone 16e。据悉,相应巴西版 iPhone 16e 手机的
-
谷歌也要“送 AI 进校园”:美国大学生可限时免费订阅 Google One AI Premium 计划
本站 4 月 18 日消息,据外媒 The Verge 今日报道,谷歌成为最新一位加入高校市场竞争的 AI 服务商。从即日起,美国大学生可以免费订阅 One AI Premium,直到 2026 年
-
制造商 Woojer 推出 Haptic Vest 3 震动背心外设:VR / XR 游戏下可直观感受手雷爆炸等场景
本站 4 月 18 日消息,制造商 Woojer宣布推出一款 Haptic Vest 3 震动背心外设,该外设主要用于VR XR游戏场景,号称可以让玩家直观感受到游戏场景中的手雷爆炸、被枪械击中等
-
调查显示日本年轻玩家持续热衷游戏内付费,更有近两成玩家生活费因此短缺
本站 4 月 18 日消息,根据外媒 Automaton 15 日报道,日本三井住友银行集团旗下 SMBC 消费金融近日公布了年度在线调查的最新结果。今年 2 月,调查团队邀请了 1000 名 20