【太平洋科技快讯】微软在官网开源了一款名为Magma的多模态AI Agent基础模型。与传统AI Agent相比,Magma具有跨越数字和物理世界的能力。它能够自动处理图像、视频、文本等多种类型的数据,实现不同领域的信息融合。
作为视觉语言动作(VLA)基础模型之一,Magma能够从海量的公开视觉和语言数据中学习知识,融合语言、空间和时间智能,应对数字和物理世界中的复杂任务和环境。Magmahai 内置了心理预测功能,这使得它能够更准确地预测视频中人物或物体的意图和未来行为,这一功能大大提高了AI对未来时空动态的理解能力。