您当前的位置是:  首页 > 技术 > 技术动态 >
 首页 > 技术 > 技术动态 > AI生成更接近人类感知 Meta开源新模型ImageBind

AI生成更接近人类感知 Meta开源新模型ImageBind

2023-05-11 11:39:46   作者:   来源:CTI论坛原创   评论:0  点击:


  Meta 宣布开源新的 AI 模型,可将多种不同方式的数据数据连结在一起,未来可望创造身临其境的多种感官体验。

  Meta开源的新模型ImageBind,是第一个能够一次从6种不同方式结合信息的AI模型。 核心概念是将 6 种类型的数据数据链接到单一的 embedding space,包括视觉数据(图片和视频的形式)、热(像是红外线影像)、文字、音频、深度信息,以及最耐人寻味的 IMU(Inertial Measurement Unit,惯性测量单元)读数。

   ImageBind 模型的概念架构

  这听起来有点抽象,但正是这个概念支撑起近来生成式 AI 的蓬勃发展。

  比方说,Midjourney、Stable Diffusion、DALL-E 等文字转成图片的 AI 工具,在模型训练阶段就将文字和图片链接在一起,它们在视觉数据中寻找模式,同时将信息和图片描述链接在一起。 这就是这些 AI 工具能够根据用户的文字提示产生图片的原因,许多同样以文字提示产生视频或音频的 AI 工具也是如此。

  在这概念下,未来的 AI 系统统能以同样的模式交叉引用数据资料。 比方说,想象有个新的虚拟现实设备,它不仅可以产生声音、视觉影像,还能产生物理环境中的动作感受。 当你想要模拟一趟海上之旅,虚拟现实系统不仅让你置身在一艘船上,背景有海浪声,还会让你感受脚下的甲板摇晃、吹来凉爽的海风等等。

  Meta 认为其他感官的数据资料,未来可望加入模型当中,例如触摸、口语、气味或者大脑 fMRI(功能性磁振造影)等。

  虽然ImageBind只是Meta旗下一项项目,还没有具体应用成果,却指出生成式AI未来一大发展方向,同时对应到Meta重金投入的虚拟现实、混合实境以及元宇宙等愿景。

  ImageBind 的研究不仅很有意思,Meta 更是坚定站在开源阵营当中,相较于 OpenAI、Google 等公司有不同做法。 ImageBind 也延续 Meta 既有策略,向开发者和研究人员公开研究成果。

【免责声明】本文仅代表作者本人观点,与CTI论坛无关。CTI论坛对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。

相关阅读:

专题

CTI论坛会员企业