首页 AI资讯内容详情

Meta 开源多感官 AI 模型，结合六种数据

2023-05-10 250 daifeng

Meta 宣布了一种新的开源 AI 模型，该模型将多个数据流连接在一起，包括文本、音频、视觉数据、温度和运动读数。

该模型目前只是一个研究项目，没有直接的消费者或实际应用，但它指出了生成式人工智能系统的未来，可以创造身临其境的多感官体验，并表明 Meta 在竞争对手持续分享人工智能研究的时候像 OpenAI 和 Google 都变得越来越隐秘。

该研究的核心概念是将多种类型的数据链接在一起，形成一个单一的多维索引（或“嵌入空间”，使用 AI 术语）。这个想法可能看起来有点抽象，但正是这个相同的概念支撑了最近生成人工智能的繁荣。

多模态 AI 模型是生成式 AI 热潮的核心

例如，DALL-E、Stable Diffusion 和 Midjourney 等 AI 图像生成器都依赖于在训练阶段将文本和图像链接在一起的系统。他们在将信息与图像描述联系起来的同时寻找视觉数据中的模式。这就是使这些系统能够根据用户的文本输入生成图片的原因。许多以相同方式生成视频或音频的人工智能工具也是如此。

Meta 表示，其模型 ImageBind 是第一个将六种类型的数据组合到单个嵌入空间中的模型。模型中包含的六种数据类型是：视觉（以图像和视频的形式）；热（红外图像）；文本; 声音的; 深度信息；以及——最有趣的是——由惯性测量单元或 IMU 生成的运动读数。（IMU 存在于手机和智能手表中，它们用于执行一系列任务，从将手机从横向切换为纵向到区分不同类型的身体活动。）

Screenshot_2023_05_09_at_10.26.38.webp

Meta 的 ImageBind 模型结合了六种类型的数据：音频、视觉、文本、深度、温度和运动。图片：元

这个想法是，未来的人工智能系统将能够以与当前人工智能系统对文本输入相同的方式交叉引用这些数据。例如，想象一个未来的虚拟现实设备，它不仅可以生成音频和视觉输入，还可以生成您在物理舞台上的环境和动作。你可能会要求它模拟一次长途航行，它不仅会让你置身于一艘背景为海浪声的船上，还会有你脚下甲板的摇晃和凉爽的海风。

在一篇博客文章中，Meta 指出，其他感觉输入流可以添加到未来的模型中，包括“触摸、语音、气味和大脑 fMRI 信号”。它还声称这项研究“使机器更接近人类同时、整体和直接从许多不同形式的信息中学习的能力。” （当然，不管怎样。取决于这些步骤有多小。）

当然，这一切都是推测性的，而且像这样的研究的直接应用可能会更加有限。例如，去年，Meta 展示了一种 AI 模型，该模型可以根据文本描述生成短而模糊的视频。像 ImageBind 这样的工作展示了系统的未来版本如何合并其他数据流，例如生成音频以匹配视频输出。

不过，对于行业观察家来说，这项研究也很有趣，因为 Meta 正在开源底层模型——人工智能领域越来越受到审查的实践。

那些反对开源的人，比如 OpenAI，表示这种做法对创作者有害，因为竞争对手可以复制他们的作品，而且它可能具有潜在危险，让恶意行为者可以利用最先进的人工智能模型。拥护者回应说，开源允许第三方检查系统的错误并改善他们的一些失败。他们指出，它甚至可能提供商业利益，因为它实质上允许公司招募第三方开发人员作为无偿工人来改进他们的工作。

到目前为止，Meta 一直坚定地站在开源阵营中，尽管并非没有困难。（例如，其最新的语言模型 LLaMA 今年早些时候在网上泄露。）在许多方面，它在 AI 方面缺乏商业成就（该公司没有与 Bing、Bard 或 ChatGPT 竞争的聊天机器人）使得这种方法成为可能。同时，对于 ImageBind，它将继续执行此策略。

相关标签： # Meta # AI模型 # ai # 人工智能

评论列表（0条）

暂无评论，快来抢沙发吧~

发布评论取消回复