我们站在人工智能革命的前沿。在过去的十年中,深度学习源于数据可用性和纯粹计算能力的地震碰撞,从而实现了许多令人印象深刻的 AI 功能。但我们面临着一个矛盾的挑战:自动化是劳动密集型的。这听起来像个笑话,但事实并非如此,任何尝试用 AI 解决业务问题的人都可能知道。
传统的人工智能工具虽然功能强大,但价格昂贵、耗时且难以使用。必须费力地收集、整理数据,并使用特定于任务的注释来标记数据,以训练 AI 模型。构建模型需要专门的、难以找到的技能——每一项新任务都需要重复这个过程。因此,企业主要关注具有丰富数据和高商业价值的自动化任务,而将其他一切都放在桌面上。但这种情况正在开始改变。
Transformer 和自我监督学习方法的出现使我们能够利用大量未标记的数据,为大型预训练模型(有时称为“基础模型”)铺平道路。这些大型模型降低了自动化所涉及的成本和劳动力。
基础模型为各种 AI 应用程序提供了强大而通用的基础。我们可以使用基础模型以有限的注释数据和最小的努力快速执行任务;在某些情况下,我们只需要描述手头的任务就可以诱使模型解决它。
但这些强大的技术也给企业带来了新的风险和挑战。当今的许多模型都是在质量和来源未知的数据集上训练的,这会导致冒犯性、有偏见或事实不正确的反应。最大的模型价格昂贵,训练和运行需要大量能源,而且部署起来很复杂。
我们 IBM 一直在开发一种方法来解决使用企业基础模型的核心挑战。今天,我们发布了 watsonx.ai,这是 IBM 通向当今市场上最新 AI 工具和技术的门户。为了证明该领域的发展速度有多快,一些工具才推出几周,而我们在撰写本文时正在添加新工具。
watsonx.ai(IBM本周宣布的更大的 watsonx产品的一部分)中包含的内容多种多样,并将继续发展,但我们的总体承诺是相同的:提供安全的、企业就绪的自动化产品。
这是我们在 IBM 正在进行的工作的一部分,旨在加速我们的客户从人工智能的这种新范例中获取价值的旅程。在这里,我将描述我们构建一套企业级、IBM 训练的基础模型的工作,包括我们的数据和模型架构方法。我还将概述我们的新平台和工具,使企业能够使用广泛的开源模型目录以及我们自己的模型来构建和部署基于基础模型的解决方案。
数据:基础模型的基础
数据质量很重要。在有偏见或有毒数据上训练的人工智能模型自然会产生有偏见或有毒的输出。这个问题在基础模型时代变得更加复杂,在这个时代,用于训练模型的数据通常来自许多来源,而且非常丰富,以至于没有人能够合理地梳理所有这些数据。
由于数据是驱动基础模型的燃料,我们 IBM 专注于精心策划进入我们模型的所有内容。我们开发了人工智能工具来针对仇恨和亵渎、许可限制和偏见积极过滤我们的数据。当识别出令人反感的数据时,我们将其删除,重新训练模型,然后重复。
数据管理是一项从未真正完成的任务。我们继续开发和改进新方法来提高数据质量和控制,以满足不断变化的法律和监管要求。我们已经构建了一个端到端的框架来跟踪已清理的原始数据、使用的方法以及每个数据点接触的模型。
我们继续收集高质量数据,以帮助解决金融、法律、网络安全和可持续发展等一系列领域中一些最紧迫的业务挑战。我们目前的目标是使用超过 1 TB 的精选文本来训练我们的基础模型,同时添加精选的软件代码、卫星数据以及 IT 网络事件数据和日志。
IBM Research 还在开发在整个基础模型生命周期中注入信任的技术,以减少偏见并提高模型安全性。我们在这一领域的工作包括FairIJ,它可以识别用于调整模型的数据中有偏差的数据点,以便可以将它们编辑掉。其他方法,如公平重编程,即使在训练后也能减轻模型中的偏差。
专注于企业价值的高效基础模型
IBM 的新 watsonx.ai 工作室提供了一套旨在提供企业价值的基础模型。它们已被整合到一系列 IBM 产品中,这些产品将在未来几个月内提供给 IBM 客户。
认识到一种尺寸并不能满足所有需求,我们正在构建一系列不同尺寸和架构的语言和代码基础模型。每个模型系列都有一个以地质学为主题的代号——Granite、Sandstone、Obsidian 和 Slate——它们汇集了 IBM Research 和开放研究社区的前沿创新。每个模型都可以针对一系列企业任务进行定制。
我们的Granite模型基于仅用于生成任务的解码器类 GPT 架构。Sandstone模型使用编码器-解码器架构,非常适合对特定任务进行微调,可与谷歌流行的 T5 模型互换。Obsidian模型利用 IBM Research 开发的新模块化架构,提供高推理效率和跨各种任务的性能水平。Slate指的是一系列仅编码器(基于 RoBERTa)的模型,虽然不是生成式的,但对于许多企业 NLP 任务来说是快速有效的。所有 watsonx.ai 模型都在 IBM 精心策划的、以企业为中心的数据湖和我们定制设计的云原生 AI 超级计算机Vela上进行训练。
效率和可持续性是 watsonx.ai 的核心设计原则。在 IBM Research,我们发明了用于高效模型训练的新技术,包括我们的“ LiGO ”算法,它可以回收小模型并将它们“成长”为更大的模型。这种方法可以节省 40% 到 70% 的时间、成本和训练模型所需的碳输出。为了提高推理速度,我们正在利用我们在量化方面的深厚专业知识,或将模型从 32 点浮点算法缩小为更小的整数位格式。降低 AI 模型精度可在不牺牲准确性的情况下带来巨大的效率优势。我们希望很快能在我们的 AI 优化芯片IBM AIU上运行这些压缩模型。
用于基础模型的混合云工具
基础模型难题的最后一部分是创建一个易于使用的软件平台来调整和部署模型。IBM 的混合云原生推理堆栈基于 RedHat OpenShift 构建,已针对训练和服务基础模型进行了优化。企业可以利用 OpenShift 的灵活性从任何地方(包括本地)运行模型。
我们在 watsonx.ai 中创建了一套工具,为客户提供用户友好的用户界面和开发人员友好的库,用于构建基于模型的基础解决方案。我们的 Prompt Lab 使用户能够通过几个带标签的示例快速执行 AI 任务。Tuning Studio 基于IBM Research 开发的最先进的高效微调技术,使用您自己的数据实现快速而强大的模型定制。
除了 IBM 自己的模型之外,watsonx.ai 还提供对广泛的开源模型目录的无缝访问,供企业进行试验和快速迭代。在与 Hugging Face 的新合作伙伴关系中,IBM 将在watsonx.ai中提供数千个开源 Hugging Face 基础模型、数据集和库。而 Hugging Face 将在watsonx上提供 IBM 的所有专有和开放访问模型和工具。
展望未来
基础模型正在改变 AI 的格局,并且近年来的进展一直在加速。IBM 很高兴能帮助绘制这个快速发展领域的前沿,并将创新转化为真正的企业价值。