Sakana AI 是一家专注于仿生算法的人工智能研究实验室,最近推出了一款名为 Transformer²(Transformer 的平方)的创新自适应语言模型。这款模型能够在推理过程中动态学习和适应新任务,无需昂贵的微调过程,标志着大型语言模型(LLM)技术发展的重要一步。
Transformer² 的核心创新在于其独特的两步动态权重调整机制。首先,它会分析用户的请求以理解任务需求;然后,通过数学技术,利用奇异值分解(SVD)将模型权重与任务需求对齐。通过有选择地调整模型权重的关键组件,Transformer² 可以在无需长时间重新训练的情况下实时优化性能。这与传统的微调方法形成了鲜明对比,后者要求在训练后保持参数不变,或者仅使用如低秩适应(LoRA)等方法修改一小部分参数。
为了实现动态调整,研究人员采用了名为奇异值微调(SVF)的方法。在训练过程中,SVF 从模型的 SVD 组件中学习一组技能表示 z-向量;在推理过程中,Transformer² 通过分析提示来确定所需的技能,并相应地配置 z-向量,从而为每个提示提供定制化的响应。
测试结果显示,在数学、编程、推理和视觉问答等多种任务中,Transformer² 的表现优于 LoRA 模型,并且使用了更少的参数。更为值得注意的是,该模型具备知识迁移能力,这意味着从一个模型学到的 z-向量可以应用于另一个模型中,这表明其具有广泛的应用潜力。
比较 Transformer²(SVF 表格中的部分)与基础模型和 LoRA 的结果如下:(来源:arXiv)
Sakana AI 已在其 GitHub 页面上发布了 Transformer² 组件的训练代码,为其他研究人员和开发人员打开了大门。
随着企业继续探索 LLM 的应用领域,在推理过程中定制的技术正逐渐成为主流。结合其他技术如 Google 的 Titans 等工具,Transformer² 正在改变 LLM 的应用方式,允许用户根据具体需求动态调整模型而无需重新训练。这一技术进步将使 LLM 在更广泛的领域中更具实用性和实际价值。
Sakana AI 的研究人员表示,Transformer² 是静态人工智能与活体智能之间的桥梁,并为高效、个性化和全面集成的人工智能工具奠定了基础。
总结:本文介绍了 Sakana AI 推出的 Transformer² 模型及其独特的两步动态权重调整机制。该模型能够在推理过程中自动适应新任务,并且表现出色。此外,该模型还具备知识迁移能力,并已公开了相关代码供其他研究人员使用。