智源发布GLM-4-Air和GLM-4V-Plus模型，开创全模态无缓存新时代

2025年1月16日，北京智语花匠科技有限公司宣布推出一系列新的模型，这些模型可以在 bigmodel.cn 上获取。继8月份推出的“智语清言”之后，该公司深入探索了语言、语音、图像和视频领域的理解和生成，推出了包括GLM-Voice、GLM-4V、CogView和CogVideoX在内的多模态模型。

新推出的端到端模型GLM-Realtime实现了低延迟的视频理解和语音交互，内置了唱歌功能，并支持长达2分钟的记忆以及Function Call能力。公司还对GLM-4-Air和GLM-4V-Plus模型进行了升级，旨在提供行业内最强性能和成本效益的语言模型解决方案。智语致力于通过先进的大型模型技术回馈社会，并特别推出了免费的Flash系列多模态模型，涵盖语言、文本转图像、文本转视频和图像理解等多种场景，帮助开发者轻松实现应用创新。

WeChat Screenshot_20250116150923.png

GLM-Realtime具备了长达2分钟的视频通话内容记忆功能，并创新地实现了语音交互中的唱歌功能，使得大型模型在对话中也能唱歌。公司已经将Realtime API集成到智能眼镜和伴侣娃娃中，让用户能够体验到近乎实时的智能助手互动。Realtime还支持Function Call能力，灵活利用外部知识和工具来扩展其应用场景。目前，GLM-Realtime API已在智语的大模型开放平台bigmodel.cn上提供，并且是免费使用的。

自推出以来，由于其高成本效益，GLM-4-Air受到了开发者的广泛欢迎。它已经全面升级为GLM-4-Air-0111版本，优化了训练数据和流程，在某些维度上的性能接近更大的GLM-4-Plus，并将模型价格降低至原价的一半，从而降低了大型模型应用的门槛。视觉理解模型GLM-4V-Plus也进行了全面升级，在各种公共排行榜上的性能显著提升，并支持不同分辨率的功能以适应不同的图像大小，在小图像场景下显著减少了标记消耗，并支持无损识别4K超高清图像和极端宽高比图像。其视频理解能力可达两小时，提供了高效准确的长视频理解和分析解决方案。

智语致力于让大型模型普及到所有人手中，并为了支持开发者创新而特别设立了免费公开访问的Flash系列API。作为行业首个完全多模态免费系列模型，开发者可以自由访问语言、多模态理解和生成等功能。Flash系列即将进行全面升级，包括语言模型GLM-4-Flash、视觉理解模型GLM-4V-Flash、图像生成模型CogView-3-Flash以及视频生成模型CogVideoX-Flash。

总结：本文介绍了北京智语花匠科技有限公司在2025年推出的一系列新的多模态大型语言模型及其特点与应用。这些新推出的多模态模型在语音交互、视频理解和生成等方面都有显著提升，并提供了免费的API供开发者使用。

智源发布GLM-4-Air和GLM-4V-Plus模型，开创全模态无缓存新时代

Leave a comment

Tag Clouds

Press ESC to close

智源发布GLM-4-Air和GLM-4V-Plus模型，开创全模态无缓存新时代

Leave a comment

Tag Clouds

Newsletter