2025年1月16日,北京智语花匠科技有限公司宣布推出一系列新的模型,这些模型可以在 bigmodel.cn 上获取。继8月份推出的“智语清言”之后,该公司深入探索了语言、语音、图像和视频领域的理解和生成,推出了包括GLM-Voice、GLM-4V、CogView和CogVideoX在内的多模态模型。
新推出的端到端模型GLM-Realtime实现了低延迟的视频理解和语音交互,内置了唱歌功能,并支持长达2分钟的记忆以及Function Call能力。公司还对GLM-4-Air和GLM-4V-Plus模型进行了升级,旨在提供行业内最强性能和成本效益的语言模型解决方案。智语致力于通过先进的大型模型技术回馈社会,并特别推出了免费的Flash系列多模态模型,涵盖语言、文本转图像、文本转视频和图像理解等多种场景,帮助开发者轻松实现应用创新。
GLM-Realtime具备了长达2分钟的视频通话内容记忆功能,并创新地实现了语音交互中的唱歌功能,使得大型模型在对话中也能唱歌。公司已经将Realtime API集成到智能眼镜和伴侣娃娃中,让用户能够体验到近乎实时的智能助手互动。Realtime还支持Function Call能力,灵活利用外部知识和工具来扩展其应用场景。目前,GLM-Realtime API已在智语的大模型开放平台bigmodel.cn上提供,并且是免费使用的。
自推出以来,由于其高成本效益,GLM-4-Air受到了开发者的广泛欢迎。它已经全面升级为GLM-4-Air-0111版本,优化了训练数据和流程,在某些维度上的性能接近更大的GLM-4-Plus,并将模型价格降低至原价的一半,从而降低了大型模型应用的门槛。视觉理解模型GLM-4V-Plus也进行了全面升级,在各种公共排行榜上的性能显著提升,并支持不同分辨率的功能以适应不同的图像大小,在小图像场景下显著减少了标记消耗,并支持无损识别4K超高清图像和极端宽高比图像。其视频理解能力可达两小时,提供了高效准确的长视频理解和分析解决方案。
智语致力于让大型模型普及到所有人手中,并为了支持开发者创新而特别设立了免费公开访问的Flash系列API。作为行业首个完全多模态免费系列模型,开发者可以自由访问语言、多模态理解和生成等功能。Flash系列即将进行全面升级,包括语言模型GLM-4-Flash、视觉理解模型GLM-4V-Flash、图像生成模型CogView-3-Flash以及视频生成模型CogVideoX-Flash。
总结:本文介绍了北京智语花匠科技有限公司在2025年推出的一系列新的多模态大型语言模型及其特点与应用。这些新推出的多模态模型在语音交互、视频理解和生成等方面都有显著提升,并提供了免费的API供开发者使用。