谷歌最新推出的旗舰级 Gemini 2.0 Flash 模型,能够生成文本、图像和音频。不过,某些功能目前还未广泛普及。
Google最新的人工智能模型Gemini 2.0 Flash已经上线,旨在对抗OpenAI等公司推出的一系列新工具。
周三,Google宣布了这一新版本。
Gemini 2.0 Flash不仅可以生成文本,还能生成图像和音频,并且可以使用第三方应用程序和服务,比如利用Google搜索、执行代码等。
目前,Gemini 2.0 Flash的实验版本将通过Gemini API和Google的AI开发平台AI Studio及Vertex AI发布。
不过,图像和音频生成功能将首先提供给“早期访问合作伙伴”,预计在1月份全面推出。
未来几个月内,Google计划将2.0 Flash整合到Android Studio、Chrome DevTools、Firebase、Gemini Code Assist等产品中。
升级后的Flash
第一代Flash(1.5 Flash)只能生成文本,并不适合处理复杂任务。
新版2.0 Flash更加灵活,因为它可以调用搜索工具并与其他外部API交互。
“我们知道Flash在开发者中非常受欢迎,因为它在速度和性能之间取得了很好的平衡。
”负责Gemini模型产品的Tulsee Doshi在周二的简报会上表示,“现在2.0 Flash不仅保持了同样的速度,还变得更加强大。
”
Google声称,在某些基准测试中,2.0 Flash比其Gemini 1.5 Pro模型快两倍,并且在编码和图像分析方面有了显著改进。
实际上,由于其出色的数学能力和“事实性”,2.0 Flash取代了1.5 Pro成为旗舰版Gemini模型。
2.0 Flash不仅能生成文本,还能生成和修改图像。
该模型可以处理照片、视频以及音频录音以回答相关问题(例如:“他说了什么?”)。
音频生成是2.0 Flash的关键功能之一,Doshi将其描述为“可控制”和“可定制”。
例如,该模型可以用八种不同的声音之一来朗读文本,“优化”以适应不同的口音和语言。
“你可以要求它说得慢一些、快一些,甚至可以用海盗口吻说话。
”她补充道。
作为记者的职责所在,我必须指出Google没有提供2.0 Flash的图像或音频样本。
我们无法确切知道其质量与其它模型输出相比如何。
Google表示正在使用SynthID技术对所有由2.0 Flash生成的音频和图像进行水印处理。
在支持SynthID的软件和平台上(即部分Google产品),该模型的输出将被标记为合成内容。
这旨在缓解滥用担忧。
事实上,深度合成正成为一个日益严重的威胁。
据ID验证服务Sumsub的数据,在2023年至2024年间,全球检测到的深度合成数量增加了四倍。
多模态API
尽管生产版本要等到1月份才推出,但Google已经推出了Multimodal Live API帮助开发者构建具有实时音频和视频流功能的应用程序。
使用Multimodal Live API,开发者可以创建具有实时音频和视频输入的应用程序(来自摄像头或屏幕)。
该API支持任务工具的集成,并能处理诸如中断之类的自然对话模式——类似于OpenAI的Realtime API。
Multimodal Live API现已一般可用。