谷歌最新推出的旗舰级AI——Gemini 2.0，能够生成文本、图像和语音，开启智能新时代！

Google最新的人工智能模型Gemini 2.0 Flash已经上线，旨在对抗OpenAI等公司推出的一系列新工具。

周三，Google宣布了这一新版本。

Gemini 2.0 Flash不仅可以生成文本，还能生成图像和音频，并且可以使用第三方应用程序和服务，比如利用Google搜索、执行代码等。

目前，Gemini 2.0 Flash的实验版本将通过Gemini API和Google的AI开发平台AI Studio及Vertex AI发布。

不过，图像和音频生成功能将首先提供给“早期访问合作伙伴”，预计在1月份全面推出。

未来几个月内，Google计划将2.0 Flash整合到Android Studio、Chrome DevTools、Firebase、Gemini Code Assist等产品中。

升级后的Flash 第一代Flash（1.5 Flash）只能生成文本，并不适合处理复杂任务。

新版2.0 Flash更加灵活，因为它可以调用搜索工具并与其他外部API交互。

“我们知道Flash在开发者中非常受欢迎，因为它在速度和性能之间取得了很好的平衡。

”负责Gemini模型产品的Tulsee Doshi在周二的简报会上表示，“现在2.0 Flash不仅保持了同样的速度，还变得更加强大。

” Google声称，在某些基准测试中，2.0 Flash比其Gemini 1.5 Pro模型快两倍，并且在编码和图像分析方面有了显著改进。

实际上，由于其出色的数学能力和“事实性”，2.0 Flash取代了1.5 Pro成为旗舰版Gemini模型。

2.0 Flash不仅能生成文本，还能生成和修改图像。

该模型可以处理照片、视频以及音频录音以回答相关问题（例如：“他说了什么？”）。

音频生成是2.0 Flash的关键功能之一，Doshi将其描述为“可控制”和“可定制”。

例如，该模型可以用八种不同的声音之一来朗读文本，“优化”以适应不同的口音和语言。

“你可以要求它说得慢一些、快一些，甚至可以用海盗口吻说话。

”她补充道。

作为记者的职责所在，我必须指出Google没有提供2.0 Flash的图像或音频样本。

我们无法确切知道其质量与其它模型输出相比如何。

Google表示正在使用SynthID技术对所有由2.0 Flash生成的音频和图像进行水印处理。

在支持SynthID的软件和平台上（即部分Google产品），该模型的输出将被标记为合成内容。

这旨在缓解滥用担忧。

事实上，深度合成正成为一个日益严重的威胁。

据ID验证服务Sumsub的数据，在2023年至2024年间，全球检测到的深度合成数量增加了四倍。

多模态API 尽管生产版本要等到1月份才推出，但Google已经推出了Multimodal Live API帮助开发者构建具有实时音频和视频流功能的应用程序。

使用Multimodal Live API，开发者可以创建具有实时音频和视频输入的应用程序（来自摄像头或屏幕）。

该API支持任务工具的集成，并能处理诸如中断之类的自然对话模式——类似于OpenAI的Realtime API。

Multimodal Live API现已一般可用。