Google 正试图通过 Gemini,其旗舰级生成式 AI 模型、应用程序和服务套件,掀起一波新的技术浪潮。
但什么是 Gemini?如何使用它?它又如何与 OpenAI 的 ChatGPT、Meta 的 Llama 和 Microsoft 的 Copilot 等其他生成式 AI 工具相比较?
为了帮助大家更好地跟上 Gemini 的最新进展,我们整理了一份实用指南,并会随着新 Gemini 模型、功能和有关 Google 计划的新闻更新而不断更新。
### 什么是 Gemini?
Gemini 是 Google 长期承诺的下一代生成式 AI 模型家族。
由 Google 的 AI 研究实验室 DeepMind 和 Google Research 开发,Gemini 有四种不同的版本:
- **Gemini Ultra**:最强大的版本。
- **Gemini Pro**:速度更快的版本。
- **Gemini Flash**:一种更快速且“浓缩”的 Pro 版本,还有稍小且更快的版本,称为 Gemini Flash-8B。
- **Gemini Nano**:两个较小的模型:Nano-1 和稍微更强大的 Nano-2,后者可以在离线模式下运行。
所有 Gemini 模型都具备多模态能力——即能够处理和分析不止文本的数据。
Google 表示,它们在各种公开、专有和许可的音频、图像和视频、代码库以及不同语言的文本上进行了预训练和微调。
这使 Gemini 在某些方面不同于像 Google 自身的 LaMDA 这样的模型,后者仅针对文本数据进行训练。
LaMDA 无法理解或生成除文本之外的内容(例如文章和电子邮件),但 Gemini 模型可能并非如此。
需要注意的是,在某些情况下,训练模型使用公开数据而未得到数据所有者的知情同意可能会引发伦理和法律问题。
Google 有一项 AI 保险政策,旨在保护某些 Google Cloud 客户免受可能面临的诉讼,但该政策包含例外情况。
在考虑将 Gemini 商业化使用时,请务必谨慎行事。
### Gemini 应用程序与模型之间的区别
Gemini 与网页版和移动版(原名为 Bard)的应用程序是分开且独立的。
Gemini 应用程序是连接到各种 Gemini 模型并提供类似聊天机器人的界面的客户端。
它们可以被视为 Google 生成式 AI 的前端,类似于 ChatGPT 和 Anthropic 的 Claude 系列应用程序。
#### Gemini 进阶功能
除了通过应用程序获取帮助外,Gemini 模型还逐渐被整合到 Gmail、Google 文档等核心 Google 应用和服务中。
要利用这些功能中的大多数,您需要订阅 Google One AI 高级计划。
该计划包括对 Google Workspace 应用程序(如文档、地图、幻灯片、表格、驱动器和会议)中 Gemini 的访问权限,并提供所谓的 Gemini 进阶功能,这将使公司的更高级 Gemini 模型应用于应用程序中。
Gemini 进阶用户还可以获得一些额外的功能,例如优先访问新功能的机会,在 Gemini 中直接运行和编辑 Python 代码的能力以及更大的“上下文窗口”。
Gemini 进阶可以记住并跨约 750,000 字(或相当于 1,500 页文档)的对话内容进行推理。
相比之下,普通 Gemini 应用程序只能处理约 24,000 字(或相当于 48 页文档)的内容。
#### Gemini 在 Gmail、文档、Chrome 开发者工具等中的应用
在 Gmail 中,Gemini 存在于侧边栏中,可以撰写电子邮件并总结邮件线程。
在文档中也是如此,它可以帮助您撰写和完善内容并构思新想法。
在幻灯片中生成幻灯片和自定义图像,并在谷歌表格中跟踪和组织数据以创建表格和公式。
谷歌的人工智能聊天机器人最近也出现在了地图上,在这里它可以总结咖啡店评论或提供如何度过一天访问外国城市的建议。
#### Gemini 扩展功能与宝石
在谷歌 I/O 2024 上宣布后,Gemini 进阶用户可以创建由 Gemini 模型驱动的自定义聊天机器人——宝石。
这些宝石可以从自然语言描述生成(例如,“你是我的跑步教练,请给我一个每日跑步计划”),并可以与其他用户共享或保持私密。
宝石可以在全球超过150个国家和地区以及大多数语言中使用,并最终能够通过一系列集成来完成自定义任务——包括日历、任务列表、笔记等与谷歌服务的集成。
#### Gem生实时深入语音对话
一种称为“Gem生 Live”的体验允许用户通过移动设备上的 Gem生 应用程序或 Pixel Buds Pro 2 进行深入语音对话——即使手机锁定时也可以访问此功能。
启用 Live 功能后,在聊天机器人讲话时(以几种新的声音之一),您可以打断它提出澄清问题,并实时适应您的讲话模式。
将来某个时候,Gem生 将获得视觉理解能力——能够通过您的智能手机摄像头拍摄的照片或视频看到并回应您的周围环境。
Live 设计为一种虚拟教练工具——帮助您为活动做准备、头脑风暴想法等。
例如 Live 可以建议您在即将到来的工作面试或实习面试中突出哪些技能,并提供公共演讲建议。
有关 Gem生 Live 的详细评测,请参阅我们的文章——提示:我们认为该功能还有很长一段路要走才能变得非常有用——但目前还处于早期阶段。
### 图像生成通过 Imagen 3
Gem生 用户可以使用内置的 Imagen 3 模型生成艺术作品和图像。
据谷歌称,Imagen 3 相对于其前身 Imagen 2 更准确地理解将文本提示转换为图像的能力,并且在创造性和细节方面更为出色。
此外该模型产生的视觉错误较少(至少根据谷歌的说法),并且是迄今为止最好的 Imagen 模型之一用于渲染文本。
一张 Imagen 3 的示例图片。
早在今年二月,由于用户投诉历史不准确的问题,在暂停了人们生成图像的能力后不久谷歌重新引入了特定于英语用户的生成人物能力——作为付费 Gem生 计划的一部分(例如 Gem生 进阶)进行试点项目。
### 针对青少年的 Gem生
今年六月,谷歌推出了一种针对青少年用户的 Gem生 经验,并允许学生通过他们的教育版 Google Workspace 帐户注册。
针对青少年用户的 Gem生 具有额外政策和保障措施——包括定制化的入职流程以及“AI 文化指南”,以帮助青少年负责任地使用人工智能技术。
除此之外它几乎与标准版 Gem生 经验相同——包括检查网络以确保回答准确性等功能。
### 家庭智能设备中的 Gem生
越来越多的由谷歌制造的产品利用了 Gem生 提升功能——从 Google TV 流媒体设备到 Pixel9 和 Pixel9 Pro 到最新的 Nest 学习恒温器。
在 Google TV 流媒体设备上利用用户的偏好来推荐内容建议并总结订阅内容甚至整季电视节目。
最新的 Nest恒温器(以及其他 Nest 设备如摄像头、扬声器和智能显示器)很快将增强谷歌助手的对话能力和分析能力。
今年晚些时候加入 Nest Aware 计划的订阅者将预览由新式 Gem生 功能带来的全新体验——如 Nest 相机片段的人工智能描述、自然语言视频搜索及推荐自动化。
Nest 相机将理解实时视频流中的情况(例如当狗在花园里挖洞时),而配套的应用程序则会显示视频并根据描述创建设备自动化(例如,“孩子们是否把自行车停放在车道上了吗?”、“每到星期五下班回家时请启动加热系统”)。
宝石很快将能够总结来自 Nest 设备的安全摄像头片段。
今年晚些时候谷歌助手将在 Nest 品牌和其他智能家庭设备上获得一些升级以使对话更加自然——改进的声音加上提出跟进问题的能力以及更容易来回切换的功能。
### 宝石能做什么?
因为宝石模型是多模态的,所以它们可以执行一系列多模态任务——从转录语音到实时为图像和视频添加字幕。
许多这些能力已经进入产品阶段,并且谷歌承诺在未来会有更多的改进。
当然很难完全相信公司的说法。
谷歌最初推出的 Bard 发布就严重落后于预期目标;最近的一段声称展示了宝石的能力却更像是愿景而非实际演示。
此外目前没有解决一些生成式人工智能技术的根本问题如编码偏见及编造事实等问题——尽管它的竞争对手也没有解决这些问题,在考虑使用或付费购买宝石时应有所警惕。
假设我们在此文中的说法是真实的,在目前及未来潜力实现的情况下:
您可以使用超极宝石做些什么:
据称超极宝石凭借其多模态特性可以帮助完成物理作业题解步骤说明指出已填答案可能存在的错误等等任务。
超极还可以用于识别与问题相关的科学论文这类任务据称它可以提取多个论文的信息并更新图表从一个图表中生成必要的公式以重新创建具有最新数据的新图表。
超极理论上支持图像生成但是这种能力尚未进入产品化的模型版本或许是因为机制比像 ChatGPT 这样的应用复杂得多而不是向图像生成器传递提示而是超极直接输出图像无需中间步骤。
超极可以通过 Vertex AI 谷歌全托管的人工智能开发平台以及 AI Studio 谷歌基于网络的应用开发工具获取API接口。
Pro 版本的功能:
据称 Pro 版本相比 LaMDA 在推理规划理解和能力方面有所提升最新的版本即为支持进阶版用户使用的 Gemini1.5 Pro 在某些领域甚至超越了 Ultra 版本的表现。
相较于其前身 Pro1.0 版本而言 Pro1.5 版本在多个方面得到了改进尤其是处理数据量方面有了显著提升Pro1.5 可以接受多达140万字两小时视频或22小时音频并且可以在这些数据上进行推理或者回答相关问题。
Pro1.5 版本于6月随代码执行功能一起上线代码执行旨在逐步优化模型产生的代码从而减少其中出现的问题(也支持 Flash)。
开发者可以通过 Vertex AI 中精细调整或者“锚定”过程定制 Pro 版本来特定场景及用途比如指示 Pro 使用来自 Moody’s Thomson Reuters ZoomInfo MSCI 等第三方供应商的数据或者从公司数据库或Google搜索获取信息而非其广泛的知识库;Pro 还可以通过外部第三方 API 执行特定动作比如自动化后台工作流。
AI Studio 提供了创建结构化聊天提示模板的方法对于开发者来说可以控制模型创意范围提供示例以便设定语气及风格指令也可以调整 Pro 安全设置。
Vertex AI Agent Builder 允许人们构建由 Vertex AI 支持的“代理”比如一家公司可以根据之前的营销活动分析品牌风格然后运用这种知识来产生符合风格的新想法。
Flash 版本小巧高效专为高频率的小规模生成任务设计尽管性能不及 Pro 版本但它也是多模态这意味着它可以分析音频 视频 图像及文本(但只能产生文本)据称 Flash 特别适合摘要聊天应用及图片 视频字幕及长文档中的数据提取等任务。
开发者可选择利用上下文缓存从而存储大量信息(比如知识库或者研究论文数据库)供 Gemini 模型快速廉价地访问上下文缓存是一项额外费用。
Nano 可运行于手机
Nano 是比 Pro 和 Ultra 更小更高效的版本并且足够高效可以直接运行于部分设备无需发送任务至服务器处目前 Nano 已经支持 Pixel8 Pro Pixel8 Pixel9 Pro Pixel9 Samsung Galaxy S24 等设备上的几个特性包括录音机中的摘要功能及 Gboard 中智能回复等功能。
录音机应用可以让用户录制并转录音频同时附带一个由 Nano 驱动的内容摘要这使得即使没有信号或 Wi-Fi 连接也能获得摘要并且为了隐私考虑过程中不会泄露任何数据至外部服务器。
Nano 同样支持 Gboard 谷歌键盘替代品在这里它驱动了一个名为智能回复的功能帮助你在消息应用如 WhatsApp 中提出下一步要说的话
支持设备上的谷歌消息应用 Nano 驱动了一个名为魔法输入的功能可以创作出诸如兴奋 正式 节奏感等不同风格的消息
未来 Android 版本可能会利用 Nano 来提醒你电话中可能存在的诈骗行为新推出的 Pixel 手机天气应用则利用纳米版 geminigenerates 定制化的天气报告 TalkBack 谷歌无障碍服务则利用纳米版 geminigenerates 创建低视力盲人使用的物体描述
### 宝石的价格是多少?
目前可用的第一代 Pro (即第一个版本) 即代号为 Ultra 和 Flash 的版本都可以通过 Google 的 API 构建应用程序和服务所有这些都有免费选项但是免费选项会限制使用量并且不包含某些功能如上下文缓存及批量处理
Gemstone 是按需付费的服务以下是截至2024年9月的基础价格:
- Gemstone1.0 Pro: 每百万输入令牌50美分每百万输出令牌1.5美元
- Gemstone1.5 Pro: 输入令牌每百万美元1.25美元(对于不超过128K令牌长度的提示) 或者输入令牌每百万美元2.5美元(对于超过128K令牌长度的提示) 输出令牌每百万美元5美元(对于不超过128K令牌长度的提示) 或者输出令牌每百万美元10美元(对于超过128K令牌长度的提示)
- Gemstone1.5 Flash: 输入令牌每百万美元7.5美分(对于不超过128K令牌长度的提示) 或者输入令牌每百万美元15美分(对于超过128K令牌长度的提示) 输出令牌每百万美元30美分(对于不超过128K令牌长度的提示) 或者输出令牌每百万美元60美分(对于超过128K令牌长度的提示)
- Gemstone1.5 Flash-8B: 输入令牌每百万美元3.75美分(对于不超过128K令牌长度的提示) 或者输入令牌每百万美元7.5美分(对于超过128K令牌长度的提示) 输出令牌每百万美元15美分(对于不超过128K令牌长度的提示) 或者输出令牌每百万美元30美分(对于超过128K令牌长度的提示)
每个 token 都是原始数据的一部分就像单词 fantastic 中包含 syllables fan tas tic;一兆 token 相当于大约70万词。
- 输入指的是输入到模型的数据而输出指的是模型产生的数据。
- Ultra 和 Flash-2.0 的定价尚未公布Nanostill 在早期测试阶段。
关于 Astra 计划最新进展
- Astra 是 DeepMind 开发的一项努力旨在创建具有实时多模态理解能力的人工智能应用程序及代理。
- Astra 在演示中展示了人工智能模型同时处理实时视频和音频的能力。
- Astra 应用程序版本已向一小部分受信任测试员发布但尚无广泛发布的计划。
- Astra 目前仍处于项目阶段而非产品阶段不过 Astra 的演示揭示了谷歌希望未来的人工智能产品能够实现什么。
Gemstone 是否会出现在 iPhone 上?
Astra 是 DeepMind 开发的一项努力旨在创建具有实时多模态理解能力的人工智能应用程序及代理。
- Astra 在演示中展示了人工智能模型同时处理实时视频和音频的能力。
- Astra 应用程序版本已向一小部分受信任测试员发布但尚无广泛发布的计划。
- Astra 目前仍处于项目阶段而非产品阶段不过 Astra 的演示揭示了谷歌希望未来的人工智能产品能够实现什么。
Astra 是 DeepMind 开发的一项努力旨在创建具有实时多模态理解能力的人工智能应用程序及代理。
- Astra 在演示中展示了人工智能模型同时处理实时视频和音频的能力。
- Astra 应用程序版本已向一小部分受信任测试员发布但尚无广泛发布的计划。
- Astra 目前仍处于项目阶段而非产品阶段不过 Astra 的演示揭示了谷歌希望未来的人工智能产品能够实现什么。
该项目仍然只是一个项目而不是一个产品不过 Astra 展示了未来人工智能产品的潜力。
Gemstone 是否会出现在 iPhone 上?
有可能苹果公司表示正在讨论将包括 Gems在内的第三方模型用于其 Apple Intelligence 套件中的多个功能在今年 WWDC 大会上苹果高管 Craig Federighi 确认将与包括 Gems在内的多个模型合作但是没有透露更多细节这项帖子最初于2月16日发布此后已更新包含有关 Gems及其计划的新信息
Hbspt.forms.create({ region: "na1", portalId: "44101848", formId: "09f96578-8d24-4d8a-8e9f-7700cff83c29" });
}