谷歌的 Gemini 最新更新让手机用户能够直接提问 PDF 文件中的内容

在Google Files应用的重大更新中，Gemini，Google的高级AI助手，现在能够识别用户屏幕上的PDF文件，使用户可以直接查询文件内容。

据The Verge报道，这一功能是Gemini增强上下文感知能力的一部分，旨在提升用户与数字文件的互动方式。

这一功能已经开始向Gemini Advanced订阅者推出。

当用户在Google Files应用中查看PDF文件时，可以召唤Gemini并点击一个新按钮“Ask about this PDF”。

这一选项允许用户针对PDF内容提出具体问题，类似于与对话式AI（如ChatGPT）进行交流的方式。

这一功能显著改善了用户与文件的互动方式。

例如，你可以打开任何类型的PDF文件——无论是研究论文、电子书还是报告——并无缝地询问Gemini：“这份文档的摘要是什么？”或“你能解释这个部分吗？”助手会提供详细的摘要或澄清，就像有人为你解释文件内容一样。

Google曾在2024年5月的I/O开发者大会上首次透露了这一功能，并现在开始向Gemini Advanced订阅者提供。

虽然目前仅限于这一群体，但该功能预计未来会扩展到更广泛的受众。

PDF识别能力是Google让Gemini在各种媒体中更具上下文感知性的努力之一。

此前，Gemini允许用户询问网页和YouTube视频的问题。

现在，它能够解读设备屏幕上显示的内容，为移动用户提供新的可能性。

对于尚未支持Gemini上下文感知功能的应用或文件，助手仍然可以通过截取屏幕截图并根据其内容回答问题来提供帮助。

例如，在浏览器中阅读文章或观看YouTube视频时，用户可以点击“Ask about this screen”来让Gemini分析内容并作出回应。

这一交互式功能使Gemini不仅仅是一个助手；它成为了一个在不同设备上导航数字内容的强大工具。

要访问这一新功能，用户需要订阅Gemini Advanced服务——这是Google的高级AI助手服务。

尽管该功能仍在逐步推出中，但它标志着数字助手如何解读和互动的内容取得了重大进展，简化了信息检索和日常任务。

将这些基于AI的工具集成到广泛使用的应用中（如Google Files），反映了数字助手逐渐成为提高生产力和内容管理不可或缺工具的趋势。

无论是审阅报告、工作中的PDF阅读还是处理复杂信息时，Gemini的能力都旨在使过程更快、更高效且更具互动性。