利用快捷指令和 Gemini API 在 iPhone 上实现截图内容提取-青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

📢 转载信息

原文链接：https://sspai.com/prime/story/extract-from-screenshots-with-gemini-on-iphone

原文作者：少数派 (sspai)

从 Pixel 9 Pro 换到 iPhone 后我怀念过很多东西，系统级的 Gemini 整合是其中之一：在 Pixel 上，我可以随时长按电源键或「Hey Google」唤起 Gemini，然后将当前在看的页面「分享」给它。

这套交互可以在 Google 自家的生态内一步到位完成很多事，比如当 Google I/O 官网给的日历没有做时区转换时，我可以让 Gemini「看看」屏幕上的时间给我转换并新建一个北京时间的日程，再比如微信聊到什么后续需要留意的东西、添置的生活用品等，也可以随时拉起 Gemini 往 Google Tasks 或 Google Keep 里记东西。

在还没有 Apple Intelligence 的国行 iPhone 上，类似的操作成为了一个需要依赖第三方工具才能解决的问题。所以当我在 Android 平台上又发现一款调用 Gemini API 来梳理、归类截图信息并建立索引的小工具时，一个想法在我脑海里自然而然地蹦了出来：为什么不用快捷指令和 Gemini API 试试看呢？

最后做出来的东西效果还不错：

关注大模型领域的朋友应该知道 Gemini 向来以多模态能力见长，第一时间想到它也是这个原因，毕竟这玩意免费层级从模型到速率限制都能满足个人日常使用。API Key 的生成网络上有不少的教程本文不再赘述，如果你此前完全没有接触过这些东西，比较麻烦的地方可能是在此之前还得设置好 Google Cloud 控制台的结算信息。

在假设你已经拿到了 Gemini API 密钥的前提下，我们整个快捷指令的流程设计其实就很简单了：截取当前屏幕的图片 > 将它喂给 Gemini API 识别 > 将识别到的信息预填进日历或提醒。完整的快捷指令设计如下：

你可以点击这个链接查看并导入这个快捷指令的公开版本，导入后除了替换你自己的 Gemini API 密钥，还有一些细节可能需要你注意：

首先，在截屏这一步我使用了「截屏」这个快捷指令操作而不是「获取最新的截屏」，这样可以避免快捷指令运行完成后往图库新增一张截图。在我设想中的这类场景下，屏幕上的信息在转换为日程/提醒之后便失去了留存的价值，所以如果你仍然需要保存一份截图——比如想给截图做 AI 信息标注（在此征稿 xD）方便后续索引，也可以采用生成截图图像后「获取最新截屏」的操作作为开始。

这一步的另一个建议是对图像进行适当的「瘦身」，因为在快捷指令尚无可能调用本地模型的前提下，我们传递给远端 Gemini API 的信息越小、整个快捷指令执行的速度和效率就越高。所以这里我用了「调整图像大小」这个操作来适当减小图片尺寸。至于究竟多小是 Gemini 的识别极限，感兴趣的朋友可以在这里多探索探索。

处理好截图，接下来就是如何把截图「喂」给 Gemini API 了。阅读 Google 的 Gemini API 文档可知这里我们一般有两种途径：

传递内嵌图片数据：适合小一点的文件，文档给出的具体数据是包含提示词在内不超过 20MB
使用 File API 上传图片：建议用于较大的文件或在多个请求中重复使用图片

适合快捷指令的方式只有内嵌图片数据。熟悉快捷指令的朋友对此应该也不陌生，选择「Base64 编码」操作并将对象设置为「调整尺寸后的图像」，然后在下一步选择「获取 URL 内容」。

这里就来到了整个流程中最为复杂的部分——当然很大一部分原因是快捷指令交互设计的问题。将 URL 的内容填写为 https://generativelanguage.googleapis.com/v1beta/models/gemini-2.0-flash:generateContent?key=你的Gemini API 密钥，然后点击旁边的箭头填写请求参数：

方法：选择 POST，你可以理解为我们通过这种方式向 Gemini 的 generateContent API 发送了一封信件
请求体：选择 JSON，这是 generateContent API 能够读懂的四种信件格式之一

🚀 想要体验更好更全面的AI调用？

欢迎使用青云聚合API，约为官网价格的十分之一，支持300+全球最新模型，以及全球各种生图生视频模型，无需翻墙高速稳定，文档丰富，小白也可以简单操作。

目录CONTENT

利用快捷指令和 Gemini API 在 iPhone 上实现截图内容提取

评论区