一日一技｜在镜头前翻翻页，你就得到了一本电子书-青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

📢 转载信息

原文链接：https://sspai.com/post/106935

原文作者：单宁酸也是Cecil

压缩

一本课本真的很重。

尤其是对我这样一个进入大学之后几乎全面转向电子文档的人来说，我沉迷于各类电子笔记，课本也会尽可能地选择电子书。我可以把整个学期的教材都装进电脑里，与此同时我的电脑没有增加一点点重量……

但是……我反思了。好吧，我就是把自己绩点的下降归咎于过度电子化。过度电子化某种意义上也是过度自动化。至少对我来说，我还不能把自己的思考外包给 AI。

抱着矫枉必须过正的思路，这个学期我购买了纸质课本，准备回到纸质笔记……所以才说一本课本真的很重。每次去图书馆集中复习的时候，我实际上只会使用这本大部头的二十分之一。而且（耸肩）当我在课堂上使用纸质课本尽了勾画义务，把自己的笔记整理成像模像样的 Typst 文档之后，我又开始希望自己手边有一个电子版课本了……

电子、纸质，两手都要抓。

问题

一个显然的事实是，有了实体课本，我可以不在 Anna's Archive 或者 Z-Library 里苦苦寻觅。或许是后现代社会对人们的影响，我没有在上面找到最新版的课本。我把这归咎于没有人上传，人们只会下载。尽管我也没有上传。

但我可以直接扫描——哇，伟大的 OCR 技术。前提是你能忍受满满国产味的扫描软件，或者意志坚定到使用电脑前置摄像头去一页页拍摄照片（用手机一页页拍摄本身似乎也没有好到哪去……），这个过程还是有一些折磨的。毕竟无论大模型们的理解能力多么优秀，我们、作为人类，还是要一张张拍照。

未来也许可以把一本书丢给 OpenClaw 让它们来做这件事。快点到来吧。

二维码

我们是怎么扫码的？

抱歉，这句话没有任何流行文化的谐音梗，而是我的室友向我描述「转电子书」这个过程时提出的一个愿景。我们现在是直接打开手机「扫码」的，而不是把二维码拍下来然后再去处理——当然我们可以那么做，但几乎没有人会这样。

如果我们可以拍摄「翻页的视频」呢？

我们打开书和手机录像，一只手只要有意识地翻页，在恰到好处的时候停顿一下就可以了……可以，而且结果更好。

脚本

看到这里的朋友，一定要把我之前的文章看一看，拜托了。我真的很想让更多人知道脚本对于自动化和提高效率的帮助。

总之，我（更准确地说是 Codex）编写了一个脚本 kvpaper.sh：

调用了 Kimi 的 API。因为我发现现在所有目光都聚焦于编程能力，在「多模态很强」几乎被当成理所应当的前提下，Kimi 2.5 是实打实地把视频理解做强了，而且我敢说是一骑绝尘。
让它识别视频内容，然后输出 Typst 格式。我选择 Typst，是因为我想尽可能保留排版，让我的扫描结果像真的电子书，而不是传统扫描软件导出的那种「照片合集」。当然，也因为我自己使用 Typst。你完全可以换成 LaTeX。

你可以通过这个链接看看我的脚本。

使用这个脚本，只需要在 shell 环境里声明 MOONSHOT_API_KEY，当然还要有 Typst，然后运行 ./kvpaper.sh video.mp4，就可以生成一个以时间戳命名的 PDF 文件。

以下是其他信息：

识别过程会跳过图表。我尝试了类似 MCP 的东西，调用 Excalidraw 和 Typst 包里那些强大的绘图工具，结果对于 AI 在这方面的表现都非常不满意。
大概半分钟可以拍摄 10 页内容，脚本运行需要 4 分钟，token 消耗经过不完全测试大概是三毛钱。
由于 AI 可能不熟悉 Typst 语法，如果语法错误 PDF 无法编译成功，脚本会返回报错信息。你可以修改脚本添加一个 while 循环，再次调用 Kimi 修改直到成功，或者在Claude Code、Codex或者 Pi-agent 之类的工具里运行这个脚本，让 Agent 处理错误信息修改 Typst 文件。

运行结果非常漂亮，具有表格、脚注、页码，真的已经像一本电子书了。

还有呢？

首先我要说，我不会因为我现在有如此便利的工具就去倒卖电子书。其次，这个过程给了我许多启示：

听听非专业人士的建议。我们不能一直只顾着捣鼓自己的玩具。有时候真正推进事情的，反而是一个不懂技术的人提出的、足够直觉的想法。
不要有偏见。我本来并不喜欢 Kimi，总觉得它营销过多……但是你看现在呢，我购买了它们的会员。
脚本非常强大，真的非常强大。数字世界里原本互不相干的东西，可以通过脚本联系起来，也可以通过脚本被自动化。

更重要的是，这件事又一次提醒了我，我真正感兴趣的也许不是「如何把纸质书变成电子书」这件事本身，而是「我们到底应该把哪一步交给机器」。

我不想把阅读、理解、做笔记这些事情外包出去，所以我这个学期重新买了纸质课本；但我也确实不想在需要复习某十页内容的时候，背着整本书到处跑，更不想花一个晚上做重复、机械、毫无审美的扫描劳动。于是最后的结果就变成了这样：保留纸质书、保留勾画、保留思考，把「翻页录像、识别、排版」这种事情交给脚本和模型。

这好像比「全面电子化」更好一点，也比「彻底回归纸笔」更好一点。至少对现在的我来说是这样。

如果说这篇文章有什么真正想讲的东西，那大概不是 Kimi，不是 Typst，甚至也不是 OCR，而是有些看起来很笨重、很麻烦的问题，换一个动作去描述之后，突然就可以被解决了。不是一页页拍照，而是拍一段翻页的视频。这个想法确实很有趣，我也确实很喜欢。

鸣谢

本文灵感来自我的室友。

> 下载少数派 2.0 客户端、关注少数派公众号，解锁全新阅读体验 📰

> 实用、好用的正版软件，少数派为你呈现 🚀

🚀 想要体验更好更全面的AI调用？

欢迎使用青云聚合API，约为官网价格的十分之一，支持300+全球最新模型，以及全球各种生图生视频模型，无需翻墙高速稳定，文档丰富，小白也可以简单操作。

目录CONTENT

一日一技｜在镜头前翻翻页，你就得到了一本电子书

压缩

问题

二维码

脚本

还有呢？

鸣谢

评论区