📢 转载信息
原文链接:https://sspai.com/post/106935
原文作者:单宁酸也是Cecil
压缩
一本课本真的很重。
尤其是对我这样一个进入大学之后几乎全面转向电子文档的人来说,我沉迷于各类电子笔记,课本也会尽可能地选择电子书。我可以把整个学期的教材都装进电脑里,与此同时我的电脑没有增加一点点重量……
但是……我反思了。好吧,我就是把自己绩点的下降归咎于过度电子化。过度电子化某种意义上也是过度自动化。至少对我来说,我还不能把自己的思考外包给 AI。
抱着矫枉必须过正的思路,这个学期我购买了纸质课本,准备回到纸质笔记……所以才说一本课本真的很重。每次去图书馆集中复习的时候,我实际上只会使用这本大部头的二十分之一。而且(耸肩)当我在课堂上使用纸质课本尽了勾画义务,把自己的笔记整理成像模像样的 Typst 文档之后,我又开始希望自己手边有一个电子版课本了……
电子、纸质,两手都要抓。
问题
一个显然的事实是,有了实体课本,我可以不在 Anna's Archive 或者 Z-Library 里苦苦寻觅。或许是后现代社会对人们的影响,我没有在上面找到最新版的课本。我把这归咎于没有人上传,人们只会下载。尽管我也没有上传。
但我可以直接扫描——哇,伟大的 OCR 技术。前提是你能忍受满满国产味的扫描软件,或者意志坚定到使用电脑前置摄像头去一页页拍摄照片(用手机一页页拍摄本身似乎也没有好到哪去……),这个过程还是有一些折磨的。毕竟无论大模型们的理解能力多么优秀,我们、作为人类,还是要一张张拍照。
未来也许可以把一本书丢给 OpenClaw 让它们来做这件事。快点到来吧。
二维码
我们是怎么扫码的?
抱歉,这句话没有任何流行文化的谐音梗,而是我的室友向我描述「转电子书」这个过程时提出的一个愿景。我们现在是直接打开手机「扫码」的,而不是把二维码拍下来然后再去处理——当然我们可以那么做,但几乎没有人会这样。
如果我们可以拍摄「翻页的视频」呢?
我们打开书和手机录像,一只手只要有意识地翻页,在恰到好处的时候停顿一下就可以了……可以,而且结果更好。
脚本
看到这里的朋友,一定要把我之前的文章看一看,拜托了。我真的很想让更多人知道脚本对于自动化和提高效率的帮助。
总之,我(更准确地说是 Codex)编写了一个脚本 kvpaper.sh:
- 调用了 Kimi 的 API。因为我发现现在所有目光都聚焦于编程能力,在「多模态很强」几乎被当成理所应当的前提下,Kimi 2.5 是实打实地把视频理解做强了,而且我敢说是一骑绝尘。
- 让它识别视频内容,然后输出 Typst 格式。我选择 Typst,是因为我想尽可能保留排版,让我的扫描结果像真的电子书,而不是传统扫描软件导出的那种「照片合集」。当然,也因为我自己使用 Typst。你完全可以换成 LaTeX。
你可以通过这个链接看看我的脚本。
使用这个脚本,只需要在 shell 环境里声明 MOONSHOT_API_KEY,当然还要有 Typst,然后运行 ./kvpaper.sh video.mp4,就可以生成一个以时间戳命名的 PDF 文件。
以下是其他信息:
- 识别过程会跳过图表。我尝试了类似 MCP 的东西,调用 Excalidraw 和 Typst 包里那些强大的绘图工具,结果对于 AI 在这方面的表现都非常不满意。
- 大概半分钟可以拍摄 10 页内容,脚本运行需要 4 分钟,token 消耗经过不完全测试大概是三毛钱。
- 由于 AI 可能不熟悉 Typst 语法,如果语法错误 PDF 无法编译成功,脚本会返回报错信息。你可以修改脚本添加一个 while 循环,再次调用 Kimi 修改直到成功,或者在Claude Code、Codex或者 Pi-agent 之类的工具里运行这个脚本,让 Agent 处理错误信息修改 Typst 文件。
运行结果非常漂亮,具有表格、脚注、页码,真的已经像一本电子书了。
还有呢?
首先我要说,我不会因为我现在有如此便利的工具就去倒卖电子书。其次,这个过程给了我许多启示:
- 听听非专业人士的建议。我们不能一直只顾着捣鼓自己的玩具。有时候真正推进事情的,反而是一个不懂技术的人提出的、足够直觉的想法。
- 不要有偏见。我本来并不喜欢 Kimi,总觉得它营销过多……但是你看现在呢,我购买了它们的会员。
- 脚本非常强大,真的非常强大。数字世界里原本互不相干的东西,可以通过脚本联系起来,也可以通过脚本被自动化。
更重要的是,这件事又一次提醒了我,我真正感兴趣的也许不是「如何把纸质书变成电子书」这件事本身,而是「我们到底应该把哪一步交给机器」。
我不想把阅读、理解、做笔记这些事情外包出去,所以我这个学期重新买了纸质课本;但我也确实不想在需要复习某十页内容的时候,背着整本书到处跑,更不想花一个晚上做重复、机械、毫无审美的扫描劳动。于是最后的结果就变成了这样:保留纸质书、保留勾画、保留思考,把「翻页录像、识别、排版」这种事情交给脚本和模型。
这好像比「全面电子化」更好一点,也比「彻底回归纸笔」更好一点。至少对现在的我来说是这样。
如果说这篇文章有什么真正想讲的东西,那大概不是 Kimi,不是 Typst,甚至也不是 OCR,而是有些看起来很笨重、很麻烦的问题,换一个动作去描述之后,突然就可以被解决了。不是一页页拍照,而是拍一段翻页的视频。这个想法确实很有趣,我也确实很喜欢。
鸣谢
本文灵感来自我的室友。
> 下载 少数派 2.0 客户端、关注 少数派公众号,解锁全新阅读体验 📰
> 实用、好用的 正版软件,少数派为你呈现 🚀
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区