📢 转载信息
原文链接:https://www.wired.com/story/gemini-in-google-home-keeps-mistaking-my-dog-for-a-cat/
原文作者:Julian Chokkattu
一只猫跳上了我的沙发。等一下。 我没有养猫。
在我外出参加派对时,我的Google Home应用给我发送了关于这只跳跃猫科动物的提醒。结果发现那是我的狗。在启用Google Home应用中的谷歌Gemini for Home功能一天后,我收到了这条通知。该功能将大型语言模型的能力带入了智能家居生态系统,其中最实用的功能之一是来自我的Nest安全摄像头的更具描述性的警报。因此,它不再是简单的“发现有人”,而是可以告诉我联邦快递(FedEx)来送了两个包裹。
在我允许Gemini驱动我的Google Home的两周时间里,我最享受的功能是它检测到送货员的能力。一天结束时,我可以在Google Home应用中询问:“今天收到了多少个包裹?”并得到准确的答复。很高兴知道是联邦快递在门口(通过我的Nest门铃),而不是推销更换窗户的销售员。但尽管它很聪明,Gemini仍然拒绝理解我的家里没有猫。
发现有人(Person Seen)
谷歌并非唯一一家用人工智能为其智能家居生态系统注入活力的公司。亚马逊最近在其Ring摄像头上宣布了一项名为Search Party的功能,该功能将利用社区中大量的Ring户外摄像头来帮助人们寻找丢失的宠物。(我不需要过度想象类似的功能被用于不光彩的目的。)
在10月初,谷歌通过更新,用Gemini取代了其智能家居设备(其中一些已经存在了十年)上的语音助手。在大多数情况下,这个助手确实更好了。它能理解一两句话中的多个命令,而且你可以非常轻松地让它自动化家里的事情,而无需在Google Home应用的“例程”(Routines)选项卡中费力设置。当我问它一个简单的问题时,它通常会给我一个可靠的答案,而不是将我转到Google搜索页面。
更智能的摄像头警报确实可以一目了然地提供帮助。大多数时候,我会忽略“发现有人”的通知,因为那通常只是有人路过我的房子。现在,警报会准确地显示“有人走过”,这让我有更大的信心去忽略它们。有些警报准确地显示“两个人打开了门”,但有时它会产生幻觉:“有人走上楼梯”,尽管实际上没有人走上楼梯。(他们只是走在人行道上。)它相当准确地注意到了UPS、FedEx或USPS是否在门口,这在我很忙或外出时很有用,这样我回家时就知道要检查包裹——无需翻阅所有警报。
但是对于我的室内安全摄像头,Gemini经常说我家里有一只猫在游荡。那就是我的狗。即使在我的“家庭摘要”(Home Brief,Gemini在一天结束时对家中发生的事情进行的总结)中,Gemini也会说:“清晨,一只白猫很活跃,走进客厅并坐在沙发上。”这很有趣,尤其考虑到我的狗讨厌猫。
猫狗(CatDog)
你可能会认为,既然这个更聪明的助手可以做到这一点,我就可以直接告诉它:“嘿,我没有猫,我有一只狗”,然后它就会调整模型并修正错误。好吧,我正是这样做的。在“家庭问答”(Ask Home)功能中,你可以与Gemini对话,询问任何关于家庭的事情。例如,你可以在这里设置自动化操作。我让它在我或我妻子到家时打开客厅的灯,它理解了这个操作。它甚至猜到我希望灯只在晚上到家时才亮,尽管我忘记提了这一点。
当我告诉Gemini安全摄像头不断识别出一只猫,但实际上是狗,并且我没有猫时,它承认了这一点,并接受了我有一只狗。然而,这些错误仍然持续发生。一位谷歌发言人告诉我,家庭摘要和家庭问答尚处于早期访问阶段,谷歌鼓励用户提交反馈以便改进体验。

我那只所谓的猫。
Photograph: Julian Chokkattu这位发言人在邮件中说:“我们正在大力投资以提高识别准确性,包括对宠物的识别。”“这包括整合用户提供的修正(例如告诉家庭问答你的‘猫’实际上是狗),以生成更准确的AI描述。由于所有Gemini for Home功能(家庭问答、家庭摘要和AI字幕)都依赖于我们底层的面部识别(Familiar Faces)系统,提高这种准确性也意味着提高面部识别的质量。这是一个积极的投资领域,我们预计这些功能将随着时间的推移而不断改进。”
谷歌的面部识别系统允许你为摄像头经常看到的人添加姓名。当它奏效时,效果非常好。尤其是我举办假日派对时,它在我朋友到达前门时就报出了他们的名字,引发现场一片欢呼。但更多时候,我和妻子在家时,Nest门铃会响起并播报说我正站在外面按门铃。(想象一下震惊皮卡丘的表情。)面部识别目前还不支持宠物,所以最终加入这项功能可能会帮助Gemini理解我的狗不是猫,即使它的行为像猫一样。
尽管这些功能还处于早期阶段,但这个轶事表明,无论这些公司将AI吹嘘得多么智能,它们仍然无法区分我们生活中简单的细节,即使你亲口告诉了它正确的答案。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区