📢 转载信息
原文链接:https://www.wired.com/story/game-theory-explains-how-algorithms-can-drive-up-prices/
原文作者:Ben Brubaker
Quanta Magazine 上的这个故事的原始版本发表于 Quanta Magazine。
想象一个小镇上有两个小工具商人。顾客喜欢更便宜的小工具,所以商人们必须竞争,以设定最低价格。他们对微薄的利润感到不满,于是有一天晚上在一个烟雾弥漫的小酒馆里密谋了一个秘密计划:如果他们一起提高价格而不是相互竞争,他们都可以赚更多的钱。但这种故意的价格操纵行为,被称为共谋(collusion),长期以来一直是非法的。小工具商人决定不冒险,其他所有人都可以继续享受廉价的小工具。
一个多世纪以来,美国法律一直遵循这个基本模板:禁止那些密室交易,就能维持公平的价格。如今,情况变得没那么简单了。在经济的广泛领域中,卖家越来越多地依赖于被称为学习算法(learning algorithms)的计算机程序,这些程序会根据有关市场状况的新数据反复调整价格。这些算法通常比驱动现代人工智能的“深度学习”算法要简单得多,但它们仍然容易出现意外行为。
那么监管机构如何确保算法设定公平的价格呢?他们传统的方法将行不通,因为它依赖于发现明确的共谋行为。宾夕法尼亚大学计算机科学家Aaron Roth说:“这些算法肯定不会彼此一起喝酒。”
然而,一篇被广泛引用的 2019 年论文表明,即使没有被编程去共谋,算法也能学会心照不宣地共谋。一个研究小组在一个模拟市场中让两个相同简单学习算法相互对弈,然后让他们探索增加利润的不同策略。随着时间的推移,每个算法通过试错学会了在对方降价时进行报复——以某种巨大、不成比例的幅度降低自己的价格。最终结果是高价,这得到了相互发动价格战的威胁作为后盾。

Aaron Roth 怀疑算法定价的陷阱可能没有简单的解决方案。“我们论文传达的信息是,要弄清楚该禁止什么很难,”他说。
摄影:Aaron Roth 提供像这样的隐含威胁也构成了许多人类共谋案例的基础。因此,如果你想保证公平的价格,为什么不要求卖家使用本质上没有能力表达威胁的算法呢?
在最近的一篇论文中,Roth 和其他四位计算机科学家展示了为什么这可能还不够。他们证明,即使是看似良性的、仅针对自身利润进行优化的算法,有时也会给买家带来糟糕的结果。与 Roth 合作的在读研究生、新研究的合著者Natalie Collina说:“你仍然可能以从外部看起来相当合理的方式获得高价。”
研究人员在这一发现的含义上并不完全一致——很多取决于你如何定义“合理”。但这揭示了围绕算法定价的问题可能有多么微妙,以及监管起来可能有多么困难。
“如果没有某种威胁或协议的概念,监管机构就很难介入并说,‘这些价格感觉不对劲’,”莱斯大学经济学家Mallesh Pai说。“这也是我认为这篇论文很重要的原因之一。”
无怨无悔
这篇最新的论文通过博弈论的视角研究了算法定价,博弈论是一个跨学科领域,它介于经济学和计算机科学之间,分析战略竞争的数学原理。这是在受控环境中探索定价算法失效的一种方式。
“我们试图做的是在实验室中制造共谋,”宾夕法尼亚大学经济学家Joseph Harrington说,他撰写了一篇关于监管算法共谋的有影响力的综述论文,并且没有参与这项新研究。“一旦我们做到了,我们就想弄清楚如何摧毁共谋。”

Natalie Collina 和她的同事们发现高价可能会以意想不到的方式出现。
摄影:Nandan Tumu为了理解关键概念,从简单的剪刀石头布游戏开始很有帮助。在这种情况下,学习算法可以是玩家根据前几轮的数据来选择下一步行动的任何策略。玩家可能会在游戏过程中尝试不同的策略。但如果他们玩得好,他们最终会收敛到一个博弈论家称之为均衡(equilibrium)的状态。在均衡状态下,每个玩家的策略是对另一个玩家策略的最佳可能回应,因此任何一方都没有改变策略的动机。
在剪刀石头布中,理想的策略很简单:你应该每轮都随机出招,将所有三种可能性出现的频率相等。如果一方采取了不同的方法,学习算法就会发挥作用。在这种情况下,根据前几轮的情况来选择出招,可以帮助另一方比随机出招获得更高的胜率。
假设,例如,经过许多回合后,你发现你的对手,一位地质学家,有超过 50% 的时间选择了“石头”。如果你每轮都出“布”,你会赢得多一些。博弈论家将这种痛苦的领悟称为遗憾(regret)。
研究人员设计了简单的学习算法,可以保证你永远不会有零遗憾。稍微复杂一点的学习算法被称为“无置换遗憾”(no-swap-regret)算法,它们也保证,无论对手做了什么,你都不可能通过将所有某个特定出招替换为另一个出招(比如,每次出剪刀时都出布)来做得更好。2000 年,博弈论家们证明了,如果你让两个无置换遗憾算法在任何游戏中相互对弈,它们最终会达到一种特定类型的均衡——如果它们只玩一轮,那种均衡就是最佳均衡。这是一个很有吸引力的特性,因为单轮博弈比多轮博弈简单得多。特别是,威胁在这种情况下不起作用,因为玩家无法跟进。
有一种产生遗憾的方式就是变得有点“笨”——历史上,这并不违法。
在2024 年的一篇论文中,西北大学计算机科学家Jason Hartline和两名研究生将 2000 年论文中的经典结果应用到竞争市场的模型中,在这个模型中,玩家可以每轮设定新价格。在这种情况下,结果意味着对决的无置换遗憾算法在达到均衡时将始终保持竞争性价格。共谋变得不可能。
然而,无置换遗憾算法并不是在线市场中所有定价博弈策略的唯一选择。那么,当一个无置换遗憾算法面对另一个看起来同样良性的对手时会发生什么呢?
价格出错了
根据博弈论家的说法,与无置换遗憾算法对弈的最佳策略很简单:以特定概率开始每种可能出招,然后每轮随机选择一个出招,无论对手做什么。这种“不响应式”(nonresponsive)方法的理想概率分配取决于你玩的具体游戏。
在 2024 年夏天,Collina 和她的同事Eshwar Arunachaleswaran着手寻找一个双人定价游戏的那些最佳概率。他们发现,最佳策略对非常高的价格赋予了惊人的高概率,同时对各种较低的价格赋予了较低的概率。如果你与一个无置换遗憾算法对弈,这种奇怪的策略将使你的利润最大化。“对我来说,这是一个彻底的惊喜,”Arunachaleswaran 说。

Eshwar Arunachaleswaran 和 Collina 在探索对表现良好的定价算法的最佳反应时得出了他们的结果。
摄影:Paritosh Verma不响应式策略表面上看起来无害。它们无法传达威胁,因为它们根本不响应对手的举动。但它们可以诱使学习算法提高价格,然后通过偶尔地低于竞争对手来获取利润。
起初,Collina 和 Arunachaleswaran 认为这种人为的情况与现实世界无关。他们认为,使用无置换遗憾算法的玩家肯定会在意识到竞争对手正在从他们那里获利后切换到另一种算法。
但随着他们进一步研究这个问题并与 Roth 和另外两位同事讨论,他们意识到他们的直觉是错误的。他们场景中的两个参与者已经处于均衡状态。他们的利润几乎相等,并且只要没有一方切换到不同的算法,他们的利润都是尽可能高的。任何一方都没有改变策略的动机,因此买家将不得不忍受高价。更重要的是,精确的概率并不那么重要。许多不同的选择在与无置换遗憾算法对弈时都会导致高价。这是一种你期望从共谋中得到的结果,但没有任何共谋行为出现。
“笨拙”是有回报的
那么,监管机构能做些什么呢?Roth 承认他没有答案。禁止无置换遗憾算法是没有意义的:如果每个人都使用它,价格就会下降。但是,一个简单的不响应式策略可能是一个在线市场(如亚马逊)上卖家的自然选择,即使它带有产生遗憾的风险。
“有一种产生遗憾的方式就是变得有点笨,”Roth 说。“历史上,这并不违法。”
在 Hartline 看来,算法共谋问题有一个简单的解决方案:除了博弈论家长期青睐的无置换遗憾算法外,禁止所有定价算法。可能有一些实际方法可以做到这一点:在他们 2024 年的工作中,Hartline 和他的同事们设计了一种方法,可以在不查看代码的情况下检查算法是否具有无置换遗憾特性。
Hartline 承认,他首选的解决方案并不能阻止无置换遗憾算法与人类竞争时出现的所有不良后果。但他辩称,Roth 论文中描述的情景不属于算法共谋的情况。
“共谋是双向的,”他说。“从根本上说,一个单一玩家可以采取行动而不共谋,这才是关键。”
无论哪种情况,这项新工作仍然留下了许多关于算法定价在现实世界中如何出错的未解问题。
“我们仍然了解得不够多,”Pai 说。“这是我们这个时代的一个重要问题。”
Quanta Magazine 经允许转载原始故事,Quanta Magazine 是西蒙斯基金会的独立出版物,其使命是通过报道数学、物理和生命科学的研究进展和趋势,来提高公众对科学的理解。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区