📢 转载信息
原文作者:Michelle Kim
当生成式AI热潮在2022年兴起时,鲁迪·米勒(Rudi Miller)和她的法学院同学突然被焦虑感笼罩。“在毕业之前,大家都在讨论如果AI被采用,我们的就业市场会是什么样子,”她回忆道。
因此,当选择专业方向时,米勒——现任奥礼律师事务所(Orrick)的初级律师——决定成为一名诉讼律师,即那种在法庭上代表客户的律师。她希望法庭将是人类的最后一片净土。“法官们还没有允许ChatGPT驱动的机器人出庭辩论,”她说。
本文是麻省理工科技评论“炒作修正”系列的一部分,该系列旨在重塑人们对AI的期望,了解AI的真正能力、它所能带来的可能性以及我们接下来的方向。
她有理由担心。人工智能引发的就业末日似乎正向律师行业袭来。2023年3月,研究人员报告称,GPT-4 轻松通过了统一律师资格考试。同年,一份行业报告预测,44%的法律工作可能被自动化。法律科技行业迎来蓬勃发展,律师事务所开始采用生成式AI来挖掘海量文件和起草合同,这些工作通常由初级律师完成。上个月,律师事务所英国特有(Clifford Chance)以引用增加使用AI为由,裁减了伦敦10%的员工。
但尽管炒作得厉害,大型语言模型(LLM)距离像律师一样思考——更不用说取代他们了——还很遥远。这些模型仍然会编造案例引文,难以应对法律中的灰色地带和新颖问题,并在试图综合分散在法规、规章和判例中的信息时犯错。而且,存在更深层次的制度原因让我们认为模型可能难以取代法律工作。虽然AI正在重塑该行业的基础工作,但律师的终结可能不会很快到来。
大规模实验
法律行业长期以来以长时间工作和繁重的工作量为特征,因此对超人效率的承诺极具吸引力。律师事务所正在试验像ChatGPT和Microsoft Copilot这样的通用工具,以及Harvey和Thomson Reuters的CoCounsel等专业法律工具,有些甚至在尖端模型的基础上构建自己的内部工具。他们正在推出AI训练营,并允许律师为其在AI实验上花费的数百小时进行计费。根据美国律师协会的数据,截至2024年,在拥有500名或更多律师的律师事务所中,有47.8%的律师使用了AI。
但律师们表示,LLM的推理能力距离取代他们还有很长的路要走。麦克德莫特·威尔与舒尔特(McDermott Will & Schulte)的初级律师卢卡斯·海尔(Lucas Hale)一直将AI应用于许多日常琐事。他使用Relativity筛选长文档,使用Microsoft Copilot起草法律引文。但是,当他向ChatGPT提出复杂的法律问题时,他发现这个聊天机器人会胡编乱造、离题万里,或者根本答不上来。
“在我们有一个非常狭窄的问题,或者一个法院从未裁决过的新颖法律问题时,”他指的是question of first impression,他说,“那是工具无法完成的思考类型。”
卢卡斯的大部分工作涉及将法律创造性地应用于新的事实模式。“目前,我认为诉讼律师所做的工作,至少我所做的工作,很少有可以外包给AI工具的,”他说。
詹纳与布洛克(Jenner & Block)的高级律师艾莉森·道格利斯(Allison Douglis)使用LLM来启动她的法律研究。但这些工具只能帮她走到一定程度。“在作为诉讼律师真正充实和发展论点方面,我认为它们还不够,”她说。她曾目睹模型编造案例引文,并在法律模糊不清的领域摇摆不定。
“目前,我宁愿与初级律师合作,也不愿使用AI工具,”她说。“除非它们在短期内变得异常出色,否则我无法想象这种情况会改变。”
超越考试
自从ChatGPT在律师资格考试中取得成功以来,法律行业似乎就成了AI接管的沃土。但通过标准化考试与从事法律工作是两码事。考试测试人们是否能记忆法律规则并将其应用于假设情境——而不是他们是否能在复杂现实中运用战略判断或在未开辟的法律领域中构建论点。模型可以被训练来通过基准测试,而无需真正提高其推理能力。
但是,新的基准测试旨在更好地衡量模型在现实世界中从事法律工作的能力。ScaleAI在11月发布的专业推理基准(Professional Reasoning Benchmark),根据该领域的专业人士设计的法律和金融任务,评估了领先的LLM。该研究发现,模型在专业应用方面的可靠性存在关键差距,表现最好的模型在最困难的法律问题上仅获得37%的分数,这意味着它仅满足了评估标准可能得分的三分之一多一点。模型经常做出不准确的法律判断,即使它们得出了正确的结论,也是通过不完整或不透明的推理过程得出的。
论文的主要作者阿夫拉·费扎·阿库雷克(Afra Feyza Akyurek)说:“这些工具实际上还不足以替代你的律师。”“尽管很多人认为LLM对法律有很好的掌握,但它仍然落后。”
该论文建立在其他衡量模型在具有经济价值的工作上的表现的基准之上。数据公司Mercor在9月发布并在12月更新的AI生产力指数(AI Productivity Index)发现,模型在执行法律工作方面存在“实质性限制”。表现最好的模型在法律任务上得分为77.9%,意味着它满足了大约五分之四的评估标准。研究的早期版本指出,具有这种得分的模型可能在某些行业产生巨大的经济价值,但在错误成本高昂的领域,它可能完全没有用处。
专业基准测试是评估LLM现实世界能力的一大进步,但它们可能仍未完全捕捉到律师实际做的事情。华盛顿大学法学院的法学教授乔恩·崔(Jon Choi)说:“这些问题虽然比以往的基准测试更具挑战性,但仍然不能完全反映律师在现实生活中处理的主观的、极具挑战性的问题。”他曾在2023年合著了一项关于法律基准测试的研究。
与LLM已经取得重大进展的数学或编码不同,崔说,法律推理可能对模型来说更具挑战性。法律涉及混乱的现实问题,充满了歧义和主观性,往往没有正确的答案。更糟糕的是,很多法律工作没有以可用于训练模型的方式记录下来。即使记录了,文档也可能跨越数百页,分散在复杂层级中的法规、规章和判例中。
但一个更根本的限制可能是LLM根本没有被训练来像律师一样思考。斯坦福法学院的法学教授朱利安·尼亚科(Julian Nyarko)说:“推理模型在解决问题的方式上仍然没有完全达到我们人类的水平。”模型可能缺乏一个世界的心智模型——模拟场景并预测会发生什么的能力——而这种能力可能是复杂法律推理的核心,他说。当前的LLM训练范式,即基于下一个词预测,可能只会带我们走到这里。
工作岗位依然存在
尽管有早期迹象表明AI开始影响入门级员工,但劳动力统计数据显示律师尚未被取代。根据全国法律人才协会的数据,2024年毕业的法学院学生中,有93.4%在毕业后10个月内找到工作,创历史新高。2023年至2024年,在律师事务所工作的毕业生人数增加了13%。
目前,律师事务所尚未缩减员工规模。“我们目前没有减少人员配置,”Ropes & Gray律师事务所的律所人才主管艾米·罗斯(Amy Ross)说。
即使展望未来,影响也可能是渐进的。MIT经济学家梅特·德米雷尔(Mert Demirer)说:“我预计会对法律行业的劳动力市场产生一些影响,但不会是重大的影响。”他表示,“在信息发现和总结方面,AI将非常有用,但对于复杂的法律任务来说,‘法律的低风险容忍度’加上AI目前的能力,使得这些任务在现阶段自动化程度较低。”能力可能会随时间发展,但这仍是一个巨大的未知数。
不仅模型本身尚未准备好取代初级律师。制度障碍也可能影响AI的部署方式。更高的生产力会减少计费小时数,这挑战了律师事务所占主导地位的商业模式。责任问题对律师来说至关重要,客户可能仍然希望有人承担责任。监管也可能限制律师使用该技术的方式。
尽管如此,随着AI承担了一些助理的工作,律师事务所可能需要重塑其培训体系。宾夕法尼亚大学沃顿商学院的管理学教授伊桑·莫利克(Ethan Mollick)说:“当初级工作减少时,你必须有一种比寄希望于学徒制更正式的教学方式。”
麦克德莫特·威尔与舒尔特(McDermott Will & Schulte)的初级律师扎克·库格(Zach Couger)依靠ChatGPT来梳理他过去不得不亲手处理的大量合同。他无法想象回到自己动手做这份工作的状态,但他担心自己错过了什么。“我担心我没有得到资深律师过去通过重复性训练所获得的那些经验,”他说,指代长期以来定义律师早期经历的重复性训练。“另一方面,有一个半知识专家可以随时提问,而不是去问一位也非常忙的合伙人,这确实很舒服。”
尽管AI引发的就业末日看起来还很遥远,但这种不确定性依然存在。最近,库格发现自己深夜未眠,思考他是否会成为大型律师事务所最后一批助理之一:“我可能是最后一个离开的人。”
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区