当前位置: 首页 > 工具软件 > Semantic Ant > 使用案例 >

Automated Extraction of Semantic Legal Metadata Using Natural Language Processing【翻译】

贺乐意
2023-12-01

1.introduation

 法律元数据提供关于法律文本内容的明确概念性知识。需求工程(RE)团体长期以来一直对法律元数据感兴趣,将其作为识别和细化法律合规需求[1]、[2]、[3]过程的系统化方法。法律元数据有几个方面:行政元数据跟踪法律文本的生命周期,例如文本的创建日期、作者、生效日期和修改历史。来源元数据保存有关法律文本来源的信息,例如,立法文本批准前的议会讨论。使用元数据将法律条款与其在判例法、法理学和学说中的应用联系起来。结构化元数据捕捉法律文本(或法律语料库)的层次结构。最后,语义元数据捕获有关法律条款的含义和解释的细粒度信息。该信息包括,在其他事物中,模式(例如,许可和义务),行为者,条件,例外和违反。

其中,RE中研究最多的是结构化元数据语义元数据。结构化元数据主要用于建立对法律条文的可追溯性,并执行需求变更影响分析[4]、[5]和优先级排序[2]、[6]等任务。语义元数据是系统地推导遵从性的先决条件要求[1],[7],[8],[9],以及从法律文本过渡到正式规范[10]或型号[3],[8],[11]。

在本文中,我们关注语义法律元数据。在图1中,我们通过三个说明性的法律声明来举例说明这种元数据。这些声明来自卢森堡的交通法规,并被翻译成英语,从他们的母语,法语。表述一涉及市政当局对公共道路的管理。声明2涉及违反车辆检查程序的处罚。陈述3涉及治安法官在对交通罪行进行检控时的互动。在这些示例中,我们只为语句中的短语提供元数据注释(短语级元数据)。其中一些短语级注释诱导语句级的注释(语句级元数据)。例如,语句1和语句3中的“may”形式使这些语句具有权限。语句二中的情态动词“shall”,加上处罚的存在,使语句成为处罚语句。在第三节中,我们将进一步解释图1所示的元数据类型。

图一的例子说明了各种政府资讯科技系统的法律要求,包括道路和关键基础设施管理系统,以及警察和法院处理案件的应用程序。

图1中的元数据注释为需求分析师提供了有用的信息。事实上,正如我们在第二节中更精确地讨论的那样,RE文献在法律需求的引出和详细阐述中确定了语义法律元数据的几个用例。例如,语句1的注释帮助查找可以实施道路限制的条件。陈述2的注释可能会导致分析师定义一个由先决条件(这里,没有协议)、行动(这里,执行车辆检查)和后果(这里,一系列制裁)组成的合规规则。最后,声明3的注释提供了关于在需求提取过程中可能需要访问的涉众的线索(代理和辅助方),以及这些涉众应该交互的方式,可能使用计算机系统。

我们在本文中的工作受到了语义法律元数据研究的两个局限性的推动:1)缺乏对语义法律元数据的统一观点。虽然语义法律元数据学界承认语义法律元数据的重要性,但对于有利于法律需求分析的元数据类型还没有达成共识。不同的工作链提出了不同的元数据类型[7],[3],[10],[12],[13],但没有一个链完全覆盖其他的。2) NLP在元数据提取方面的潜力未被充分开发。如果手工完成,用语义元数据增强大型法律文本语料库是非常费力的。近年来,利用自然语言处理(NLP)实现这一任务的自动化已受到越来越多的关注。值得注意的旨在为元数据提取提供自动化的举措是GaiusT[3]和NomosT[11]。这些计划不处理RE文献中提出的更广泛的元数据类型集,例如Breaux[7]提出的位置,Massey[2]提出的对象,以及Siena等人[13]提出的情况。此外,它们主要依赖于简单的NLP技术,例如,标记化、命名实体识别和词性标记(POS)。简单的NLP技术的优势在于它们不太可能出错。然而,这种技术不能提供对法律条款复杂语义的详细见解。

随着最近NLP的发展,先进的NLP技术的健壮性,特别是支持和依赖解析,大大改善了[14]。这带来了这样一种前景:这些更先进的技术现在可能足够准确,可以对法律文本进行深度自动化分析。依赖句法分析对于正确识别受语言依赖影响的成分具有重要意义。例如,在图1的陈述3中,(被起诉的)人、调查法官和公诉人的角色可以从这种依赖关系中衍生出来。选区解析对于描述元数据注释的正确范围非常重要。例如,在图1的陈述1中,注释“位于城市聚集区内的国家道路”为一个段,需要将这个段识别为复合名词短语的能力。如果没有解析树,就无法完整地标记这个段,因此就无法确定位置注释的正确范围。据我们所知,NLP的全面应用,包括选区解析和依赖解析,还没有尝试在法律文本中广泛应用元数据类型。

研究问题(rq)。在本文中,我们研究了三个rq。RQ1处理上面的第一个限制,而RQ2和RQ3处理第二个限制。

RQ1: RE中使用的语义合法元数据类型是什么?RQ1的目标是开发一个统一的规范,用于法律RE中使用的语义元数据类型。为此,我们审查并协调了几种现有的分类。我们对RQ1的回答是本文的第一个贡献:与法律需求分析相关的语义元数据类型的概念模型。该模型为法律语句定义了6种元数据类型,并为其短语定义了18种元数据类型。在线附件[15]提供了一个术语表和到文献的映射。

RQ2:可以针对选区和依赖项解析结果定义语义合法元数据提取规则吗?RQ2研究了是否可以使用选区解析和依赖项解析轻松定义提取语义合法元数据的规则。为了回答RQ2,我们对来自卢森堡交通法规的200多条法律声明进行了定性研究。具体来说,我们使用RQ1中建立的合法元数据类型来注释有问题的法律声明。我们使用这项研究的结果来定义可以自动检测注释的规则。RQ2的答案是该论文的第二个贡献:一套基于nlp的规则,用于自动提取语义法律元数据。我们的规则利用选区解析和依赖项解析,涵盖了RQ1中确定的大部分短语级元数据类型。

RQ3:使用选区和依赖项解析提取语义法律元数据的准确性如何?RQ3是根据RQ2的一个肯定的答案提出的,目的是评估我们提取规则的准确性。我们的评估是基于150条新的交通法规。在我们的评估中,我们调整了精确度和查全率,使它们不仅考虑到抽取规则对元数据类型的正确分配,而且还考虑到应用元数据注释的文本范围的正确描述。这两个因素都很重要,因为无论是类型还是跨度上的错误都会导致手工工作。具体来说,我们采用的精确和召回的概念对那些类型正确但跨度仅部分正确的注释进行了惩罚。总的来说,我们的方法(改编)的准确率为87.4%,召回率为85.5%。当只考虑类型赋值时,准确率为97.2%,召回率为94.9%。

概述和结构。第二节审查背景和有关工作。第三节描述了语义法律元数据的概念模型。第四部分介绍了我们的定性研究以及由此产生的抽取规则。第五节评估提取规则的准确性。第六节讨论有效性的威胁。第七部分对本文进行总结。

II. BACKGROUND AND RELATED WORK

我们首先介绍道义逻辑和霍费尔德体系的背景知识。这些是法律分析领域大多数工作的基础。接下来,我们讨论了语义法律元数据的相关工作。最后,我们通过解释以前在RE中如何使用选区解析和依赖项解析来定位我们的技术方法。

A. Preliminaries

现有的研究在试图解释和分析法律的语义时,大多不是扎根于道义逻辑[16],就是扎根Hohfeldian法律概念体系[17]。

道义逻辑将“允许的”(许可或权利)与“应该是的”(义务)及其否定区分开来:分别是“不允许的”(“禁止的”)和“不应该是的”(“省略的”或非强制性的)。

Hohfeldian系统[17]区分了8个法律权利术语:索求(索求权)、特权、权力、豁免、义务、无索求、责任和残疾。Hohfeldian系统中的每一项都与一个相反的项和一个相关的项配对。如果一种权利的存在排斥另一种权利的存在,那么两种权利就是对立的。Hohfeldian的对立面类似于道义逻辑中对许可和义务的否定。如果一方当事人的权利必然存在另一方当事人(相对人),而另一方当事人也有相关权利,则两种权利是相关的。

例如,司机有权知道他们的车辆被警察拦下的原因;这意味着警察有责任解释停车的原因。

B. Semantic Metadata in Legal Requirements

道义逻辑和霍夫费尔德体系引入了许多重要的法律概念。有几个分支的工作利用这些概念来引出和说明法律要求,以及法规遵循规则的定义。下面,我们将概述这些线索及其背后的法律概念。许多法律概念的例子可以在图1中找到。然而,我们注意到并不是所有的出版物都对它们所使用的概念提供了精确的定义。此外,对于某些概念,不同出版物提供的定义也不同。因此,虽然图1对说明现有的工作很有用,但其他人使用的定义可能与我们的不完全一致。我们对图1中的概念的定义是基于我们在第三节中提出的概念模型。

早期的基础。关于从法律文本中提取信息的RE最早的两个研究方向是由Giorgini等人和Breaux等人进行的。这些方法的目标是引出权利和许可遵循道义逻辑的原则。Breaux等人提供了一个如何从法律文本中提取结构化信息的概念证明示例。Kiyavitskaya等人扩展了通用Cerno信息提取框架[20],为Breaux等人的方法开发了自动化。自动化处理权利、义务、例外、约束、交叉引用、参与者、策略、事件、日期和信息。

道义逻辑和霍夫费尔德体系引入了许多重要的法律概念。有几个分支的工作利用这些概念来引出和说明法律要求,以及法规遵循规则的定义。下面,我们将概述这些线索及其背后的法律概念。许多法律概念的例子可以在图1中找到。然而,我们注意到并不是所有的出版物都对它们所使用的概念提供了精确的定义。此外,对于某些概念,不同出版物提供的定义也不同。因此,虽然图1对说明现有的工作很有用,但其他人使用的定义可能与我们的不完全一致。我们对图1中的概念的定义是基于我们在第三节中提出的概念模型。

早期的基础。关于从法律文本中提取信息的RE最早的两个研究方向是由Giorgini等人和Breaux等人进行的。这些方法的目标是引出权利和许可遵循道义逻辑的原则。Breaux等人提供了一个如何从法律文本中提取结构化信息的概念证明示例。Kiyavitskaya等人扩展了通用Cerno信息提取框架[20],为Breaux等人的方法开发了自动化。自动化处理权利、义务、例外、约束、交叉引用、参与者、策略、事件、日期和信息。

上述内容为法律要求研究的两个不同分支奠定了基础。第一个分支是面向目标建模的,第二个分支是面向形式规则的,这些规则是用受限的自然语言或逻辑指定的。

基于目标的法律要求。Kiyavitskaya等人与Cerno的最初工作被Zeni等人在GaiusT工具[3]中加强。GaiusT追求一个明确的目标,即在法律文本中识别元数据,并使用该元数据构建基于目标的法律要求表示。

GaiusT围绕以下概念:(1)具有目标、责任和能力的行动者,(2)根据权利、义务及其各自对立面的道义逻辑模式规定的行为,(3)资源,专门化为资产和信息,(4)描述正在发生的行为,(5)约束,例外或时间条件,影响行动者、资源或规定的行为。GaiusT进一步解决了我们在这里不涉及的结构化法律元数据。

与GaiusT一起,不同版本的Nomos框架[8]、[11]、[13]、[21]为元数据提取提供了一个互补的角度,与目标模型的对齐更加明显。Nomos模型围绕五个核心概念构建:角色(条款的持有者或受益人)、规范(义务或权利)、描述世界过去、实际或未来状态的情境,以及描述条款如何影响给定情境的关联。Zeni等人提出了NomosT[11]来使用GaiusT自动化提取Nomos概念。虽然仍然基于Nomos的原始概念,但NomosT重用了来自GaiusT的其他几个概念,包括参与者、资源、条件和异常

上述工作链遵循道义逻辑的原则。另一个基于目标分析法律要求的工作是LegalGRL[22],[23],与上述不同,它遵循Hohfeldian系统。LegalGRL中的主要法律概念有:主体、形式(根据Hohfeld对权利的分类)、动词、动作、交叉引用、前提条件和例外。LegalGRL还没有自动支持元数据提取。

正式的法律要求。Breaux等人在遵循他们早期工作[19]的基础上,在得到合规要求的激励下,提出了一个上层本体,用于在法律条款中形式化“框架”。这个本体有两层。第一层描述语句级(句子级)的概念。这些概念是:权限、义务、约束、排除、事实和定义。第二层描述与法律陈述中的组成短语相关的概念(短语级概念)。在第二层中,动作被用作封装以下概念的容器:主体、行为、对象、目的、工具和位置。对于属于事务的操作,需要指定一个或多个目标。Breaux等人在短语层面进一步考虑了模式、条件和例外。

Maxwell和Antón[10]提出了一种语义概念分类,用于构建法律条款的形式表示。这些表示是为了在需求提取过程中指导分析人员。在陈述级,分类设想了权利、许可义务和定义的概念。在短语层面,利益的概念是条款中涉及的行动者和适用于条款的前提条件。

Massey等人开发了一种将法律文本的术语映射到需求规范的方法。这里的目标是评估在需求规范中如何很好地处理法律问题。Massey等人在添加优先级的同时,重用了Breaux等人的上层本体中的权利、义务、约束和定义的概念。在短语级别,该方法使用参与者、数据对象、操作和交叉引用。

C. Semantic Metadata in Legal Knowledge Representation

法律知识表征界对法律知识的形式化进行了大量的研究。针对不同维度的法律概念[25]、[26],已经开发了几种本体。我们在这里的目标不是对这些本体进行全面的阐述,因为我们的重点是RE社区中存在明确用例的元数据类型(在第II-B节中讨论)。

如上所述,对法律知识表示社区的主要举措有一个全面的了解对我们的目的很重要:首先,这些举措作为一种验证性措施,以确保我们在正确的抽象级别上定义元数据类型。其次,通过考虑这些计划,我们能够在RE中使用的元数据类型和这些计划中使用的元数据类型之间创建一个映射;这是连接两种社区的有益步骤。

我们考虑两个主要的倡议,LKIF[27],[28],[29]和LegalRuleML[30],[31],它们可以说是迄今为止在协调法律概念方面最大的尝试。

LKIF是一种规则建模语言,适用于从立法到法院判决的各种法律文本。LKIF的核心本体包括200多个类。在声明层面,LKIF支持以下道义概念:权利、许可、义务和禁止。在短语级别上,LKIF最相关的概念是:参与者、对象、事件、时间、地点、交易、事务和委托(进一步专门化为授权和分配)。LKIF进一步为事件的前因和结果提供了概念。

LegalRuleML[30],[31]——LKIF的继承者——为合法域定制了通用的RuleML语言[32]。LegalRuleML将陈述分为事实和规范。规范进一步细化为构成性陈述(定义)、规范性陈述和惩罚陈述。规定性陈述的情态在短语层面上是用下列道义概念之一来表达的:权利、许可、义务或禁止。处罚声明中嵌入了侵犯和赔偿的概念。LegalRuleML直接在短语级别进一步引入了以下概念:参与者、事件、时间、地点、权限、工件和遵从性(与违反相反)。参与者可以被指定为代理人、承办人或第三方,他们可以发挥作用并成为一个权威机构的一部分。

LKIF和LegalRuleML的所有上述概念在第II-B节审查的关于法律要求的RE文献中都有对应。在第三节中,我们协调了所有与RE相关的法律概念,试图为RE提供一个统一的法律元数据模型。

D. Constituency and Dependency Parsing in RE

如前所述,我们从NLP中使用的用于元数据提取的主要支持技术是选区依赖项解析。近年来,一些先进的自然语言处理技术,包括群体解析和依赖解析,在正则中引起了很大的关注。这些技术应用的问题示例有模板一致性检查[33],模型提取[34],[35],特征提取[36],模糊和缺陷检测[37],[38]。

具体而言,在法律要求方面,Bhatia等人[9]、[39]和Evans等人[40]应用了选民和依赖解析来分析隐私策略。这些工作线索为我们提供了有益的启发。然而,我们的目标是不同的。Bhatia等人和Evans等人专注于通过构建领域特定的词汇和本体来检测隐私策略中的歧义性。相比之下,我们的工作是提取元数据,以便于识别和说明法律要求。我们的工作与前面讨论的GaiusT和NomosT项目最一致。我们的工作与这些计划的区别在于提供了更广泛的元数据类型,并使用了能够更准确地划分元数据注释范围的NLP技术。

III. A MODEL OF SEMANTIC LEGAL METADATA (RQ1)

我们的语义法律元数据的概念模型如图2所示。图中的虚线边界区分语句级和短语级元数据类型。我们的概念模型汇集了Breaux等人[1]、Maxwell和Antón[10]、Siena等人[13]、Massey等人[2]、Ghanavati等人[22]和Zeni等人[3]的现有建议。该模型的大部分概念(83.3%(20/24))来自Breaux等人的[1]和Zeni等人的[3]。由于篇幅的原因,我们没有展示我们在上述建议之间开发的完整映射。这个映射可以在在线附件[15]中找到。附件进一步提供了概念模型的术语表。

协调上述建议的主要挑战是,它们引入了不同但重叠的概念。在处理RE文献中重叠的概念时,我们倾向于与LKIF[27]和LegalRuleML[30]更一致的概念,在第II-C节中概述。这个决定是由在抽象层次上定义我们的概念的愿望驱动的,这样可以与法律知识表示社区的倡议进行互操作性。

我们的模型在陈述级别上有六个具体的概念。除了惩罚,所有语句级的概念都来自Breaux等[1]。处罚来自LKIF;我们认为这一概念是包含制裁的声明的必要名称。该模型为短语设想了18个具体的概念。大多数已经在图1的陈述中说明。代理是执行动作的参与者,而目标是受条款执行影响的参与者。

第三种行动者是辅助方,它既不是代理人,也不是目标,而是中介。陈述1和陈述2分别给出了代理和目标的例子。在语句3中给出了所有角色类型一起的例子。

artifact 的概念是指人造物体(物理的或虚拟的)。一个例子artifact 是表述2中的“协议”。 situation的概念描述的是一种事件的状态,类似于Nomos[13]。一种情况可能是结果;其结果可进一步归类为制裁。一个例子是陈述3中的“禁止驾驶”。这种情况也恰好是一种 sanction.

对“正在发生的事情”的描述被认为是Nomos[13]中的一个norm,GaiusT[3]中的一个action,Breaux等人的上层本体[1]中的一个 clause,LegalGRL[22]中的一个子句。在我们的模型中,我们遵循GaiusT的术语。如图1所示,动作可以与情态(通常通过情态动词表达)和modality联系在一起。约束可以进一步分类为例外或条件。条件可进一步归类为违反;这是指条件描述底层语句被拒绝(违反)的情况。语句2提供了一个违规的例子。违反规定和前面讨论的制裁措施为推断不遵守规定的后果提供了必要的信息。

我们使用reason的概念(图1中没有说明)来捕捉一个陈述的目的。这个概念对应于Breaux等人的上层本体中的目的,对应于GaiusT中的目标。术语“原因”来自LegalRuleML。最后,一个语句可能包含引用、时间和地点等形式的信息。这些概念在图1的陈述中都有说明。(因此也是一种结果)。

最后,我们注意到并不是第2节中讨论的所有概念都保留在我们的模型中。当我们认为一个概念可以使用其他概念表达时,或者当这个概念不能直接导致元数据时,就会做出不保留的决定。例如,遵从性来自于满足一个或多个条件。委托是一种特殊的行为,涉及到辅助方。排除是一种隐式类型,如果不进行额外的推理,很难进行推断。

IV. EXTRACTING SEMANTIC LEGAL METADATA (RQ2)

在本节中,我们报告了一项定性研究,旨在定义语义法律元数据的提取规则。我们的研究只关注短语级元数据。将(语句级)元数据归为整个语句需要短语级元数据的知识。我们将语句级元数据提取留给未来的研究。

研究背景和数据选择。我们的研究是与卢森堡中央立法机构(法语,Service Central de Législation,以下简称SCL)合作进行的。标准及校正实验所的主要任务是出版和传播国家法律文本。SCL已经采用了一系列语义web技术来处理法律文本,并且在法律元数据方面有相当丰富的经验。近年来,标准及校正实验所一直在研究法律元数据的使用,主要有两个目的:(1)协助IT工程师识别可能隐含软件需求的法律条款;在第一节中,我们为需求分析师展示了语义法律元数据的一些可能的用例,以及(2)提供一个在线服务,使非专业人士和专业人士能够交互式地查询法律,例如,询问诸如“在最高限速30公里/小时的道路上超速会有什么后果?”我们的工作受到前一个法律元数据用例的激励。

我们的研究集中在卢森堡的交通法规上。交通法规由74个独立的法律文本组成,包括立法、法规、命令和判例。正文总共有1075页,包含约12000条陈述。最古老的文献来自1955年,最近的文献来自2016年。交通法规的选择有两个因素。首先,由于这些法律是直观的,而且广为人知,SCL发现它们是向卢森堡的决策者展示法律元数据好处的一个很好的例子。其次,从RE的角度来看,交通法规的规定很有趣,因为它们对警察部队、法院和公共基础设施管理部门使用的IT系统有广泛的影响。

我们的研究是从交通法规中随机选择的200条语句。与大多数法律文本一样,我们研究中的源文本包含包含枚举和列表的语句。为了正确对待这些语句,我们采取了常见的法律文本预处理措施,特别是将语句的开始部分与其单独的列表项合并,形成完整、独立的句子[41]。

分析过程。我们的分析过程遵循协议编码[42],这是一种根据预先建立的理论即编码集来收集定性数据的方法。在我们的研究中,代码是图2模型的短语级概念。第一作者是一名母语为法语的NLP专家,他从交通法规中选取了200个语句进行分析,并对这些语句的短语进行了注释。在整个过程中,困难或模棱两可的情况作者(包括一名法律专家)进行了讨论,并在协商一致的基础上作出了决定。

为了评估编码的整体可靠性,第二作者——一个具有NLP和法规遵从性背景的法语母语者——在作者之间进行任何讨论之前,独立注释了所选语句的10%。然后使用Cohen’s κ[43]计算间值一致性。当两个注释器为相同的文本范围分配相同的元数据类型时,就算达成了一致。其他情况可以算作分歧。我们得到κ = 0.824,表示[44]“几乎完全一致”。

编码的结果。编码过程并没有提示使用任何概念,超出了图2的概念模型。换句话说,我们发现模型的短语级概念具有充分的表达能力。

表一给出了研究语句中每个短语级概念出现次数的总体统计数据。在大多数情况下,我们可以为给定短语分配唯一的注释。但是,我们确实遇到过这样的情况:对同一个短语的不同解释会导致不同的注释。表的最后一列提供了关于带有多个注释的短语的信息。例如,我们用神器这个独特的概念注释了73个短语。此外,我们还注释了7句话作为神器与制裁,5句话作为神器与情境,等等。我们注意到短语是分层的和嵌套的。因此,嵌套注释非常普遍,如图1中的语句所示。我们在表I的最后一列中所显示的内容不包括嵌套,只涉及在完全相同的范围内附加了多个注释的短语。图1的表述1中的“暂时或永久”就是这样的一个例子。在这里,两个注解,约束和时间,被附加在同一个跨度上。

在200条语句中,我们总共注释了1339个短语。在这些短语中,有1299个(≈97%)有一个注释,其余40个(≈3%)有两个注释(即没有观察到有两个以上注释的情况)。

在概念的覆盖范围方面,每个概念出现了20多次,但有两个例外:result不表示,constraint只有5次出现。尽管我们的研究没有发现任何结果,但这一概念在概念上很重要。特别是,从法律专家的反馈来看,情况和制裁之间存在差距。为了说明这一点,请考虑以下陈述(来自我们的定性研究之外):“如果缺陷已经修复,汽车就不需要进行新的检查。”在这里,“缺陷已修复”是作为条件的一部分出现的常规情况。接下来,即“该汽车不接受新的车辆检查”是第一种情况的结果;然而,这种后果并不是一种制裁。结果是一个笼统的概念,指的是后果,而不是制裁。

对于图2模型中无法归类为任何约束专门化的约束,考虑如下陈述:“运输单位的驾驶员[…]必须与他们前面的车辆保持至少50米的距离[……]。”这句话中斜体部分限制了对距离的解释。这个限制既不是条件也不是异常。接下来,我们将描述从定性研究中得出的提取规则。我们从规则中排除了结果和约束,因为我们的定性研究没有产生对这两个概念的足够数量的观察。

接下来,我们将描述从定性研究中得出的提取规则。我们从规则中排除了结果和约束,因为我们的定性研究没有产生对这两个概念的足够数量的观察。

元数据抽取规则。表2给出了我们通过分析研究中1339条手工标注得出的提取规则。对规则进行迭代精化,以最大化这些注释的准确性。我们的规则涵盖了图2模型中18个短语级概念中的12个。没有涉及的概念是:结果和约束(由于缺乏足够的观察,如上所述),参与者的三种专门化,以及(交叉)引用。

对于行动者(agent、target和auxiliary party)的专门化,我们观察到它们的区分是高度语境依赖的。因此,我们认为,如果要为这些专门化定义规则,则过度拟合的风险很高。相反,我们的规则直接针对参与者。

关于引用,我们有意识地选择不在提取规则中包含它们。法律交叉引用在正则中得到了很好的研究,已经有了详细的语义分类[45],[46]。对于交叉引用元数据的自动提取,可以使用Sannier等人的[5],[46]提取规则。表II中每个规则中蓝色突出显示的元素是该规则注释的目标短语。

参与者的规则同时使用组合解析和依赖解析,而其余规则仅使用组合解析。除了动作和参与者的规则之外,所有规则都完全用Tregex[47]表示,这是一种广泛用于(部分)解析树的模式匹配语言。动作规则注释遇到的每个动词短语,从注释范围中排除任何嵌入的类型情态、条件、异常和原因片段。

注意,要正常工作,动作规则必须在前面提到的四个概念之后运行。

我们不提供Tregex的详细说明,Tregex已经是[47]的良好文档。下面,我们举例说明其中一些

便于对我们的规则进行理解,并进一步讨论一些重要的一般规则的技术性问题。

考虑图1中的表述1。图3显示了该语句摘录的(简化的)解析树。该语句中的条件注释是由以下Tregex规则提取的:PP <<(条件标记)。该规则匹配任何包含条件标记的介词短语(PP)。

在我们的示例中,术语“限制”就是这样一个条件标记。

表2中所有概念(包括条件)的初始标记集来自我们对研究中200条注释语句的分析。有了这些初始集,我们对不同的概念采用不同的策略,以使它们各自的标记集尽可能完整。接下来我们将介绍这些策略。表III说明了不同概念的标记。我们注意到最初的标记是法语;表三中的术语是翻译。

我们还注意到,为了简单起见,该表为每个概念提供了一组标记。在实际应用中,提取同一概念的不同规则使用不同的标记子集。例如,表II中的第一个条件规则(Srel <<(条件标记))将“who”和“whose”视为概念标记,而其他四个规则则不视为概念标记。

我们观察到,actor和situation具有广泛的范围,从而导致大量的潜在标记集。为了以一种超越我们学习背景的方式来确定这些概念的标记,我们根据字典系统地列举了各种可能性。确切地说,我们把所有东西都刮掉了Wiktionary[48]中的条目。任何被归类为名词且定义中包含“行为”或“行动”(或其变体)的条目都被认为是情况的标记。例如,考虑Wiktionary中的术语“检查”,它的定义是“经常密切检查某物的行为”。情境标记中加入“inspection”后,表II中的情境规则NP <(情境标记)将图1表述2中的名词短语“vehicle checking”标记为情境。

类似地,任何被分类为名词且定义包含“人”、“组织”、“身体”(或其变体)的wiki条目都被认为是参与者的标记。例如,“权威”是一个参与者标记,因为Wiktionary将其定义为“执行法律和秩序的机构[…]”。如表2中的规则所示,仅仅参与者标记的出现并不一定会引发参与者注释:参与者还必须出现在规则定义的主体或对象依赖关系中。为了说明这一点,让我们再次考虑图1中的表述1。图4给出了该语句摘录的一个(简化的)依赖图。这里,参与者注释由规则提取:主体依赖和NP <(参与者标记)。如果名词短语包含一个参与者标记,并且对语句中的主(根)动词有主语依赖关系(nsubj),则该规则将该名词短语归为参与者。

对于人工制品,我们需要识别人造物品的能力。可以用英语开发用于此目的的通用自动化,其中可以使用本体,特别是WordNet本体[49],提供对象的分类。为了代替法语的本体,我们从研究的200个陈述中衍生出一组初始标记。然后,我们通过检查同义词库中的同义词来增强这些标记,并保留我们发现的相关内容。此外,我们实现了一个启发式(表II中工件下的第二条规则),将任何在其他情况下无法分类的名词短语分类为工件。

对于条件、例外情况、方式、原因、制裁、时间和违规行为,这些标记源自我们的研究,后来法律专家建议用简单的变体加以扩充。从表III可以看出,注意到这七个概念的标记的性质,可能性的数量是有限的。虽然,在所有的可能性中,我们的定性研究没有捕捉到所有的可能性,我们预计这些概念的标记将随着使用而迅速饱和。

最后,关于位置标记,我们遵循与上述工件相同的过程,即,我们从定性研究中派生出一组初始标记,并使用同义词库增强结果。生成的位置标记包含通用术语和领域特定术语的组合。例如,“site”和“place”很可能泛指交通法规以外的法律文本。相反,指定“铁路轨道”作为地点是交通法特有的。因此,位置标记需要根据特定的法律领域进行调整。

V. EMPIRICAL EVALUATION (RQ3)

在本节中,我们将描述我们的实现,并通过一个案例研究来度量提取规则的准确性。

A. Implementation

我们的元数据提取规则是使用Tregex[47]和Java实现的。这些规则利用经典NLP管道的输出进行语法分析。该管道有以下模块:标记器、句子分割器、POS标记器、命名实体识别器和解析器(选区和依赖)。这些模块中的每一个都有可选的实现。我们使用模块实现的特定组合来实例化管道,我们发现这对于我们的上下文中的法律文本语言来说是最准确的。对于词法分析模块(Tokenizer、Sentence Splitter、POS Tagger和命名实体识别器),我们使用一种特定于语言的框架,称为Lefff[50]。对于选区解析和依赖解析,我们分别使用Berkeley Parser[51]和Malt Parser[52]。

B. Evaluation

案例描述。我们的案例研究的目的是衡量表II的提取规则对地面真相的准确性。为了建立一个基本事实,除了之前为我们在第四部分的定性研究中注释的200条声明之外,我们还从交通法规中随机抽取了150条法律声明,进行了手工注释。我们遵循了与定性研究中描述的相同的协议编码过程。基本真理的构建严格地发生在我们的定性研究结束之后。具体来说,我们的提取规则(包括概念标记)在我们选择和分析这150条语句时就已经确定和冻结了。基本事实是在两轮中构造出来的。在第一轮中,我们注释了100条语句,并执行了完整的一轮评估,遵循我们下面解释的相同程序。我们对第一轮结果的分析并没有带来新的提取规则,但对条件、时间和位置的概念标记进行了边际改进(见表III)。在第一轮评估之后,我们注释了另外50条语句,并测量了改进后的解决方案的准确性。我们获得了与第一轮相似的精度水平。这为我们的提取规则和标记已经饱和提供了信心。由于篇幅关系,我们报告100+50=150条语句组合的评估结果。为了避免得出有偏差的结论,我们报告的结果使用了概念标记的基线集,即执行第一轮评估的同一集。

第一作者注释了评估中使用的150条语句;第二个作者独立注释了10%的这些陈述,以检验可靠性。我们得到κ = 0.815,提示[44]“几乎完全一致”。ground truth共有1202条注释,1177个短语(25个短语有双注释)。表IV的ground truth列提供了详细的分类。与定性研究类似,我们没有观察到结果的出现,约束的出现数量非常少。

为了评估我们的提取规则,我们排除了没有提供规则的约束和由现有解决方案检测的引用。因此,我们的评估是基于1127个地面真实注解。

分析过程。每个注释都有两个参数:一个type和一个span。后者指定注释在语句中的开始位置和结束位置。我们使用以下概念来评估自动元数据提取的结果:

.如果计算注释具有与某些基础真实注释相同的类型和跨度,那么它就是完美匹配的。

•如果一个计算注释的跨度与一些相同类型的地面真实注释有一个非空的交集,但跨度不相同,那么它就是部分匹配。

•如果一个计算出来的注释既不是完全匹配也不是部分匹配,那么它就是错误分类的。

•没有完全匹配或部分匹配的ground-truth注释将被视为错过。

如果将计算出来的注释原样用于分析,则部分匹配、错误分类和遗漏注释的实际影响如下:部分匹配只是所需的近似值。分析的质量取决于近似的好坏,也就是说,部分匹配的跨度与相交的地面真实注释的对齐程度如何。错误的分类可能导致不必要的或不健全的分析。错过注释可能导致不完整甚至不正确的结果。

我们使用Jaccard指数来评估部分匹配的质量。设g是来自于ground truth的注释,设a是对g的部分匹配的计算注释。我们不将a计算为完全(完全)匹配,而是将其计算为由Jaccard索引确定的一个分数:J(a, g) = [S(a)∩S(g)]/[S(a)∪S(g)]。其中,S表示span函数,[]表示文本段的长度(以字符为单位)。为了说明这一点,考虑图1中的表述3。

假设一个自动解决方案将“for an offense”注释为违规。如果我们将图1中的注释作为ground truth,计算得到的注释的Jaccard指数为:[“an offense”]/[“for an offense under this Act”]= 10/29 = 0.34。因此,计算得到的注释计数为完全匹配的0.34。

使用Jaccard索引惩罚部分匹配可能是悲观的。在实践中,跨度不准确对手工工作的影响可能比Jaccard指数建议的要小。必须进行进一步的实证研究,以确定分析人员在处理跨度误差方面所付出的努力程度。与此同时,我们相信Jaccard索引可以作为一种有用的(尽管保守)衡量注释范围质量的指标。

现有的自动法律元数据提取的评估只考虑计算出来的注释的类型参数。

我们的评估过程也考虑了注释范围,从而提供了一种增强。具体地说,我们定义了精确度和召回率的概念来惩罚部分匹配中的跨度不准确。其基本原理是,分析人员要么需要在使用计算的注释之前纠正这些不准确性,要么在分析期间采取一些纠正措施。在任何一种情况下,都将产生额外的手工工作。

结果。我们的评估结果如表4第3 - 9列所示。对于每一个法律概念(元数据类型),我们提供了完美匹配、部分匹配、误分类标注、漏分类标注的数量,以及精确度和召回率。每一次完美匹配都算作一次真阳性(TP)。每个部分匹配都算作TP的一部分,由Jaccard索引计算(上面解释过)。对于出现在前面的元数据类型,每个错误分类的注释都算作假阳性(FP)。每一个遗漏的注释都算作一个假阴性(FN)。

Precision计算为|TP|w/(|TP| + |FP|), recall计算为|TP|w/(|TP| + |FN|)。|TP|w≤|TP|,为TPs总数,每个部分匹配分别用Jaccard指数加权。完美匹配的Jaccard索引是1。表4的最后一行显示了总体结果。请注意,所有注释的总体精度和召回率得分都是计算出来的;这不是每个元数据类型的精确度和召回率的平均值。

总之,在1100个计算注释中,873(79.4%)是完全匹配的,196(17.8%)是部分匹配的,31(2.8%)是错误分类的。由于分类错误或无法分类,抽取规则遗漏了58个ground-truth注解(5.1%)。我们的抽取规则涵盖的概念的整体加权精度为87.4%,整体加权查全率为85.5%。在不惩罚注释范围的部分覆盖的情况下,我们获得了97.2%的总体精度和94.9%的总体召回率(未在表IV中显示)。这意味着我们的方法以非常高的精度识别了元数据项的类型。因此,分析师可以期望在大多数情况下自动分配正确的类型。

考虑到通过自动化正确划分标注范围的复杂性,我们的加权精度和召回率分数是有希望的。事实上,自动识别的范围在79.4%的情况下是完全正确的,这为选区和依赖解析的准确性提供了信心。17.8%的匹配是部分匹配,而部分跨度覆盖的惩罚只降低了9.8%的准确率和9.4%的召回率。事实上,部分匹配的平均Jaccard指数是0.46 (SD=0.29)。这表明部分匹配与所需的注释有相当多的重叠。因此,我们预计调整注释范围所需的手工工作量不会太大。

为了确定所观察到的自动化不准确性的根本原因,我们分析了所有分类错误的注释、遗漏的注释和部分匹配。在表四的31个错误分类中,有20个与多义概念标记有关。例如,“扣押”一词是制裁的标志,因为该词可指没收某物。这个词也可以指一种疾病,在这种情况下,它暗示一种情况。这两个词在交通法规中都有使用。当在后一种意义上使用术语时,我们的规则会生成一个分类错误的注释。复杂的法律术语产生了三种不可避免的错误分类。剩下的八个错误分类是由稍后讨论的选区解析错误造成的。

58个漏注中,25个与ground truth中的双注有关。在所有这些情况下,我们的规则都识别了两个基本事实注释中的一个,但我们仍然为每个情况计算一个FN,因为与人类注释器相比,规则缺乏检测所有可能性的能力。如果我们不将这25个案例算作FNs,我们的总召回率将增加到87.2%(精度不受影响)。在剩余的33个漏注中,有26个是由于分类错误造成的,如前所述。五个遗漏的注释来自不同的ground-truth注释,我们的规则只生成一个注释(与两个ground-truth注释相交)。这五种情况中的每一种都会导致一个部分匹配和一个注释缺失。最后两个遗漏的注释是由稍后讨论的群体解析错误造成的。

在196个部分匹配中,21个(10.7%)是由于计算注释和groundtruth注释之间的粒度差异造成的。换句话说,计算出来的注释要么完全覆盖,要么被基础真实注释完全覆盖。另外21个(10.7%)部分匹配是由于我们的规则中的限制。其中,15个是由于概念标记缺失,6个是由于我们对情境概念的规则过于严格。剩下的154个部分匹配(78.6%)是由于选区或依赖解析错误造成的。

正如上面的讨论所指出的,自动化的一些不准确,特别是部分匹配,是由NLP错误引起的。我们观察到这些错误主要源于从属关系、协调和介词短语附件。选区解析器并不总是将此类附件连接到解析树中的正确节点。类似地,这样的附件会误导依赖项解析器,从而推断出依赖项链接的不正确类型。选区解析和依赖解析在处理从属关系、协调关系和介词短语附件方面的局限性是众所周知的[53],[54]。尽管有这些限制,我们良好的整体准确性结果有助于增加这些先进的NLP技术已经成熟到足以适用于法律文本的信心。然而,进一步的研究是必要的,以更结论性地评估这一说法。

最后,我们注意到一些最近的RE研究方向,例如Quirchmayr等[36],为处理NLP错误提供了有用的领域特定启发式方法。为法律文本发展这种启发式需要进一步的调查。

VI. THREATS TO VALIDITY

对我们工作有效性最相关的威胁是内部有效性和外部有效性,正如我们下面讨论的。

内部效度。对内部有效性的一个潜在威胁是,作者解释了现有的法律元数据类型。

为了减轻主观解释带来的威胁,我们将文献中确定的所有概念制成表格,并建立它们之间的映射关系。通过这样做,我们帮助确保没有任何概念被忽略,并且我们在不同元数据类型之间定义的对应关系植根于现有的定义。虽然我们不能排除主观性,但我们以一种精确而明确的形式[15]提供我们的解释。因此,这是公开的审查。

另一个潜在的内部有效性威胁是第四节的定性研究和第五节的案例研究中的编码都是由作者完成的。由于交通法规是直观的,其中一位作者(最后一位作者)是法律专家,我们发现编码过程中误解的风险很低。为了防止编码过程中的偏差,我们采取了几个缓解措施:(1)我们仔细讨论了编码过程中遇到的困难情况;(2)在定义任何提取规则之前,我们完成了定性研究的编码部分;(3)在我们的案例研究中,为了尽量减少提取规则对ground truth构建的影响,我们在编码完成后才对ground truth中的法律陈述进行实施;(4)我们通过测量超过10%的编码语句间的一致性来评估编码结果的可靠性。

外部效度。法律文本的细微差别往往要求对法律要求的研究必须基于在特定语境中获得的定性结果。像我们这样范围有限的定性研究,很难以足够的严格来处理外部有效性。因此,覆盖各种法律领域的进一步研究对于确定我们的结果的完整性和普遍适用性至关重要。综上所述,以下观察结果为我们的定性研究的外部有效性提供了一定程度的支持:首先,表2的规则一般来说是简单的;没有特别的理由怀疑这些规则可能是特定于领域的。这有助于降低规则与我们的研究环境过度拟合的风险。第二,正如我们在讨论表III的概念标记时所讨论的那样,大多数标记集要么是系统地从现有词汇中提取的,要么是由于可能的有限的语言变化而预计迅速饱和的。因此,我们预计我们的标记应该相当容易适应其他法律领域,注意到标记必须是语言依赖的,不能从一种语言带到另一种语言。

外部有效性的另一个方面涉及我们在第五节中对自动化准确性的评估,更具体地说,观察到的准确性水平是否会一般化。为此目的,我们注意到交通法规是非常通用的,涵盖了各种各样的主题。我们的定性研究和评估的抽样框架都是有效的整个交通法规集合(由≈12000条语句组成,如第四节所述)。因此,由于抽样框架如此之大,我们评估基础真理中的150条语句不太可能与定性研究中的200条语句过于相似。虽然不能替代额外的案例研究,但大的抽样框架有助于减轻外部有效性的威胁。

VII. CONCLUSION

法律语句语义元数据是法律需求分析的重要工具。在本文中,我们首先描述了协调RE文献中提出的不同类型语义法律元数据的尝试。然后,通过对交通法规的定性研究,导出了协调元数据类型的提取规则。我们的规则基于自然语言处理,更具体地说,基于选区和依赖解析。最后,我们通过一个案例研究来评估我们的提取规则。结果很有希望。根据是否对标注跨度不准确进行惩罚,我们获得了87.4% - 97.2%之间的精度和85.5% - 94.9%之间的召回率。

在未来,我们计划通过进行更多的研究来更彻底地检查我们的提取规则的完整性和概括性。我们希望进一步在现实环境中进行用户研究,以确定自动化提取法律元数据的实际效用。

 类似资料: