EMNLP 2019 | 法小飞:中文法律智能助手

admin发布

EMNLP 2019 | 法小飞:中文法律智能助手

本文介绍了本实验室在自然语言处理顶级国际会议EMNLP 2019上发表的DEMO论文。本文提出的“法小飞”是哈工大讯飞联合实验室推出的中文法律智能助手。

基本信息

论文名称:IFlyLegal: A Chinese Legal System for Consultation, Law Searching, and Document Analysis
论文作者:王梓玥,王宝鑫,段兴义,伍大勇,王士进,胡国平,刘挺

摘要简介

法律科技是指利用信息化技术为用户提供智能便捷的法律咨询、检索、分析等服务,并提升服务效率和体验。近年来,法律科技受到来自应用层面和研究层面的广泛关注,其核心任务之一是利用自然语言处理技术让机器学会理解、分析并应用法律文本,所需技术包括语义表示、文本分类、自然语言推理和问答技术等。本文中,我们构建了一个集成多种自然语言处理技术并满足不同用户群体需求的中文法律科技服务系统——“法小飞”。2019年1月起,我们的小程序累计用户数达到2739,页面浏览量超过4万次。“法小飞”主要功能包括:

  1. 智能法律咨询:采用语义理解、文本推理等技术并结合拒识模块,实现对用户问题的自动回答;
  2. 法条查询:目前实现三种查询方式,关键词查询,语义查询和案情查询。其中,语义查询又称为法条推荐(或法条推理)。与传统基于统计特征的检索方法不同的是,法条推荐完全采用深度学习模型,对用户输入进行理解和分析,并推荐适用法条。
  3. 案情分析及自动量刑:该模块主要功能是分析案情文本,并匹配相似案例、预测判决结果,其中刑事判决结果预测又称为自动量刑。

本文将对“法小飞”采用的系统架构、技术、实验等相关工作进行介绍。

“法小飞”系统介绍

“法小飞”主要由法律咨询、法条查询、案情分析三个模块组成,其大致结构如图1所示。

图1 法小飞功能架构示意图

法律咨询模块主要面向当事人或普通用户,负责回答用户提出的法律问题,由意图识别、法律QA等子模块组成。意图识别等预处理模块采用基础biRNN和CNN分类模型,提取主题信息、判断用户意图,并将输入传递给目标模块。法律咨询模块结合主题信息,通过端到端的训练方式,对用户输入进行分析,并匹配到语料库中的适用回答。此外,不同的输入问题可能触发不同的辅助功能,如名词解释、多轮问答、律师推荐等。
法条查询模块有三种不同的检索方式:一般检索、语义检索及案情检索。一般检索以BM25检索算法为基础,辅助以查询功能自动判断等预处理模块,实现多模式查询,如:标题查询、内容查询、篇章查询、精准查询等。本文中的语义检索又称为法条推荐,是针对法条数据专门训练的、以自然语言推理模型为基础的法律语义检索方法。一般检索的区别在于不依赖于传统统计学特征,仅根据深度学习模型匹配语义表示并推荐最佳适用法条,本文中通过分段训练多个串行模型的方式实现语义匹配检索。由于法条数量庞大,直接对输入问题进行法条匹配计算量过大,时间效率低,因此,需要先通过文本分类模型将候选法条范围限制在有限部法律内,再利用句子匹配模型从中推荐匹配的法条。考虑到时间效率,分类模型采用简单的CNN模型,并通过不同卷积核窗口长度捕获不同粒度信息;同时,为了提升匹配准确率,句子匹配过程采用BERT模型,用20%的法律问答语料对BERT_base语言模型进行预训练后,再用全量法律问答语料进行微调。案情检索与语义检索的区别在于,上述语义检索的输入文本为日常口语化用语,而案情检索倾向理解整段长文本且用词更加规范正式,通过分类的方式,从事先定义的有限个法条中推荐适用法条。
案情分析模块可分为两部分,刑事案情分析及民事案情分析,该模块需要预先训练二分类模型,判断文书类型,再根据类型进行后续分析。刑事案情分析中的刑期、罚金、法条预测统称为自动量刑。民事案情分析任务包括胜率预测、罚金预测及其他统计结果。

实验及用户调查

为了测试不同模型的性能、各个模块的可用性和用户行为,我们进行了一系列实验调研。本文将展示部分实验及调研结果。图2为9月至10月每周人均页面停留时间。

图2 人均页面停留时间(每周),统计时间范围:9月-10月

对于法条推荐任务,我们训练并测试了不同模型的实际效果。通过实验发现,在实际测试中,法条推荐任务的自动评测过程相当于在平均每600个候选法条中选择唯一正确的法条,相差巨大的正负例比例导致模型的自动评测结果远低于预期(而实际情况是对于一些问题存在多个法条能够适用)。因此,我们采用人工测评的方式评价法条推荐模型的可用性,结果如表1所示。因为用于测试的数据标签是从语料中自动抽取的,覆盖情况不完全,可能出现一个问题有多个正确法条,而数据中仅抽取到一条,故需要人工进行更为客观的评价。案情分析模块的各项任务准确率如表2所示。

表1 法条推荐任务自动测评和人工测评结果,其中Partial指所推荐法条内容部分匹配,Excat表示所推荐法条内容完全匹配。

表2 案情分析模块的各项任务准确率。刑事+民事综合法条预测(Civil+criminal article prediction),刑事/民事二分类(Civil/criminal classification),刑事罪名预测(Criminal accusation prediction),民事案由预测(Civil cause prediction)

总结

“NLP+法律科技”逐渐成为新的研究趋势,通过自然语言处理技术和方法,智能法律服务的效率和产品和应用效果得到了较大提升。本文根据实际应用中的不同需求,定义了不同的研究任务,并通过对不同模型和方法的实验以及对真实数据使用感受的人工测评,构建出一套完整的中文法律服务系统,其功能包括智能法律咨询、法条检索、语义检索、文书分析、自动量刑等。我们将不断对新的技术进行学术研究和应用场景开发,以完善法小飞的功能,并提升用户体验。

小程序体验及合作

欢迎扫码体验,并提出宝贵的意见与建议。

同时我们也提供各模块的独立服务,如有需要可直接发邮件至:zywang27@iflytek.com,xyduan@iflytek.com或bxwang2@iflytek.com。

延伸阅读