一、导读

前段时间参加了
中国法研杯---司法人工智能挑战赛(CAIL2018)
,这个比赛是为了促进法律智能相关技术的发展,在最高人民法院信息中心、共青团中央青年发展部的指导下,中国司法大数据研究院、中国中文信息学会、中电科系统团委联合清华大学、北京大学、中国科学院软件研究所共同举办。

在参加法研杯分享会的过程中聆听了各个团队的经验分享,有很多值得借鉴和学习的经验,在此对其进行一下梳理,希望对后续的工作有所帮助。

二、任务简介

任务一 ,
罪名预测
:根据刑事法律文书中的案情描述和事实部分,预测被告人被判的罪名;

任务二 ,
法条推荐
:根据刑事法律文书中的案情描述和事实部分,预测本案涉及的相关法条;

任务三 ,
刑期预测
:根据刑事法律文书中的案情描述和事实部分,预测被告人的刑期长短。

更加详细的
任务简介
评价指标
数据下载
可以查看 中国法研杯—人工智能司法比赛 和 thunlp/CAIL。

三、任务建模

各个团队针对任务一(罪名预测)和任务二(法条推荐)的建模方式都采用了多标签分类问题来进行建模,然而,针对于任务三(刑期预测),由于刑期范围分布的不平衡且分布范围广,针对刑期预测,可以采用分类或者是回归的建模方式来提出解决方案。

四、数据处理

上图是一个数据样例,数据属于段落描述,其中包含了时间、地点、人名、金钱、毒品重量等,针对这些,数据处理就格外的重要,数据处理主要的部分包含了以下的几个方面。
  1. 分词: 面对数据,分词是首先会考虑到的,其中大多数团队采用了jieba分词,虽然还有其他的一些分词模型,但性能方面还是jieba分词的性能要好一些。
  2. 去除停用词: 分词的时候去除中文常用的停用词。
  3. 金额处理
    : 数据中包含了很多的金钱,不仅仅包含数字类型的金额,还包含中文汉字的金额。

    1. 中文金额的处理可以将其转换数字金额 

    2. 数字金额的处理方式有很多,
    西安电子科技大学
    把金额按照区间进行了分类处理,还有把某一区间的金额进行归一化处理等。
  4. 毒品重量: 毒品重量和金额一样,分布范围广,可以类似金额一样的处理方式。
  5. 酒精浓度: 酒精浓度和毒品重量,金额分布相比,比他们相对小一些,富驰信息技术有限公司也对这个进行了区间分类。
  6. 时间地名人名: 数据中包含了大量的时间,地名,人名,很多团队都会对这部分进行处理,西安电子科技大学和富驰信息技术有限公司对这部分进行了处理,在他们的验证过程结果中,表明这一部分的处理没有效果或者是效果不是很明显,具体原因可能需要有法律背景的专业人士解答一下。

五、词向量

词向量这部分可能是影响很大的,相信很多的团队都尝试过
word2vec
或者是
glove
来训练词向量,当然在词向量这一部分除了word2vec和glove外,还有其他的训练方式。

阿里巴巴达摩院
在这部分尝试的应该是比较多的,他们团队不仅仅在
word2vec
glove
fasttext
(有监督,无监督)上面进行了不同维度、不同的数据源(全部CAIL2018数据集、维基百科数据、搜狗新闻数据)的尝试,而且在新提出的一个词向量模型(
ELMO
)中进行了尝试,提出
ELMO模型
的这篇论文是 Deep contextualized word representations。 

ELMO模型不仅仅能够学习到词汇用法的复杂性,比如语法、语义,还能够学习不同上下文情况下的词汇多义性
。这次比赛中词向量的训练使用ELMO模型相对于word2vec、glove等有大幅度的提高。不仅仅是阿里巴巴达摩院,还有很多团队都使用了这个模型来做词向量的训练工作。后续会对ELMO详细的看一下。 

除了采用新的词向量模型,富驰信息技术有限公司提出了一个简单有效的方法,
使用word2vec和glove同时训练词向量,然后把两份词向量合并在一起,根据他们的实验结果,这种方法要比随机初始化高5%左右

六、模型

模型这一部分可谓是让我长见识了,比赛过程中,各个团队尝试的模型也是不尽其数,像国双科技富驰信息西安电子科技中电28所达观数据华宇软件汉王数字 都尝试了很多的模型,大概有SVMCNNDPCNNRCNNCNN+capsuleTextCNNFMCNNBiLSTMBiGRUDual-LSTMTextRNNHANLSTM+inceptionAttention各个模型之间的组合以及深度学习与机器学习的融合等。
简单的介绍几个:
  • 富驰信息技术
    针对罪名预测和法条推荐任务,采用了机器学习与深度学习联合的方式。

    机器学习: 使用
    Label Powerset
    来解决多标签分类问题。
深度学习采用的是
TextCNN
BiGRU-CNN
DUAL-LSTM
来分别训练。

最后采用的是深度学习与机器学习整合的最终模型。
针对刑期预测, 按照区间划分,然后做回归或者是分类(他们的实验结果表明分类的效果要好)。
  • 阿里巴巴达摩院
达摩院为这个比赛专门量身订做了一个模型,不可谓不用心,不可谓不复杂。

针对混淆罪名和小类别罪名在模型中增加了
Arrribute Classifiter
模块。

针对法条预测,引入了
专家知识
(法条描述)。

针对刑期预测, 按照区间划分,然后做回归。
  • 国双科技
在任务一与任务二上面采用了
联合模型
来相互促进。

对于任务三,采用了
联合模型的特征
规则特征
进行GBDT训练。

七、重点关注

在这个比赛中各个团队难以解决的问题都需要重点关注一下。

数据不平衡问题

数据不平衡问题是各个团队考虑最多的:
  1. 西安电子科技大学针对这个问题采用了增加损失权重多尺度阈值分类的策略。
  2. 富驰信息技术采用了上采样下采样的策略,但是效果并不明显; 从网络上获取相关数据,补充到训练数据中,效果提升比较明显,模型泛化能力不错
  3. 国双科技采用了多任务联合学习来弥补这个缺陷。
  4. 华宇软件采用了复制小类别的数据到训练数据,网络获取相关数据来增强数据。

易混淆罪名问题

数据中包含了很多类似的罪名,容易混淆,像抢劫、抢夺与盗窃这三个,职务侵占与侵占这两个等等。
  1. 华宇软件给出了的解决方案是加入要素维度的关键性特征
  2. 阿里巴巴达摩院给出的解决方案是分类预测,具体做法是: 给183个罪名设定了10个attr,每个attr的值有三类:命中、不命中、不确定,每个样本在这10个attr上做三分类的预测

模型融合问题

模型融合是很多团队都考虑到的方案,不同模型的融合机器学习模型与深度学习模型的融合等等。

八、总结

第一届“中国法研杯—司法人工智能挑战赛”已经圆满落幕,在各个子任务上已经取得了很大的进步,在这次比赛的过程中,也向一些企业、高校学习到了很多宝贵的经验。附上比赛合影。

References

[1] 中国法研杯—人工智能司法比赛 
     http://cail.cipsc.org.cn/instruction
[2] thunlp/CAIL 
     https://github.com/thunlp/CAIL
[3] Deep contextualized word representations
     https://arxiv.org/pdf/1802.05365.pdf
[4] Few-Shot Charge Prediction with Discriminative Legal Attributes
     http://www.aclweb.org/anthology/C18-1041
脚本下载链接
中文金额的处理可以将其转换数字金额 脚本
https://github.com/bamtercelboo/corpus_process_script/tree/master/cn_to_arabic
原文链接
https://bamtercelboo.github.io/2018/10/17/AI_Law/
IELTS a bit
rub v. 擦,磨,搓

sound adj. 合理的;明智的
spacious adj. 宽敞的;宽广的
每天进步一丢丢!
推荐阅读:

继续阅读
阅读原文