一、导读

前段时间参加了

中国法研杯---司法人工智能挑战赛（CAIL2018）

，这个比赛是为了促进法律智能相关技术的发展，在最高人民法院信息中心、共青团中央青年发展部的指导下，中国司法大数据研究院、中国中文信息学会、中电科系统团委联合清华大学、北京大学、中国科学院软件研究所共同举办。

在参加法研杯分享会的过程中聆听了各个团队的经验分享，有很多值得借鉴和学习的经验，在此对其进行一下梳理，希望对后续的工作有所帮助。

二、任务简介

任务一，

罪名预测

：根据刑事法律文书中的案情描述和事实部分，预测被告人被判的罪名；

任务二，

法条推荐

：根据刑事法律文书中的案情描述和事实部分，预测本案涉及的相关法条；

任务三，

刑期预测

：根据刑事法律文书中的案情描述和事实部分，预测被告人的刑期长短。

更加详细的

任务简介

，

评价指标

，

数据下载

可以查看中国法研杯—人工智能司法比赛和 thunlp/CAIL。

三、任务建模

各个团队针对任务一（罪名预测）和任务二（法条推荐）的建模方式都采用了多标签分类问题来进行建模，然而，针对于任务三（刑期预测），由于刑期范围分布的不平衡且分布范围广，针对刑期预测，可以采用分类或者是回归的建模方式来提出解决方案。

四、数据处理

上图是一个数据样例，数据属于段落描述，其中包含了时间、地点、人名、金钱、毒品重量等，针对这些，数据处理就格外的重要，数据处理主要的部分包含了以下的几个方面。

分词：面对数据，分词是首先会考虑到的，其中大多数团队采用了jieba分词，虽然还有其他的一些分词模型，但性能方面还是jieba分词的性能要好一些。
去除停用词：分词的时候去除中文常用的停用词。
金额处理
：数据中包含了很多的金钱，不仅仅包含数字类型的金额，还包含中文汉字的金额。

1. 中文金额的处理可以将其转换数字金额

2. 数字金额的处理方式有很多，
西安电子科技大学
把金额按照区间进行了分类处理，还有把某一区间的金额进行归一化处理等。
毒品重量：毒品重量和金额一样，分布范围广，可以类似金额一样的处理方式。
酒精浓度：酒精浓度和毒品重量，金额分布相比，比他们相对小一些，富驰信息技术有限公司也对这个进行了区间分类。
时间、地名、人名：数据中包含了大量的时间，地名，人名，很多团队都会对这部分进行处理，西安电子科技大学和富驰信息技术有限公司对这部分进行了处理，在他们的验证过程结果中，表明这一部分的处理没有效果或者是效果不是很明显，具体原因可能需要有法律背景的专业人士解答一下。

五、词向量

词向量这部分可能是影响很大的，相信很多的团队都尝试过

word2vec

或者是

glove

来训练词向量，当然在词向量这一部分除了word2vec和glove外，还有其他的训练方式。

阿里巴巴达摩院

在这部分尝试的应该是比较多的，他们团队不仅仅在

word2vec

、

glove

、

fasttext

（有监督，无监督）上面进行了不同维度、不同的数据源（全部CAIL2018数据集、维基百科数据、搜狗新闻数据）的尝试，而且在新提出的一个词向量模型(

ELMO

)中进行了尝试，提出

ELMO模型

的这篇论文是 Deep contextualized word representations。

ELMO模型不仅仅能够学习到词汇用法的复杂性，比如语法、语义，还能够学习不同上下文情况下的词汇多义性

。这次比赛中词向量的训练使用ELMO模型相对于word2vec、glove等有大幅度的提高。不仅仅是阿里巴巴达摩院，还有很多团队都使用了这个模型来做词向量的训练工作。后续会对ELMO详细的看一下。

除了采用新的词向量模型，富驰信息技术有限公司提出了一个简单有效的方法，

使用word2vec和glove同时训练词向量，然后把两份词向量合并在一起，根据他们的实验结果，这种方法要比随机初始化高5%左右

。

六、模型

模型这一部分可谓是让我长见识了，比赛过程中，各个团队尝试的模型也是不尽其数，像国双科技、富驰信息、西安电子科技、中电28所、达观数据、华宇软件、汉王数字 都尝试了很多的模型，大概有SVM、CNN、DPCNN、RCNN、CNN+capsule、TextCNN、FMCNN、BiLSTM、BiGRU、Dual-LSTM、TextRNN、HAN、LSTM+inception、Attention、各个模型之间的组合以及深度学习与机器学习的融合等。

简单的介绍几个：

富驰信息技术
针对罪名预测和法条推荐任务，采用了机器学习与深度学习联合的方式。

机器学习：使用
Label Powerset
来解决多标签分类问题。

深度学习采用的是

TextCNN

、

BiGRU-CNN

、

DUAL-LSTM

来分别训练。

最后采用的是深度学习与机器学习整合的最终模型。

针对刑期预测，按照区间划分，然后做回归或者是分类（他们的实验结果表明分类的效果要好）。

阿里巴巴达摩院

达摩院为这个比赛专门量身订做了一个模型，不可谓不用心，不可谓不复杂。

针对混淆罪名和小类别罪名在模型中增加了

Arrribute Classifiter

模块。

针对法条预测，引入了

专家知识

（法条描述）。

针对刑期预测，按照区间划分，然后做回归。

国双科技

在任务一与任务二上面采用了

联合模型

来相互促进。

对于任务三，采用了

联合模型的特征

与

规则特征

进行GBDT训练。

七、重点关注

在这个比赛中各个团队难以解决的问题都需要重点关注一下。

数据不平衡问题

数据不平衡问题是各个团队考虑最多的：

西安电子科技大学针对这个问题采用了增加损失权重，多尺度阈值分类的策略。
富驰信息技术采用了上采样与下采样的策略，但是效果并不明显； 从网络上获取相关数据，补充到训练数据中，效果提升比较明显，模型泛化能力不错。
国双科技采用了多任务联合学习来弥补这个缺陷。
华宇软件采用了复制小类别的数据到训练数据，网络获取相关数据来增强数据。

易混淆罪名问题

数据中包含了很多类似的罪名，容易混淆，像抢劫、抢夺与盗窃这三个，职务侵占与侵占这两个等等。

华宇软件给出了的解决方案是加入要素维度的关键性特征。
阿里巴巴达摩院给出的解决方案是分类预测，具体做法是： 给183个罪名设定了10个attr，每个attr的值有三类：命中、不命中、不确定，每个样本在这10个attr上做三分类的预测。

模型融合问题

模型融合是很多团队都考虑到的方案，不同模型的融合，机器学习模型与深度学习模型的融合等等。

八、总结

第一届“中国法研杯—司法人工智能挑战赛”已经圆满落幕，在各个子任务上已经取得了很大的进步，在这次比赛的过程中，也向一些企业、高校学习到了很多宝贵的经验。附上比赛合影。

References

[1] 中国法研杯—人工智能司法比赛

http://cail.cipsc.org.cn/instruction

[2] thunlp/CAIL

https://github.com/thunlp/CAIL

[3] Deep contextualized word representations

https://arxiv.org/pdf/1802.05365.pdf

[4] Few-Shot Charge Prediction with Discriminative Legal Attributes

http://www.aclweb.org/anthology/C18-1041

脚本下载链接

中文金额的处理可以将其转换数字金额脚本

https://github.com/bamtercelboo/corpus_process_script/tree/master/cn_to_arabic

原文链接：

https://bamtercelboo.github.io/2018/10/17/AI_Law/

IELTS a bit

rub v. 擦，磨，搓

sound adj. 合理的；明智的

spacious adj. 宽敞的；宽广的

每天进步一丢丢！

推荐阅读：

一大批历史精彩文章啦

继续阅读

阅读原文

中国法研杯——司法人工智能挑战赛