您的位置:首页

详情

突破智能检务公开关键技术 打造“人工智能+司法为民”新模式

2021-11-08

 

全面依法治国是我国的国策,智慧司法运行支撑体系建设是当前国家重大需求。由哈尔滨工业大学牵头,东北大学、山东省检察院信息中心、中国人民大学、北京计算机技术及应用研究所等单位协同参与的国家重点研发计划项目“基于案件集中管理的办案多维评估及检务公开技术研究”自2019年3月正式启动以来,围绕解决智慧检务建设中存在的办案效能评估和检务公开方面的问题,取得一系列关键技术成果,完成从单一任务到复杂业务流程的多类型建模,实现检务资源优化配置、办案质量有效保障和检务公开全面合规,总体研究成果达到国内外先进水平。
2018年2月,全国检察机关统一的综合服务网络平台“12309检察服务中心”开通,统一了原有4种接口,“一站式”提供检察服务、案件信息公开等功能。下一步如何面向全社会用户提供“人工智能+司法为民”新模式,同时在线上线下提供更优良的检务公开服务,急需智能技术的支撑。目前,该项目在检务公开方面已完成司法解释文件核查关键技术研究、案件公开舆情监测关键技术研究和检务公开一体化智能装备关键技术研究。项目成果全面达到中期考核指标,并通过中期检查。项目自启动以来,共发表论文32篇,其中SCI收录期刊论文5篇;获得软件著作权10件。
 
1 司法解释文件核查关键技术
中国人民大学、上海交通大学和北京神州太岳软件股份有限公司共同对司法解释文件核查关键技术进行了研发。
1.1 法条抽取匹配模型DS-LSTM
基于确定有限自动机(DFA)、特征词序列以及深度匹配的混合层次抽取模型DS-LSTM(图1),将法律法条的抽取问题转换为文本检索问题。基于DFA,初步筛选出文本可能对应的法律和法条集合;结合TF-IDF选取特征词来表示文本,能够进一步区分同一部法律不同历史版本的法条;通过计算文本和法条的特征词序列相似度,生成候选的匹配法条,再将文本与候选法条通过MV-LSTM模型计算语义匹配度,根据语义匹配度判断文本与法条是否匹配。在微博数据上的实验结果表明,该匹配算法在法律、法条级别的F1分别达到0.97和0.92。
1.2 司法解释文件与法律法规相似性评估算法
项目将自然语言处理与计算机视觉联系起来,提出一种全新的用于文本匹配的模型RCII,见图2。该算法在交互和匹配方面均比原始的Transformer更有效。创新性可简述为“在重构层中重构文本,将文本交互到彩色交互图像中,通过在CII上进行卷积运算来识别两个文本中的单词、短语和句子间的有效匹配模式,利用全连接层分类器获得文本匹配结果”。
1.3 司法解释文件与法律法规蕴含关系检测算法
项目结合LSTM网络在序列信息处理中的优势和CNN网络在特征提取中的优势,提出一种基于双向LSTM和交互图像特征的文本蕴含识别算法。该算法最大限度保留了文本间关系语义特征,在Bi-LSTM层对句子建模获得DCAE特征,在交互层将特征重构为图像,以CNN网络提取高层相关特征和关系模式用于MLP判别。
1.4 基于图形表示的句子建模方法
项目提出一种新的基于图形表示的句子建模方法TextSimGNN,见图3。该方法在语义文本相似性任务中取得良好效果。算法先进性在于构造一个将文本结构和语义信息结合在一起的语义文本图,用端到端的图神经网络计算图片间相似度。
 
2 案件公开舆情监测关键技术
哈尔滨工业大学、哈工大软件工程股份有限公司、北京京航计算通讯研究所共同对案件公开舆情监测关键技术进行了研发。
2.1 基于全局编码信息的生成式文摘模型
该模型以基于注意力机制的序列到序列模型架构为基础,引入同时参与模型编码端、解码端计算的全局编码信息,如图4所示。对于编码器设计了融合全局编码信息的选择门控单元,用于修正编码器输出语义信息表示。在NLPCC2017评测的TTNews公开数据集上,该模型ROUGE-L的F1指标达到0.56。
2.2 用户评论情感分析模型RoBERTa
用于用户评论情感分析任务的基于多阶段迁移学习的预训练模型如图5所示。在情感分析模型的训练过程中,预训练方法能够从大规模无标记数据中自动学习到外部知识,可以有效弥补领域内训练数据不足导致模型泛化能力差的问题,同时为了使模型参数微调过程更适应情感分析任务,提出基于多阶段迁移学习方法的预训练过程,在微博数据集和NLPCC2014评测数据集上的实验结果中,F1值指标达到0.85。
2.3    融合深度学习和规则方法的基于集成学习的文本去隐私系统
对于检务工作来说,各种未经处理的案件信息文件是不能用于公开研究的。出于对隐私的考虑,目前国内外文本去隐私化的研究数据非常匮乏。该系统通过预处理和特征提取构造训练数据,然后使用这一数据分别进行规则挖掘、CRF模型和神经网络模型的训练,最后使用堆叠泛化将三个标记器的结果进行合并,实验结果F1值达到了0.956 8。融合深度学习和规则方法的基于集成学习的文本去隐私系统研究框架如图6所示。
 
3 检务公开一体化智能装备关键技术
北京计算机技术及应用研究所、北京理工大学和科大讯飞股份有限公司对检务公开一体化智能装备关键技术进行了研发。
项目突破检务公开场景下的语音识别、自然语言处理和智能问答匹配等技术,设计实现检务公开一站式服务平台,研制基于多种人机交互的检务公开一体化智能装备(原型),如图7所示。经验证检务司法场景下语音识别准确率可达97.26%,检务公开领域智能问答准确率达85%以上。
3.1 检务公开场景下环境自适应语音技术
检务公开场景下环境自适应语音技术针对各地方言特点进行声学模型定制,优化方言语音识别效果,实现多方言共享的深度神经网络模型,并利用大量庭审语料训练语言模型,提升庭审领域关键词识别效果。该技术先后尝试基于UBi结构、CNN结构和Encode-Decode的庭审方言模型优化定制,发现在使用相同数量训练数据的情况下,UB-ED模型结构的识别效果较好,如图8所示。四川、东北、湖南、河南、山东和天津方言的平均识别率已达到90.67% 。
3.2 检务公开智能问答技术
通过对智能问答的核心模块文本语义相似度计算研究,提出一种基于概念信息量的文本语义相似度基本模型、一种基于概念信息增益的文本信息量计算方法及一种融合信息权重的全文本信息量计算方法,如图9所示。
该技术基于中文WordNet知识库的概念信息量模型的语义理解与问题匹配算法,根据检务公开场景定制中文WordNet知识库,完成模型调用中文WordNet知识库的接口、中文词语到WordNet概念的映射方法、同义词词林映射消歧方法、相似度模型特征设定与参数调整方法等,模型在相关其他领域测试结果比基于BERT的系统准确率高13%15%。
该项目面向国家重大需求,突破智慧检务中亟待解决的关键技术问题,面向全社会用户提供“人工智能+司法为民”新模式,同时在线上线下提供更优良的检务公开服务,项目取得的成果将为推动我国智慧司法的发展提供重要技术支持和保障。项目建立的“司法解释核查原型系统”初步实现法律法规的语义匹配和理解技术,考虑到国家治理体系中众多的政策法规,这项技术对于解决法律法规和政策之间、政策和政策之间的内容矛盾,避免这些矛盾给社会公平正义带来的隐形代价意义重大。同时,通过互联网数据进行法律法规司法解释的适用效果跟踪,给相关法学研究带来新思路。“案件公开舆情监测原型系统”主要关注的是以往检务公开的效果和影响,这将为随时掌握人民群众对司法正义的呼声、推动进一步的检务公开提供技术支撑。检务公开一体化智能装备以真实检务检察院需求为基础,服务公众市民、专业律师与检务工作者,通过现代化智能装备手段,增强公众法律意识,使之对检察院的职能和业务流程更加了解,可有效降低检察院沟通成本,提高检察院信息化智能化程度。下一步,项目在检务公开方面将进入验证和应用示范阶段,重点对前期成果进行验证和优化。
 
注:文章受国家重点研发计划项目“基于案件集中管理的办案多维评估及检务公开技术研究”(项目编号:2018YFC830700)资助。