基于改进孪生网络结构的相似法律案例检索研究

doi:10.13209/j.0479-8023.2018.059

北京大学学报自然科学版 ›› 2019, Vol. 55 ›› Issue (1): 84-90.DOI: 10.13209/j.0479-8023.2018.059

基于改进孪生网络结构的相似法律案例检索研究

李兰君, 周俊生^†, 顾颜慧, 曲维光

南京师范大学计算机科学与技术学院, 南京 210023

收稿日期:2018-04-15 修回日期:2018-08-13 出版日期:2019-01-20 发布日期:2019-01-20
通讯作者: 周俊生, E-mail: zhoujs(at)njnu.edu.cn
基金资助:
国家自然科学基金(61472191, 61772278, 41571382)、福建省信息处理与智能控制重点实验室开放基金(MJUKF201705)、江苏省高校哲学社会科学研究项目(2016SJB740004)和江苏省高校自然科学研究重大项目(15KJA420001)资助

Similar Legal Case Retrieval Based on Improved Siamese Network

LI Lanjun, ZHOU Junsheng^†, GU Yanhui, QÜ Weiguang

School of Computer Science and Technology, Nanjing Normal University, Nanjing 210023

Received:2018-04-15 Revised:2018-08-13 Online:2019-01-20 Published:2019-01-20
Contact: ZHOU Junsheng, E-mail: zhoujs(at)njnu.edu.cn

摘要/Abstract

摘要：

针对现有的基于孪生网络结构的文档相似度计算方法大多将整个文档看成模型的输入序列, 易导致数据稀疏的问题, 提出利用层级注意力机制来改进孪生网络结构中的文档表示。针对基于层级注意力机制的孪生网络计算模型在输入时有可能忽略文档中重要句子的问题, 进一步提出一种引入文档内容压缩的两步骤文档相似度计算方法。利用开发的法律案例文档相似度标注数据集进行实验, 结果表明所提方法明显优于基于长短期记忆模型的孪生网络计算模型。

关键词: 文档相似度计算, 孪生网络, 注意力机制, 文档内容压缩

Abstract:

In view of the existing research about document similarity calculation methods based on siamese networks, the entire document is regarded as the input sequence of model that may lead to sparse data. Hierarchical attention mechanism is used to improve the document representation in the siamese network. For the siamese network computing model based on hierarchical attention mechanism may ignore the important sentence in the document when inputting, a two-step document similarity calculation method that introduces the compression of document content is further proposed. The experimental results show that the proposed method is obviously superior to the siamese network computing model based on the Long Short-Term Memory.

Key words: document similarity calculation, siamese network, attention mechanism, document content compression

李兰君, 周俊生, 顾颜慧, 曲维光. 基于改进孪生网络结构的相似法律案例检索研究[J]. 北京大学学报自然科学版, 2019, 55(1): 84-90.

LI Lanjun, ZHOU Junsheng, GU Yanhui, Qü Weiguang. Similar Legal Case Retrieval Based on Improved Siamese Network[J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2019, 55(1): 84-90.

导出引用管理器 EndNote|Ris|BibTeX

链接本文: https://xbna.pku.edu.cn/CN/10.13209/j.0479-8023.2018.059

https://xbna.pku.edu.cn/CN/Y2019/V55/I1/84

735

HTML			PDF

最新录用	在线预览	正式出版	最新录用	在线预览	正式出版
0	0	0	0	0	735

来源	本网站	其他网站

次数	312	423
比例	42%	58%

摘要

1400

最新录用	在线预览	正式出版

0	0	1400

来源	本网站	其他网站

次数	164	1236
比例	12%	88%

[1]	王瑞, 梁建国, 花嵘. 基于多尺度特征解析的放射学报告生成方法[J]. 北京大学学报自然科学版, 2024, 60(1): 71-78.
[2]	李超, 侯霞, 乔秀明. 融合知识的文博领域低资源命名实体识别方法研究[J]. 北京大学学报自然科学版, 2024, 60(1): 13-22.
[3]	丁娜, 刘鹏, 邵惠鹏, 王学奎. 双向注意力文本关键词匹配法条推荐[J]. 北京大学学报自然科学版, 2024, 60(1): 79-88.
[4]	田原, 庞骁, 赵文祎, 常啸寅, 程楚云, 邹佩, 曹晓澄. 基于Transformer的滑坡短期位移预测模型[J]. 北京大学学报自然科学版, 2023, 59(2): 197-210.
[5]	高晓倩, 周夏冰, 张民. 基于多信息感知的多方对话问答方法[J]. 北京大学学报自然科学版, 2023, 59(1): 21-29.
[6]	苏丰龙, 孙承哲, 景宁. 融合上下文的残差门卷积实体抽取[J]. 北京大学学报自然科学版, 2022, 58(1): 69-76.
[7]	马超, 万璋, 张玉洁, 徐金安, 陈钰枫. 引入图像信息的多模态复述生成模型[J]. 北京大学学报自然科学版, 2022, 58(1): 45-53.
[8]	王引苗, 韩志敏. 基于多跳路径的知识库补全[J]. 北京大学学报自然科学版, 2022, 58(1): 7-12.
[9]	万璋, 张玉洁, 刘明童, 徐金安, 陈钰枫. 融合物体空间关系机制的图像摘要生成方法[J]. 北京大学学报自然科学版, 2021, 57(1): 75-82.
[10]	吴瑞萦, 孔芳. 融合篇章表征的事件指代消解研究[J]. 北京大学学报自然科学版, 2020, 56(1): 82-88.
[11]	贾云龙, 韩东红, 林海原, 王国仁, 夏利. 面向微博用户的消费意图识别算法[J]. 北京大学学报自然科学版, 2020, 56(1): 68-74.
[12]	田珂珂, 周瑞莹, 董浩业, 印鉴. 基于编码器共享和门控网络的生成式文本摘要方法[J]. 北京大学学报自然科学版, 2020, 56(1): 61-67.
[13]	刘明童, 张玉洁, 张姝, 孟遥, 徐金安, 陈钰枫. 联合自编码任务的多机制融合复述生成模型[J]. 北京大学学报自然科学版, 2020, 56(1): 53-60.
[14]	刘明童, 张玉洁, 徐金安, 陈钰枫. 基于句法结构的神经网络复述识别模型[J]. 北京大学学报自然科学版, 2020, 56(1): 45-52.
[15]	黄炎, 孙海丽, 徐科, 余晓阳, 王同洋, 张新访, 路松峰. 基于主题约束的篇章级文本生成方法[J]. 北京大学学报自然科学版, 2020, 56(1): 9-15.

基于改进孪生网络结构的相似法律案例检索研究

Similar Legal Case Retrieval Based on Improved Siamese Network

RichHTML

PDF

PDF (翻译版)

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐 0

Metrics

留言