北京大学学报自然科学版

2020年第1期目次

2020, 56(1): 0.

摘要 ( )

HTML

PDF (2123KB) ( )

相关文章 | 计量指标

基于融合条目词嵌入和注意力机制的自动 ICD 编码

张虹科, 付振新, 任前平, 徐辉, 赵东岩, 严睿

2020, 56(1): 1-8. DOI: 10.13209/j.0479-8023.2019.095

摘要 ( )

HTML

PDF (725KB) ( )

相关文章 | 计量指标

构建一种基于融合条目词嵌入和注意力机制的深度学习模型, 可以充分利用电子病案中的多种非结构化文本数据, 对病案首页的主要诊断进行自动ICD编码。该模型首先对含有病案条目的文本进行融合条目的词嵌入, 并通过关键词注意力来丰富词级别的类别表示; 然后利用词语注意力来突出重点词语的作用, 增强文本表示; 最后通过全连接神经网络分类器进行分类, 输出ICD编码。通过在中文电子病案数据集上的消融实验, 验证了融合条目词嵌入、关键词注意力和词语注意力的有效性; 与多个基准模型相比, 所建模型在对81 种疾病的分类中取得最好的分类效果, 可以有效地提高自动ICD编码的质量。

基于主题约束的篇章级文本生成方法

黄炎, 孙海丽, 徐科, 余晓阳, 王同洋, 张新访, 路松峰

2020, 56(1): 9-15. DOI: 10.13209/j.0479-8023.2019.103

摘要 ( )

HTML

PDF (993KB) ( )

相关文章 | 计量指标

针对计算机自动生成的文本缺乏主题思想这一问题, 提出一种基于主题约束的篇章级文本自动生成方法。该方法围绕用户输入的主题描述语句提取若干主题词; 然后对主题词进行扩展和主题聚类, 形成文章主题规划; 最后利用每个聚类中的关键词信息约束每个段落的文本生成。该模型从文本主题分布、注意力评分方法和主题覆盖生成3个方面对现有基于注意力机制的循环神经网络文本生成模型进行了改进。在3个真实数据集上分别与Char-RNN, SC-LSTM和MTA-LSTM基准模型进行对比, 并对3个方面的改进进行独立验证。实验结果表明, 所提方法在人工评判和BLEU自动评测上均优于基准模型, 生成的文本能更好地贴合主题。

一种融入背景知识的交互文本立场分析方法

刘常健, 杜嘉晨, 冷佳, 陈荻, 毛瑞彬, 张俊, 徐睿峰

2020, 56(1): 16-22. DOI: 10.13209/j.0479-8023.2019.096

摘要 ( )

HTML

PDF (682KB) ( )

相关文章 | 计量指标

提出一种融入背景知识的交互文本立场分析方法。该方法以交互文本作为查询, 从维基百科中检索相关的背景知识文本, 然后对背景知识文本进行编码, 并通过深度记忆网络获取相关的背景知识特征, 以此来增强交互文本的表示学习。在3个英文在线辩论数据集上的实验结果表明, 通过选取适当的背景知识嵌入层数以及背景知识嵌入层连接方式, 可以有效地提高交互文本立场分析性能。

汉语篇章小句关联结构的表示与识别

冯文贺, 陈伊琳, 任亚峰, 任函

2020, 56(1): 23-30. DOI: 10.13209/j.0479-8023.2019.094

摘要 ( )

HTML

PDF (491KB) ( )

相关文章 | 计量指标

将篇章结构表示为小句关联结构, 与修辞结构等层次化篇章结构模式相比, 可以有效地刻画非连续和跨层级的小句之间的直接语义关联。首先, 提出篇章小句关联结构的形式表示、判断准则和形式限制, 并进行人工标注。然后, 对汉语篇章小句关联结构进行自动识别。在自建汉语篇章小句关联结构语料库上, 基于分类模型, 设计连接词和词汇等分类特征, 得到的最佳识别准确率达92.70%。实验结果表明, 语料整体取样比独立取样取得的去环效果好; 词汇、小句距离及句域等分类特征对识别的贡献较大; 远距离和跨大句是小句关联识别的难点, 但相邻小句和同一大句内的小句对的不相关识别难度更大。

面向维汉神经机器翻译的双向重排序模型分析

张新路, 李晓, 杨雅婷, 王磊, 董瑞

2020, 56(1): 31-38. DOI: 10.13209/j.0479-8023.2019.093

摘要 ( )

HTML

PDF (899KB) ( )

相关文章 | 计量指标

在维吾尔语到汉语等低资源语料库上, 神经机器翻译的拟合训练容易陷入局部最优解, 导致单一模型的翻译结果可能不是全局最优解。针对此问题, 通过集成策略, 有效整合多个模型预测的概率分布, 将多个翻译模型作为一个整体; 同时采用基于交叉熵的重排序方法, 将具有相反解码方向的翻译模型相结合, 最终选出综合得分最高的候选翻译作为输出。在CWMT2015维汉平行语料上的实验结果表明, 与单一的Transformer模型相比, 改进后的方法提升4.82个BLEU值。

融合门控机制的远程监督关系抽取方法

李兴亚, 陈钰枫, 徐金安, 张玉洁

2020, 56(1): 39-44. DOI: 10.13209/j.0479-8023.2019.101

摘要 ( )

HTML

PDF (699KB) ( )

相关文章 | 计量指标

提出一种融合门控机制的远程监督关系抽取方法。首先在词级别上自动选择正相关特征, 过滤与关系标签无关的词级别噪声; 然后在门控机制内引入软标签的思想, 弱化硬标签对噪声过滤的影响; 最后结合句子级别的噪声过滤, 提升模型的整体性能。在公开数据集上的实验结果表明, 相对于句子级别噪声过滤方法, 所提方法的性能有显著提高。

基于句法结构的神经网络复述识别模型

刘明童, 张玉洁, 徐金安, 陈钰枫

2020, 56(1): 45-52. DOI: 10.13209/j.0479-8023.2019.092

摘要 ( )

HTML

PDF (1016KB) ( )

相关文章 | 计量指标

为解决已有复述语义计算方法未考虑句法结构的问题, 提出基于句法结构的神经网络复述识别模型, 设计基于树结构的神经网络模型进行语义组合计算, 使得语义表示从词语级扩展到短语级。进一步地, 提出基于短语级语义表示的句法树对齐机制, 利用跨句子注意力机制提取特征。最后, 设计自注意力机制来增强语义表示, 从而捕获全局上下文信息。在公开英语复述识别数据集Quora上进行评测, 实验结果显示, 复述识别性能得到改进, 达到89.3%的精度, 证明了提出的基于句法结构的语义组合计算方法以及基于短语级语义表示的跨句子注意力机制和自注意力机制在改进复述识别性能方面的有效性。

联合自编码任务的多机制融合复述生成模型

刘明童, 张玉洁, 张姝, 孟遥, 徐金安, 陈钰枫

2020, 56(1): 53-60. DOI: 10.13209/j.0479-8023.2019.104

摘要 ( )

HTML

PDF (828KB) ( )

相关文章 | 计量指标

基于神经网络编码–解码框架的复述生成模型存在两方面的问题: 1) 生成的复述句中存在实体词不准确、未登录词和词汇重复生成; 2) 复述平行语料的有限规模限制了编码器的语义学习能力。针对第一个问题, 本文提出在解码过程中融合注意力机制、复制机制和覆盖机制的多机制复述生成模型, 利用复制机制从原句复制词语来解决实体词和未登录词生成问题; 利用覆盖机制建模学习注意力机制历史决策信息来规避词汇重复生成。针对第二个问题, 基于多任务学习框架, 提出在复述生成任务中联合自编码任务, 两个任务共享一个编码器, 同时利用平行复述语料和原句子数据, 共同增强复述生成编码器的语义学习能力。在Quora复述数据集上的实验结果表明, 提出的联合自编码的多机制融合复述生成模型有效地解决了复述生成的问题, 并提高了复述句的生成质量。

基于编码器共享和门控网络的生成式文本摘要方法

田珂珂, 周瑞莹, 董浩业, 印鉴

2020, 56(1): 61-67. DOI: 10.13209/j.0479-8023.2019.100

摘要 ( )

HTML

PDF (642KB) ( )

相关文章 | 计量指标

结合基于自注意力机制的Transformer模型, 提出一种基于编码器共享和门控网络的文本摘要方法。该方法将编码器作为解码器的一部分, 使解码器的部分模块共享编码器的参数, 同时使用门控网络筛选输入序列中的关键信息。相对已有方法, 所提方法提升了文本摘要任务的训练和推理速度, 同时提升了生成摘要的准确性和流畅性。在英文数据集Gigaword和DUC2004上的实验表明, 所提方法在时间效率和生成摘要质量上, 明显优于已有模型。

面向微博用户的消费意图识别算法

贾云龙, 韩东红, 林海原, 王国仁, 夏利

2020, 56(1): 68-74. DOI: 10.13209/j.0479-8023.2019.102

摘要 ( )

HTML

PDF (717KB) ( )

相关文章 | 计量指标

利用迁移学习的方法, 融合京东问答平台数据与少量已标注的微博数据构建训练集, 提出一种基于注意力机制的双向长短期记忆神经网络(Attentional-Bi-LSTM)模型, 用于识别用户的隐性消费意图。针对显性意图识别问题, 提出一种结合TF-IDF (term frequency-inverse document frequency)与句法分析中动宾关系(VOB)的消费意图对象提取算法。实验结果表明, 通过将迁移京东问答平台的数据与微博数据相融合, 可以有效地扩充训练集, 在此基础上训练的神经网络分类模型具有较高的准确率和召回率; 融合VOB和TF-IDF的显性消费意图对象提取方法的准确率达到78.8%。

基于情感信息辅助的多模态情绪识别

吴良庆, 刘启元, 张栋, 王建成, 李寿山, 周国栋

2020, 56(1): 75-81. DOI: 10.13209/j.0479-8023.2019.105

摘要 ( )

HTML

PDF (1064KB) ( )

相关文章 | 计量指标

不同于纯文本的情绪分析, 本文面向多模态数据(文本和语音)进行情绪识别研究。为了同时考虑多模态数据特征, 提出一种新颖的联合学习框架, 将多模态情绪分类作为主任务, 多模态情感分类作为辅助任务, 通过情感信息来辅助提升情绪识别任务的性能。首先, 通过私有网络层对主任务中的文本和语音模态信息分别进行编码, 以学习单个模态内部的情绪独立特征表示。接着, 通过辅助任务中的共享网络层来获取主任务的辅助情绪表示以及辅助任务的单模态完整情感表示。在得到主任务的文本和语音辅助情绪表示之后, 分别与主任务中的单模态独立特征表示相结合, 得到主任务中单模态情绪信息的完整表示。最后, 通过自注意力机制捕捉每个任务上的多模态交互特征, 得到最终的多模态情绪表示和情感表示。实验结果表明, 本文方法在多模态情感分析数据集上可以通过情感辅助信息大幅度地提升情绪分类任务的性能, 同时情感分类任务的性能也得到一定程度的提升。

融合篇章表征的事件指代消解研究

吴瑞萦, 孔芳

2020, 56(1): 82-88. DOI: 10.13209/j.0479-8023.2019.091

摘要 ( )

HTML

PDF (711KB) ( )

相关文章 | 计量指标

事件指代消解任务比实体指代消解难度大, 主要原因为事件描述在非结构化文本中分布稀疏, 且不具备同指关系的单链占很大比例, 同时事件自身承载的语义信息比实体更加丰富。为了准确地抽取文本中的同指事件, 针对以上特点, 提出一种融合篇章表征的事件指代消解模型。该模型通过CRF有效地区分非事件句、单链以及同指链, 同时利用分层注意力机制捕捉句子级别和篇章级别的重要信息。在KBP2015和2016数据集上进行的事件指代消解实验验证了该模型的有效性, 在CoNLL评测标准下F1值达到43.07%。

句法增强的UCCA语义分析方法

蒋炜, 李正华, 张民

2020, 56(1): 89-96. DOI: 10.13209/j.0479-8023.2019.099

摘要 ( )

HTML

PDF (644KB) ( )

相关文章 | 计量指标

考虑到句法结构与语义结构之间的紧密联系, 尝试将句法信息融入UCCA语义分析模型中来增强语义分析的性能。基于目前性能最好的基于图的 UCCA语义分析模型, 提出并比较4种不同的融入依存句法信息的方法。采用SemEval-2019国际评测语义分析任务的英文数据集进行实验, 在本领域和跨领域两个数据集上的结果均表明, 句法增强的方法能够给显著地提高UCCA分析性能。引入BERT特征后, 句法信息仍然可以提供一定的帮助。

基于神经耦合模型的异构词法数据转化和融合

黄德朋, 李正华, 龚晨, 张民

2020, 56(1): 97-104. DOI: 10.13209/j.0479-8023.2019.098

摘要 ( )

HTML

PDF (673KB) ( )

相关文章 | 计量指标

为了扩大人工标注数据的规模, 从而提高模型性能, 尝试充分利用已有的异构人工标注数据训练模型参数。将Li等2015年提出的耦合序列标注方法扩展到基于BiLSTM的深度学习框架, 直接在两个异构训练数据上训练参数, 测试阶段则同时预测两个标签序列。在词性标注、分词词性联合标注两个任务上进行大量实验, 结果表明, 与多任务学习方法和传统耦合模型相比, 神经耦合模型在利用词法异构数据方面更优越,在异构数据转化和融合两个场景上都取得更高的性能。

基于多模态融合技术的用户画像方法

张壮, 冯小年, 钱铁云

2020, 56(1): 105-111. DOI: 10.13209/j.0479-8023.2019.097

摘要 ( )

HTML

PDF (802KB) ( )

相关文章 | 计量指标

针对当前用户画像工作中各模态信息不能被充分利用的问题, 提出一种跨模态学习思想, 设计一种基于多模态融合的用户画像模型。首先利用 Stacking集成方法, 融合多种跨模态学习联合表示网络, 对相应的模型组合进行学习, 然后引入注意力机制, 使得模型能够学习不同模态的表示对预测结果的贡献差异性。改进后的模型具有精心设计的网络结构和目标函数, 能够生成一个由特征级融合和决策级融合组成的联合特征表示, 从而可以合并不同模态的相关特征。在真实数据集上的实验结果表明, 所提模型优于当前最好的基线方法。

动态图上的最短路径距离并行算法

韩硕, 邹磊

2020, 56(1): 112-122. DOI: 10.13209/j.0479-8023.2019.113

摘要 ( )

HTML

PDF (1188KB) ( )

相关文章 | 计量指标

设计动态图上最短路径距离查询的并行计算框架。通过构建增量图的方法, 实现一个批次内的多个查询在不同数据图版本的多线程并发执行。对于每个查询, 使用双向宽度优先搜索算法来减少搜索空间, 并提出搜索过程中扩展方向的决策函数。利用BSR对数据图邻接表进行编码, 结合 SIMD指令和图顶点重标号算法, 进一步提升数据级并行度。在真实图数据集下的大量实验验证了所提方法的高效性。

干、湿大气环流模式中地表增温的经向分布及其机制

李娟, 夏炎, 杨军

2020, 56(1): 123-134. DOI: 10.13209/j.0479-8023.2019.120

摘要 ( )

HTML

PDF (1068KB) ( )

相关文章 | 计量指标

使用耦合了平板海洋的三维大气环流模式, 探究理想条件下极地增温放大现象的产生机制。实验中关闭海冰和云的辐射效应, 固定地表反照率, 并将海洋经向热量输送设置为零。通过控制地表蒸发的有无, 模拟湿大气和干大气两种情形。模拟结果显示, CO₂浓度加倍后, 湿大气环流模式中存在极地增温放大的现象, 而干大气环流模式中不存在这种现象。在干大气环流模式中, 地表增温幅度基本上不随纬度变化, 即均匀增温。湿大气环流模式中, CO₂浓度加倍导致的直接辐射强迫和水汽反馈导致的辐射效应都是热带比极地更强, 唯一能够解释湿大气中极地增温放大原因的是从赤道向极地的大气能量传输增强。在干大气环流模式中, 从赤道向极地的热量输送及其变化比湿大气弱很多, 因此无法支持极地增温放大现象。干大气中的均匀增温是CO₂的直接辐射强迫和普朗克效应相互竞争的结果。研究结果表明, 与水汽相关的经向热量输送是地球极地增温放大的关键因素, 而在基本上没有水汽的火星上, 可能不会出现极地增温放大现象。

1119年前郭地震发震构造讨论

邵博, 沈军, 侯贵廷, 于晓辉, 戴训也, 尉洋

2020, 56(1): 135-142. DOI: 10.13209/j.0479-8023.2019.111

摘要 ( )

HTML

PDF (22409KB) ( )

相关文章 | 计量指标

在充分收集和考证前人研究成果的基础上, 深入分析地震史料隐含的约束条件。以石油三维物探、浅层地球物理勘探和联合钻孔探测资料为基础, 结合地质和地貌调查, 研究1119年前郭地震的震中位置和发震构造。在1119年前郭地震的影响范围内, 发现一条区域内规模最大的晚更新世活断层——孤店断裂, 总长度约为66 km, 由两个连续性较好的弧型段组成, 钻孔资料显示其上断点埋深约为24 m, 存在晚更新世以来的断裂活动。经过断层地震危险性评估, 认为孤店断裂可能是1119年前郭地震的发震构造。

基于空地协同采样的植被覆盖度随机森林估算方法

程俊毅, 张显峰, 孙敏, 罗鹏, 杨婉婷

2020, 56(1): 143-154. DOI: 10.13209/j.0479-8023.2019.110

摘要 ( )

HTML

PDF (23545KB) ( )

相关文章 | 计量指标

基于无人机高光谱影像, 建立地形复杂地区植被覆盖度的非参数随机森林回归估算模型。为获得构建随机森林模型所需的足够数量的训练样本, 利用低空无人机搭载的光学相机, 在从地面难以到达的山地、水域和植被茂密区, 通过垂直拍摄获得厘米分辨率的航拍影像, 作为对地面样方采样的补充。首先计算地面数码相机照片和无人机可见光影像的红绿蓝植被指数(red-green-blue vegetation index, RGBVI), 然后使用大津分割法提取样方的植被覆盖信息, 得到构建模型所需的训练样本。在此基础上, 基于2018年8月16—18日在内蒙古自治区察右中旗油娄沟矿区获取的GaiaSky-mini2无人机高光谱影像数据, 利用递归特征消除算法优选参与随机森林回归的特征变量集, 利用空地协同获取的训练样本构建植被覆盖度的随机森林回归估算模型。该模型在测试集上的确定系数R2为0.923, 均方根误差为0.087, 优于常用的像元二分模型, 可用于矿区植被动态信息的精细化监测。

利用主动学习改进遥感图像单类分类: 以正类和未标记样本学习方法为例

孙熠, 李培军

2020, 56(1): 155-163. DOI: 10.13209/j.0479-8023.2019.035

摘要 ( )

HTML

PDF (11078KB) ( )

相关文章 | 计量指标

针对单类分类方法中只用正类训练样本导致训练样本数量和质量的选择直接影响分类结果精度的问题, 以正类和未标记样本学习(PUL)为例, 研究如何利用主动学习选择训练样本, 以求改善单类分类的精度。首先用随机选取的训练样本进行PUL分类, 直到获得稳定的分类精度, 然后利用主动学习选择和增加最有用(informative)的正类或负类样本, 用于PUL分类。结果表明, 当利用足够多的随机选取的正类样本得到稳定的分类精度后, 利用主动学习选择和增加正类样本可以提高分类精度; 利用主动学习的同时加入正类和负类样本, 可以得到比只加入正类样本更高的分类精度; 将利用主动学习得到的正类样本经相似性筛选后得到的正类样本, 分类精度与直接利用主动学习选择的样本相似, 但达到同样精度时需要更少的样本。因此, 利用主动学习选择和增加样本可以有效地改善单类分类的精度。

TerraSAR-X数据沿轨干涉运动目标检测研究

焦健, 田崇瑞, 黄江辉, 曾琪明

2020, 56(1): 164-172. DOI: 10.13209/j.0479-8023.2019.112

摘要 ( )

HTML

PDF (6266KB) ( )

相关文章 | 计量指标

为检验TerraSAR-X数据在地面运动目标检测(GMTI)应用中的潜力, 并验证基于SAR沿轨干涉图的幅度和相位联合统计特性以及恒虚警率的检测方法(ATI-CFAR)对TerraSAR-X数据的适用性, 利用TerraSAR-X卫星单发双收模式数据, 基于一种ATI-CFAR方法, 结合数据特点进行改进, 对北京北五环部分路段开展GMTI实验研究。结合地面同步实验进行验证分析, 结果表明: 1) TerraSAR-X数据能够应用于GMTI, 但干涉相位受干扰严重, 使用统计的方法确定ATI相位阈值易发生过度估计, 导致大量漏检; 2) 基于车速先验知识确定相位阈值, 利用图解法确定ATI幅度阈值, 能够有效地改善检测结果。本文方法检出率和正确率分别达到70%和87.5%, 证明了其对TerraSAR-X数据的适用性, 反映出 TerraSAR-X数据在GMTI应用中的潜力。

气温和土壤湿度对中国东部温带蒲公英黄枯普期的影响

薛婷婷, 赵袁, 陈效逑, 姜梦迪, 梁博毅

2020, 56(1): 173-183. DOI: 10.13209/j.0479-8023.2019.127

摘要 ( )

HTML

PDF (1051KB) ( )

相关文章 | 计量指标

为了揭示草本植物秋季物候的时间变化及其气候归因, 利用中国东部温带47个站点1992—2012年的植物物候与气象数据和统计方法, 分析蒲公英黄枯普期的变化趋势, 并模拟黄枯普期的年际变化。结果表明: 1) 在1992—2012年期间, 34个站点的蒲公英黄枯普期呈推迟的趋势, 其中22个站点呈显著推迟的趋势, 相比之下, 13个站点的蒲公英黄枯普期呈提前的趋势, 其中5个站点呈显著提前的趋势; 2) 各站蒲公英黄枯普期与生长季(展叶始期到黄枯普期的期间)的平均温度主要呈负相关关系, 但与秋季土壤相对湿度和秋季日最低温度主要呈正相关关系; 3) 在 30 个单站有效最优模型(p<0.05)中, 蒲公英黄枯普期受秋季土壤相对湿度影响的站点有22个, 受秋季日最低温度影响的站点有19个, 受生长季平均温度影响的站点有21个。此外, 模型模拟的精度受到蒲公英黄枯普期年际波动的显著影响, 即在一个站点处的黄枯普期年际波动越小, 模型的模拟精度越高。

滇池浮游植物群落结构的时空变化及与环境因子的关系

冯秋园, 王殊然, 刘学勤, 刘永

2020, 56(1): 184-192. DOI: 10.13209/j.0479-8023.2019.128

摘要 ( )

HTML

PDF (744KB) ( )

相关文章 | 计量指标

在滇池外海选取8个样点, 调查分析主要的环境因子和浮游植物群落的季节和年际变化, 并识别其相关关系。在滇池共检测出浮游植物6门49 属84种, 其中绿藻门的种类数最多, 占59.2%, 其次是蓝藻门, 占16.67%, 硅藻门占5.95%; 全年蓝藻门占优势, 春季隐球藻(Aphanocapsa sp.)占优势, 其他季节微囊藻(Microcystis sp.)占绝对优势。研究结果表明: 1) 藻密度和生物量的季节变化不一致, 与藻类组成的季节演替以及不同藻类的生物量大小存在较大差异有关; 2) Shannon-Wiener物种多样性指数(H)较小, 季节变化不显著; 3) 藻密度和生物量与TP正相关, 与 NO₃^-和N:P负相关; 而H与TP负相关, 与NO₃^-和N:P正相关; 4) 营养盐是影响浮游植物群落分布的关键因子, 滇池最重要的优势种微囊藻的密度和生物量与pH、NH₄⁺和TP浓度正相关, 与NO₃^-、N:P、TN、DOC和TOC的浓度负相关。推测除环境因子外, 绿藻、硅藻等优势度较小的藻类受其他生物因素的影响较大(如种间竞争和捕食等), 掩盖了环境因子对藻类的真实影响。

当期目录