北京大学学报自然科学版

一种利用语义相似度改进问答摘要的方法

应文豪, 肖欣延, 李素建, 吕雅娟, 穗志方

2017, 53(2): 197-203. DOI: 10.13209/j.0479-8023.2017.028

摘要 ( )

HTML ( )

PDF (1290KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

在搜索引擎中对用户问题直接给出简要的答案(即答案摘要)可以帮助用户更快捷的获取信息。针对这一任务, 设计一种基于特征的答案摘要抽取方法。为了进行句子相似性的计算, 提出通过使用卷积神经网络表示句子语义和计算相似性, 同时给出基于最大间隔学习的网络训练方法。在百度知道问答语料上的实验结果表明, 所提出的答案摘要抽取方法能够生成质量良好的简短回答。与基于词袋的相似性计算相比, 使用卷积神经网络能够更好地描述句子语义, 计算问题和句子之间的相似性, 有效地改善答案摘要的质量。

基于领域知识和词向量的词义消歧方法

杨安, 李素建, 李芸

2017, 53(2): 204-210. DOI: 10.13209/j.0479-8023.2017.027

摘要 ( )

HTML ( )

PDF (291KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

利用无标注文本构建词向量模型, 结合特定领域的关键词信息, 提出一种词义消歧方法。以环境领域的待消歧文本作为评测语料, 通过与Lesk等其他消歧方法进行比较, 证明了所提方法的有效性。通过引入不同的领域知识, 证明该方法亦可在其他领域的文本消歧任务中加以应用。

NBA赛事新闻的自动写作研究

陈玉敬, 吕学强, 周建设, 李宁

2017, 53(2): 211-218. DOI: 10.13209/j.0479-8023.2017.034

摘要 ( )

HTML ( )

PDF (522KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

基于 NBA 赛事新闻和文字直播的特点, 提出一种 NBA 赛事新闻自动写作方法。首先根据两支球队的比分差, 构建比分差函数, 并提出基于比分差函数性质的数据分片算法和数据合成算法; 然后对数据片进行分类处理, 根据数据片的类别以及历史 NBA 赛事的新闻报道, 构建 NBA 赛事报道模板库, 并以球队和球员的表现为中心, 将数据片的信息填入已构建好的模板, 得到一篇自动生成的 NBA 赛事新闻稿。提出 4 种指标衡量 NBA 赛事新闻自动写作的质量。实验表明, 该方法有效、可行, 并且写作速度较快, 能够对赛事新闻撰写者提供帮助。

汉字动态生成的结构与风格模型

栗青生, 徐强, 肖建国, 刘泉, 张解放

2017, 53(2): 219-229. DOI: 10.13209/j.0479-8023.2017.048

摘要 ( )

HTML ( )

PDF (1808KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

提出一种基于汉字结构和风格的字形生成模型。该模型将汉字字形抽象为汉字结构和汉字风格两种模式, 并在结构中将汉字笔画抽象为连续的笔元, 通过笔元的特征点构造笔元向量、径向量、弦向量和轭向量, 进行笔画风格的重建。通过这种方法, 动态产生可用于True type个性化汉字字形设计的字形, 实现汉字字形的Web存储和在客户端的特征字形输出, 克服了现代汉字由于汉字数量巨大而在字形设计方面的不足, 为个性化汉字信息的云端存储和云端字形服务提供了一种有效的策略和方法, 为设计更深层次的汉字信息服务奠定了基础。

机器翻译自动评价中领域知识复述抽取研究

张丽林, 李茂西, 肖文艳, 万剑怡, 王明文

2017, 53(2): 230-238. DOI: 10.13209/j.0479-8023.2017.030

摘要 ( )

HTML ( )

PDF (355KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对通用领域语料中抽取的复述在特定领域机器译文自动评价任务的应用中容易出现复述匹配偏差的问题, 提出采用抽取与测试领域相关的复述来提高机器译文自动评价的方法。首先将通用单语训练语料进行聚类, 并利用改进的M-L方法过滤, 得到特定领域训练语料, 然后在训练语料中利用Markov网络模型, 抽取特定领域复述表, 最后将此复述表应用在机器译文自动评价中, 以提高同义词和近义词的匹配精度。在WMT’14 Metrics task和WMT’15 Metrics task数据集上的实验结果表明, 利用领域知识抽取的复述能够增加自动评价方法METEOR和TER与人工评价的相关性。

基于发音特征的发音偏误趋势检测研究

屈乐园, 解焱陆, 张劲松

2017, 53(2): 239-246. DOI: 10.13209/j.0479-8023.2017.029

摘要 ( )

HTML ( )

PDF (702KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

为了提升计算机辅助发音训练(CAPT)系统中发音偏误趋势(PET)的检测效果, 确保反馈信息的准确性与有效性, 提出一种基于对数似然比的发音特征方法。该方法将多个基于深度神经网络的发音特征提取器用于生成帧级别的对数似然比, 然后将对数似然比组成的发音特征用于PET的检测, 为学习者提供发音位置和发音方法的正音信息。实验结果表明, 发音特征对PET的检测效果优于常用声学特征(MFCC, PLP和fBank), 当发音特征与MFCC特征相结合时, 可以进一步提升性能, 达到错误接受率为5.0%, 错误拒绝率为30.8%, 诊断正确率为89.8%的检测效果。

机器学习与语义规则融合的微博情感分类方法

姜杰, 夏睿

2017, 53(2): 247-254. DOI: 10.13209/j.0479-8023.2017.031

摘要 ( )

HTML ( )

PDF (429KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对现有文本情感分析方法的不足, 设计了一种针对中文微博的基于词典的规则情感分类方法和用于机器学习方法的基本特征模板。提出一种机器学习与规则相融合的微博情感分类方法, 将用规则方法得到的多样化情感信息进行转化, 扩展并嵌入基本特征模板, 形成更有效的融合特征模板。通过 3 种分类模型集成, 提高微博情感分类的性能。

一种基于循环神经网络的古文断句方法

王博立, 史晓东, 苏劲松

2017, 53(2): 255-261. DOI: 10.13209/j.0479-8023.2017.032

摘要 ( )

HTML ( )

PDF (2307KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

提出一种基于循环神经网络的古文自动断句方法。该方法采用基于GRU (gated recurrent unit)的双向循环神经网络进行古文断句。在解码过程中, 该算法不仅利用神经网络输出的概率分布, 还进一步引入状态转移概率和长度惩罚, 以便提高断句准确率。在大规模古籍语料上的实验结果表明, 所提方法能够取得比传统方法更高的断句F1值。

基于个人-群体-商户关系模型的虚假评论识别研究

余传明, 冯博琳, 左宇恒, 陈百云, 安璐

2017, 53(2): 262-272. DOI: 10.13209/j.0479-8023.2017.033

摘要 ( )

HTML ( )

PDF (661KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

从评论利益相关者内容与行为特征相结合的角度, 提出一种基于个人-群体-商户的主体关系模型(IGMRM)。选择93家店铺中9558个不同IP的97804条评论作为样本数据进行实验, 结果表明, IGMRM在识别虚假评论者、存在信用操纵的商铺以及虚假评论者群体的 F1 值分别达到 82.62%、59.26%和95.12%。使用基于评论内容的逻辑回归模型和 K 最邻近模型作为基线分类方法, 识别虚假评论者的 F1 值分别为52.63%和76.75%, 表明IGMRM在识别虚假评论者方面优于传统方法。

基于文本信息的股票指数预测

董理, 王中卿, 熊德意

2017, 53(2): 273-278. DOI: 10.13209/j.0479-8023.2017.037

摘要 ( )

HTML ( )

PDF (384KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

基于情感分析方法, 对股票市场进行预测。将从社交媒体中抽取的文本信息(词信息、情感词信息和情感分类信息)与股票技术指标相结合, 利用支持向量回归构建模型。通过实验与多种预测方法进行比较, 结果表明该方法能够获得较为理想的预测结果。

基于中英文可比较语料的中文零指代消解

杨紫怡, 贡正仙, 孔芳, 周国栋

2017, 53(2): 279-286. DOI: 10.13209/j.0479-8023.2017.038

摘要 ( )

HTML ( )

PDF (350KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对中文篇章中的零指代问题, 提出一种基于中英文可比较语料进行中文零指代识别和消解的方法, 并提出英文对等句的概念。利用对等句, 重新定义句子间隔, 并引入双语词对齐特征。在基准平台基础上, 从零指代项识别和零指代项消解两个方面进行研究。在 OntoNotes5.0 语料上的实验结果表明, 与目前性能最好的系统相比, 新提出的基于中英对等语料的中文零指代方法取得更好的性能。

英汉机器音译系统对比研究

高恩婷, 段湘煜

2017, 53(2): 287-294. DOI: 10.13209/j.0479-8023.2017.039

摘要 ( )

HTML ( )

PDF (471KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对机器音译的两种主要方法 —— 传统的基于统计的方法和目前流行的基于深度神经网络的方法, 分别使用两种典型系统进行研究。实验结果显示, 基于统计的方法和基于深度神经网络的方法取得的音译质量在评测指标上相当, 但在具体音译结果上各系统间呈现不一致的输出。使用系统融合的方法来实现各系统间的优势互补。实验结果显示, 系统融合的方法显著优于单系统的音译质量。

融合词法句法分析联合模型的树到串EBMT方法

王丹丹, 徐金安, 陈钰枫, 张玉洁, 杨晓晖

2017, 53(2): 295-304. DOI: 10.13209/j.0479-8023.2017.035

摘要 ( )

HTML ( )

PDF (523KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对传统的基于实例的机器翻译(EBMT)方法中系统构筑复杂度和成本较高的问题, 提出一种基于依存树到串的汉英实例机器翻译方法。与传统方法相比, 该方法只需进行源语言端的句法结构分析, 可以大大降低构筑系统的复杂度, 有效降低成本。为了提高翻译精度, 引入中文分词、词性标注和依存句法分析联合模型, 可以减少汉英 EBMT 中源语言端基础任务中的错误传递, 提高提取层次间特征的准确性。在此基础上, 结合依存结构的特征和中英语料的特性, 对依存树到串模型进行规则抽取以及泛化处理。实验结果表明, 相对于基线系统, 该方法可以提高实例对抽取质量, 改善泛化规则和译文质量, 提高系统性能。

融合语态特征的日英层次短语翻译模型

王楠, 徐金安, 明芳, 陈钰枫, 张玉洁

2017, 53(2): 305-313. DOI: 10.13209/j.0479-8023.2017.036

摘要 ( )

HTML ( )

PDF (580KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对不同语种的被动和可能语态的句法结构差异影响机器翻译质量的问题, 提出融合语态特征的最大熵翻译模型。首先从日语端分出被动语态、可能语态和其他语态, 然后从英语端对被动和可能语态进一步分类, 抽取双语特征训练最大熵规则分类模型, 将语态特征融合到对数线性模型中以改善翻译模型。提高解码器在翻译被动语态和可能语态时规则选择的准确性。实验结果表明, 该方法可以有效地改善日英统计机器翻译的句法结构调序和词汇翻译, 提升被动语态和可能语态句子的翻译质量。

基于灰色关联分析的推荐信任评估方法

赵斌, 何泾沙, 张伊璇, 翟鹏

2017, 53(2): 314-320. DOI: 10.13209/j.0479-8023.2016.112

摘要 ( )

HTML ( )

PDF (620KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

为了解决开放式网络访问控制中利用第三方实体的推荐权重合理评估推荐信任问题,借鉴灰色系统理论, 提出基于灰色关联分析的推荐信任评估方法。根据开放网络中各实体间发展态势的相似或相异程度, 评估各实体之间关联的紧密程度和推荐权重。算例和仿真实验表明, 推荐实体的推荐权重计算得到的结果与实际情况相符, 该方法能够保证推荐信任评估决策的有效性和客观性。

2010—2011年冬季La Niña事件对北半球极涡的影响分析

石柳, 付遵涛

2017, 53(2): 321-328. DOI: 10.13209/j.0479-8023.2016.100

摘要 ( )

HTML ( )

PDF (1824KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

为了探讨强极涡与La Niña事件之间的关系, 利用NCEP/NCAR (日平均、月平均位势高度及温度场)再分析资料对2010—2011年冬季进行个例研究。与气候态相比, 2010—2011年冬季北半球平流层极涡偏强, 同时, 显著的强海温负异常(La Niña事件)也持续整个冬季。结果表明, 受La Niña事件影响, 对流层环流场和温度场得到较大的调整, 出现PNA (Pacific North American)型异常环流形势和相对应的温度异常分布。2010年12月, 阿留申地区出现负值的热量经向输送, 使得该地区从对流层上升至平流层的行星波动与气候态相比明显减弱, 从而导致平流层极涡较气候平均态偏强。这一La Niña事件对平流层极涡影响的动力过程也从1948—2010年期间选出的13个冬季强La Niña事件的合成分析结果中得到证实。

微地震观测系统及震源定位目标函数研究

李罗兰, 何川, 谭玉阳

2017, 53(2): 329-343. DOI: 10.13209/j.0479-8023.2016.091

摘要 ( )

HTML ( )

PDF (13807KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

通过模型试验, 分别讨论地面、井下观测系统以及二者的组合对于定位结果的影响。试验结果表明, 联合采用地面与井下观测系统能够有效提高震源定位精度。在采用井下观测系统的基础上, 对比几种常用目标函数的应用效果, 并在更有效的走时残差计算方法基础上, 提出一种新的目标函数。模型数据及实际资料的处理结果表明, 提出的目标函数在水平方向以及垂向上均具有较好的收敛性, 其震源定位结果也更准确、可靠。

基于地理关联度和证据理论的地名消歧方法研究

王星光, 张瑞洁, 张毅

2017, 53(2): 344-352. DOI: 10.13209/j.0479-8023.2016.090

摘要 ( )

HTML ( )

PDF (560KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对目前地名消歧方法普遍缺乏理论基础和统一形式化方法的现状, 以地理学第一定律为理论基础, 使用地理关联度形式化地理实体之间的邻近性。在此基础上, 提出基于证据理论的地名消歧计算模型, 用于表示与合成上下文中共现的地名证据。该模型模拟人类阅读和理解文本中时空语义的认知过程, 并为地名消歧处理提供一个统一的易扩展的形式化框架。最后, 给出本文地名消歧方法的实现算法及其实验评估。结果显示, 算法综合性能指标F1达到89.60%, 取得较好的实验效果。

基于立体全景的远距目标精确量测方法

黎晓东, 孙敏, 郑晖, 姜城, 任翔, 刘磊

2017, 53(2): 353-359. DOI: 10.13209/j.0479-8023.2016.101

摘要 ( )

HTML ( )

PDF (1368KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

针对全景影像无法提供场景中目标的地理空间信息问题, 提出一种通过构建立体全景, 实现对全景影像中较远距离兴趣点目标的量测方法。现有的基于立体视觉的量测方法主要实现对近距离物体的量测, 对于较远距离(如 100 m 以上)的物体, 在缺乏控制点的情况下, 使用非量测相机难以获得精确结果。所提方法在获取全景影像的同时, 采用 GPS/INS 传感器获取相机的位置和姿态信息, 在后续数据处理过程中, 通过改进相对定向环节中初始值的设置方法, 实现对全景影像中远距离目标的精确量测。实验表明, 量测结果的相对精度可以达到相机与目标之间距离的1%。

基于双重自组织模型的土地整治项目区时空配置研究

任艳敏, 徐亚辉, 刘玉, 唐秀美, 王学东

2017, 53(2): 360-368. DOI: 10.13209/j.0479-8023.2017.004

摘要 ( )

HTML ( )

PDF (2440KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

以海南省屯昌县为例, 构建兼顾地理空间和属性空间的双重自组织模型, 对土地整治项目区进行时空配置。地理空间采用行政村几何中心点的 x, y坐标表示, 属性空间采用土地整治潜力、土地整治迫切性和土地整治可行性表示。结果表明, 屯昌县各行政村土地整治潜力、土地整治迫切性和土地整治可行性空间差异显著, “南高北低”和“东高西低”特征明显, 亟需开展土地整治项目的有坡心镇、南坤镇、西昌镇和屯城镇等。采用双重自组织模型, 将 161 个行政村划分为 6 个土地整治项目区。基于综合评价得分, 将屯昌县划分为优先整治区(近期)、重点整治区(中期)和适度整治区(远期), 面积比例分别为 25.14%, 41.83%和 33.03%, 并提出不同土地整治分区的目标导向和整治建议。研究结果可为屯昌县土地整治项目规划与实施提供科学依据, 同时对提高区域土地整治规划水平、促进土地整治事业可持续发展具有积极作用。

基于NEWS模型的北江流域营养盐输出模拟

李丽丽, 栾胜基

2017, 53(2): 369-377. DOI: 10.13209/j.0479-8023.2017.018

摘要 ( )

HTML ( )

PDF (598KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

以珠江三大支流之一北江流域为研究区域, 应用国际上最新提出的流域营养盐输出模型 Global NEWS, 经调试后, 用其估算北江流域溶解态营养盐的输出总量。通过收集文献统计资料并使用 ArcGIS 软件建立模拟所需数据库。经率定和验证, 发现模型对 DIN 的模拟效率系数是 0.61, 具有一定的可靠性。模拟结果表明: 1) 2010 年溶解态氮的输出总量为 3.75 万 t/a, 与2000年相比增加约 9.27%, 其中溶解态无机氮(DIN)占 83.51%, 溶解态有机氮(DON)占 16.49%; 2) 2010年溶解态磷的输出总量为 4.63 万t/a, 与2000年相比增加约 30.05%, 其中溶解态无机磷(DIP)占 86.21%, 溶解态有机磷(DOP)占13.79%; 3) 北江下游的绥江和中游的连江子流域营养盐输出总量最高, 应重视这些地区的营养盐污染; 4) 北江流域DIN输出量的主要贡献源是大气氮沉降, 其次是生物固氮和化肥施用, 而 DIP 的主要贡献源是养殖废水, 其次是化肥施用。研究结果也表明, 模型对国内中小型流域具有一定的适用性。

基于低频水质采样估算滇池宝象河的长期水质趋势和污染通量

李娜, 郭怀成

2017, 53(2): 378-386. DOI: 10.13209/j.0479-8023.2017.019

摘要 ( )

HTML ( )

PDF (885KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

鉴于河流污染通量估算和水质趋势分析受到水质、流量数据缺乏的限制, 基于ESTREND和LOADEST模型, 利用低频采样获得离散型水质数据, 对滇池宝象河进行水质趋势分析和污染通量估算。结果表明: 1) 营养物质(NH₃-N, TN和TP)在0.05概率水平下呈显著上升趋势, 氮已经成为制约宝象河水质的重要因素; 2) TSS浓度呈现显著下降趋势, 年均下降率达到 12.34%; 3) 流量调节水质和非流量调节水质出现相同的趋势, 表明水质变化受流量的影响很小, 主要由污染物排放量变化引起; 4) 通过方程的系列检验, 利用离散水质数据和连续的日流量数据建立回归方程是有效的, 可以用于污染入湖通量的估算; 5) 由于非点源污染的增加,大多数污染物雨季的入湖负荷高于旱季; 6) ESTREND和LOADEST模型对于解决低频、离散型水质数据的水质趋势分析和通量估算是一个有效的方法, 可以推广应用于其他流域, 其分析结果能够为流域总量控制方案的制订和评估提供有力的科学依据。

铅锌矿区土壤真菌响应重金属污染的群落组成变化

杨金水, 杨扬, 孙良明, 刘伟杰, 曾远, 邓春萍, 邢冠岚, 袁红莉

2017, 53(2): 387-396. DOI: 10.13209/j.0479-8023.2016.122

摘要 ( )

HTML ( )

PDF (2817KB) ( )

数据和表 | 参考文献 | 相关文章 | 计量指标

为研究土壤真菌适应不同程度重金属污染的群落组成变化, 以云南省勐糯铅锌矿区土壤样品为研究对象, 通过对其重金属含量和理化性质聚类分析, 选取 5 个重金属高污染和 4 个低污染样品为代表, 提取土壤样品总DNA, 利用Illumina MiSeq测序技术对其进行测序分析, 并在门、纲、目、科、属、种水平上, 分析比较真菌的群落组成变化。研究结果表明, 在高浓度重金属污染样品中, 未被分类真菌占绝对优势, 其次是Aspergillus, Un--s-Clavulinaceae sp.及Un--s-fungal sp. ARIZ L453等。污染低的样品中未被分类真菌也含有较高丰度, 但低于高污染样品, 其次是 Geastrum, Aspergillus 和 Mortierella 等。利用代表性差异分析技术(RDA)分析重金属对土壤真菌多样性的影响, 发现Pb含量对微生物群落结构具有极显著影响。研究结果可为寻找表征重金属污染程度的“核心微生物”奠定一定的理论及实验基础。

当期目录