当期目录

        
    2019年 第55卷 第1期 刊出日期:2019-01-20
    2019年第1期目次
    2019, 55(1):  0. 
    摘要 ( )   HTML ( )   PDF (4743KB) ( )  
    相关文章 | 计量指标
    基于词模式嵌入的词语上下位关系分类
    孙佳伟, 李正华, 陈文亮, 张民
    2019, 55(1):  1-7.  DOI: 10.13209/j.0479-8023.2018.055
    摘要 ( )   HTML   PDF (4709KB) ( )  
    相关文章 | 计量指标

    提出一种基于词模式的上下位关系分类方法, 可以有效地缓解传统的基于模式的分类方法存在的稀疏问题, 提高了关系分类的召回率。进一步地, 通过词模式嵌入, 将基于模式的方法与基于词嵌入的方法进行有效的融合。为了验证方法的有效性, 标注一个包含12000个汉语词语对的数据集。实验结果表明, 该词模式嵌入方法是有效的, F1值可以达到95.36%。

    中文嵌套命名实体关系抽取研究
    许浩亮, 李雁群, 何云琪, 钱龙华
    2019, 55(1):  8-14.  DOI: 10.13209/j.0479-8023.2018.056
    摘要 ( )   HTML   PDF (442KB) ( )  
    相关文章 | 计量指标

    为了解决嵌套命名实体关系抽取研究缺乏相关语料库这一问题, 在现有中文命名实体语料库的基础上, 将人工标注与机器学习相结合来抽取其语义关系。人工标注一个中文嵌套命名实体关系语料库, 然后分别采用支持向量机和卷积神经网络等方法, 进行中文嵌套实体关系抽取实验。实验结果表明, 在人工标注实体的中文嵌套命名实体语料上, 嵌套实体关系抽取的性能非常好, F1指数达到95%以上, 而在自动识别实体上的抽取性能尚不理想。

    中文篇章零元素语料库构建
    盛晨, 孔芳, 周国栋
    2019, 55(1):  15-21.  DOI: 10.13209/j.0479-8023.2018.057
    摘要 ( )   HTML   PDF (672KB) ( )  
    相关文章 | 计量指标

    针对中文零指代问题, 从篇章视角进行理论分析, 并完成中文篇章零元素语料库(Chinese Discourse Zero Corpus, CDZC)的构建工作。首先, 整理和分析已有的理论研究以及语料资源, 探究篇章层面中文零元素语料库标注的必要性。然后, 采用自底向上、前向搜索的标注策略和人机结合的半自动标注方式, 完成CDZC语料库的构建。最后, 对该语料库进行一系列详细的统计分析。结果表明, CDZC能够充分反映出中文零元素省略的语言特点, 为相关研究提供语料资源支持。

    一种基于Hownet的词向量表示方法
    陈洋, 罗智勇
    2019, 55(1):  22-28.  DOI: 10.13209/j.0479-8023.2018.061
    摘要 ( )   HTML   PDF (653KB) ( )  
    相关文章 | 计量指标

    针对基于预训练得到的词向量在低频词语表示质量和稳定性等方面存在的缺陷, 提出一种基于Hownet的词向量表示方法(H-WRL)。首先, 基于义原独立性假设, 将 Hownet中所有N个义原指定为欧式空间的一个标准正交基, 实现Hownet义原向量初始化; 然后, 根据Hownet中词语与义原之间的定义关系, 将词语向量表示视为相关义原所张成的子空间中的投影, 并提出学习词向量表示的深度神经网络模型。实验表明, 基于Hownet的词向量表示在词相似度计算和词义消歧两项标准评测任务中均取得很好的效果。

    基于对抗学习的讽刺识别研究
    张庆林, 杜嘉晨, 徐睿峰
    2019, 55(1):  29-36.  DOI: 10.13209/j.0479-8023.2018.064
    摘要 ( )   HTML   PDF (530KB) ( )  
    相关文章 | 计量指标

    为了避免现有讽刺识别方法的性能会受训练数据缺乏的影响, 在使用有限标注数据训练的注意力卷积神经网络基础上, 提出一种对抗学习框架, 该框架包含两种互补的对抗学习方法。首先, 提出一种基于对抗样本的学习方法, 应用对抗生成的样本参与模型训练, 以期提高分类器的鲁棒性和泛化能力。进而, 研究基于领域迁移的对抗学习方法, 以期利用跨领域讽刺表达数据, 改善模型在目标领域上的识别性能。在3个讽刺数据集上的实验结果表明, 两种对抗学习方法都能提高讽刺识别的性能, 其中基于领域迁移方法的性能提升更显著; 同时结合两种对抗学习方法能够进一步提高讽刺识别性能。

    结合表示学习和迁移学习的跨领域情感分类
    廖祥文, 吴晓静, 桂林, 黄锦辉, 陈国龙
    2019, 55(1):  37-46.  DOI: 10.13209/j.0479-8023.2018.063
    摘要 ( )   HTML   PDF (1404KB) ( )  
    相关文章 | 计量指标

    针对现有跨领域情感分类方法中文本表示特征忽略了重要单词与句子的情感信息, 且在迁移过程中存在负面迁移的问题, 提出一种将文本表示学习与迁移学习算法相结合的跨领域情感分类方法。首先, 利用低维稠密的词向量对文本进行初始化, 通过分层注意力网络, 对文本中重要单词与句子的情感信息进行建模, 从而学习源领域与目标领域的文档级分布式表示。随后, 采用类噪声估计方法, 对源领域中的迁移数据进行检测, 剔除负面迁移样例, 挑选高质量样例来扩充目标领域的训练集。最后, 训练支持向量机对目标领域文本进行情感分类。在大规模公开数据集上进行的两个实验结果表明, 与基准方法相比, 所提方法的均方根误差分别降低1.5%和1.0%, 说明该方法可以有效地提高跨领域情感分类性能。

    字符级的维吾尔语形态协同分析方法
    吐尔洪·吾司曼, 杨雅婷, 艾孜孜·吐尔逊, 程力
    2019, 55(1):  47-54.  DOI: 10.13209/j.0479-8023.2018.067
    摘要 ( )   HTML   PDF (1060KB) ( )  
    相关文章 | 计量指标

    针对维吾尔语中构形词缀种类多、构形复杂以及发生音变现象等问题, 提出一种基于字符级的维吾尔语形态协同分析方法。该方法最大的特点是同时进行维吾尔语的形态切分、形态标注以及音变还原, 将词素边界、形态标记以及音变信息用一个复合标记描述, 采用字符序列的标注方法进行训练。实验结果显示, 形态切分、形态标注及音变还原的正确率分别达到96.39%, 92.78%和99.79%, 系统总体正确率达92.59%。

    特定领域问答系统中基于语义检索的非事实型问题研究
    仇瑜, 程力, Daniyal Alghazzawi
    2019, 55(1):  55-64.  DOI: 10.13209/j.0479-8023.2018.068
    摘要 ( )   HTML   PDF (1194KB) ( )  
    相关文章 | 计量指标

    面向财税领域非事实型问题, 提出基于语义检索的方法来抽取答案。首先使用领域知识库对问题及领域文档进行语义标注, 引入语义相似度特征提高法规及案例的检索准确率; 其次使用排序学习算法融合领域文本的多种特征对法规检索结果优化; 最后使用法规特征对案例检索结果进行筛选, 并从相似案例中抽取相应答案。在真实数据集上的测试结果表明, 该方法在准确率和效率上比基准方法有显著提升。

    面向排名预测的电影媒体网站研究
    杨亮, 周逢清, 林原, 林鸿飞, 许侃
    2019, 55(1):  65-74.  DOI: 10.13209/j.0479-8023.2018.062
    摘要 ( )   HTML   PDF (5036KB) ( )  
    相关文章 | 计量指标

    结合排序学习方法, 对电影排名预测任务进行研究。通过挖掘和分析电影媒体网站数据, 完成对排名预测相关特征的抽取与扩展及排名标注的对齐和划分等, 并提出面向电影媒体网站的排名预测模型。实验结果显示, 该模型能有效地提高电影排名预测任务的性能, 在为影视院线合理规划同期电影的上映时间及排片比例、为观影者提供优质热门的电影推荐等方面具有一定的应用价值。

    基于组合神经网络的语义省略“的”字结构识别
    侍冰清, 戴茹冰, 曲维光, 顾彦慧, 周俊生, 李斌, 徐戈, 史胜旺
    2019, 55(1):  75-83.  DOI: 10.13209/j.0479-8023.2018.058
    摘要 ( )   HTML   PDF (893KB) ( )  
    相关文章 | 计量指标

    针对语义省略“的”字结构识别任务, 提出一种基于组合神经网络的识别方法。利用词语和词性, 通过双向LSTM (long short-term memory)神经网络, 学习“的”字结构深层次的语义语法表示。通过Max-pooling层和基于GRU(gated recurrent unit)的多注意力层, 捕获“的”字结构的省略特征, 完成语义省略“的”字结构识别任务。实验结果表明, 所提模型在CTB8.0(Chinese Treebank 8.0)语料中, 能够有效地识别语义省略的“的”字结构, F1值达到96.67%。

    基于改进孪生网络结构的相似法律案例检索研究
    李兰君, 周俊生, 顾颜慧, 曲维光
    2019, 55(1):  84-90.  DOI: 10.13209/j.0479-8023.2018.059
    摘要 ( )   HTML   PDF (505KB) ( )  
    相关文章 | 计量指标

    针对现有的基于孪生网络结构的文档相似度计算方法大多将整个文档看成模型的输入序列, 易导致数据稀疏的问题, 提出利用层级注意力机制来改进孪生网络结构中的文档表示。针对基于层级注意力机制的孪生网络计算模型在输入时有可能忽略文档中重要句子的问题, 进一步提出一种引入文档内容压缩的两步骤文档相似度计算方法。利用开发的法律案例文档相似度标注数据集进行实验, 结果表明所提方法明显优于基于长短期记忆模型的孪生网络计算模型。

    面向细粒度隐式篇章关系识别的远距离监督特征学习算法
    唐裕婷, 李艳斌, 刘露, 于中华, 陈黎
    2019, 55(1):  91-97.  DOI: 10.13209/j.0479-8023.2018.060
    摘要 ( )   HTML   PDF (629KB) ( )  
    相关文章 | 计量指标

    针对中文细粒度隐式篇章关系识别进行研究。考虑细粒度篇章关系的方向性特点, 提出一种基于远距离监督的特征学习算法。该算法使用远距离监督的方法, 自动标注显式篇章数据, 然后利用词与连词之间的相对位置信息, 训练各个词的词表达, 将词的修辞功能以及关系的方向性编码到密集词表达中, 将这样的词表达应用到细粒度隐式篇章关系分类器。实验结果表明, 在细粒度隐式篇章关系识别任务中, 该方法的分类准确率达到49.79%, 比未考虑篇章关系方向性的方法有较大程度的提高。

    基于句式元学习的Twitter分类
    闫雷鸣, 严璐绮, 王超智, 贺嘉会, 吴宏煜
    2019, 55(1):  98-104.  DOI: 10.13209/j.0479-8023.2018.054
    摘要 ( )   HTML   PDF (1927KB) ( )  
    相关文章 | 计量指标

    针对多类别的社交媒体短文本分类准确率较低问题, 提出一种学习多种句式的元学习方法, 用于改善Twitter文本分类性能。将Twitter文本聚类为多种句式, 各句式结合原类标签, 成为多样化的新类别, 从而原分类问题转化为较多类别的few-shot学习问题, 并通过训练深层网络来学习句式原型编码。用多个三分类Twitter数据来检验所提Meta-CNN方法 , 结果显示, 该方法的学习策略简单有效, 即便在样本数量不多的情况下, 与传统机器学习分类器和部分深度学习分类方法相比, Meta-CNN仍能获得较好的分类准确率和较高的F1值。

    基于表示学习的情感分析研究
    厉小军, 施寒潇, 陈南南, 柳虹, 邹轶
    2019, 55(1):  105-112.  DOI: 10.13209/j.0479-8023.2018.066
    摘要 ( )   HTML   PDF (931KB) ( )  
    相关文章 | 计量指标

    提出一个基于表示学习的文本情感分析模型C&W-SP。首先基于C&W模型的词表示改进训练模型, 实现在词表示训练过程中融入情感信息和词性信息的不同模型设计; 然后利用NLP&CC’2013中的评测数据集, 进行多种模型的实验对比。实验结果表明, 融入情感信息和词性信息的C&W-SP模型性能效果最优, 验证了所提方法的有效性。

    N3LDG: 一种轻量级自然语言处理深度学习库
    王潜升, 余南, 张梅山, 韩子嘉, 付国宏
    2019, 55(1):  113-119.  DOI: 10.13209/j.0479-8023.2018.065
    摘要 ( )   HTML   PDF (1161KB) ( )  
    相关文章 | 计量指标

    提出一种用于自然语言处理的轻量级深度学习库N3LDG, 可以支持动态地构建计算图, 并能自动地批量化执行计算图。实验显示, 当训练卷积神经网络、双向LSTM和树结构LSTM时, N3LDG都能高效地构建与执行计算图; 当使用CPU训练上述模型时, N3LDG的训练速度优于PyTorch; 当使用GPU训练卷积神经网络和树结构LSTM模型时, N3LDG的训练速度优于PyTorch。

    一种针对气枪记录的三阶段初至震相拾取方案
    朱逸馨, 张云鹏
    2019, 55(1):  120-132.  DOI: 10.13209/j.0479-8023.2018.030
    摘要 ( )   HTML   PDF (12561KB) ( )  
    相关文章 | 计量指标

    针对气枪震源数据信噪比较低和自动拾取初至效果较差的问题, 通过引入地震勘探方法来进行初至震相拾取。首先压制噪声; 然后利用传统的勘探方法, 进行特征曲线计算; 最后结合保边平滑方法, 确定初至时间的三阶段方案, 降低自动拾取方法对数据信噪比要求。在此基础上, 根据实际数据特点, 设计自动拾取流程, 并用此流程对长江安徽段的主动源数据进行自动拾取。与传统方法相比, 所提方法对数据信噪比要求更低, 可为后续处理提供更多可用资料。

    吕梁地区宁家湾岩体锆石U-Pb年代学、地球化学特征及地质意义
    庞菲, 李秋根, 刘树文, 王宗起, 柳政甫, 梅可辰
    2019, 55(1):  133-147.  DOI: 10.13209/j.0479-8023.2018.034
    摘要 ( )   HTML   PDF (21553KB) ( )  
    相关文章 | 计量指标

    对呈小规模岩株状产出的宁家湾岩体进行野外地质、岩石学、岩石地球化学、锆石U-Pb同位素年代学和Hf同位素组成研究, 目的是确定其岩石成因及地球动力学意义。两件样品的LA-ICP-MS锆石U-Pb定年结果分别为2364±6 Ma (MSWD=0.13)和2360±23 Ma (MSWD =4.0), 属古元古代岩浆活动的产物。研究结果表明, 宁家湾岩体富碱、高K和Si, 具有高FeOT/MgO 比值和高的高场强元素(HFSE)含量, 富集Rb, Ba, Th和U等元素, 具有低的Ca和Mg含量, 明显亏损P和Ti, 具弱轻重稀土分异和强Eu负异常(δEu=0.13~0.36)的海鸥型稀土分配模式, 显示高分异I型花岗岩的特征。较高的Y/Nb值(1.2~2.8)、锆石的εHf(t)均为正值(+1.6~+6.4)以及单阶段模式年龄tDM1(Hf)和二阶段模式年龄tDM2(Hf)分别为2449~2629 Ma和2474~2711 Ma的特点, 表明源区可能为壳幔混合。明显的Nb, P 和 Ti负异常及Ce, Nd和Zr正异常, 反映出大陆边缘弧岩浆岩的特征。结合区域地质背景, 认为宁家湾岩体很可能形成于岛弧构造环境。

    TSR反应中地球化学条件的热力学估算
    谭宇, 关平, 庞磊, 刘沛显, 周叶骏
    2019, 55(1):  148-158.  DOI: 10.13209/j.0479-8023.2018.037
    摘要 ( )   HTML   PDF (1152KB) ( )  
    相关文章 | 计量指标

    从化学热力学的角度, 通过热力学计算和绘制热力学相图, 针对硫酸盐热化学还原反应(TSR反应)和H2S对碳酸盐岩的溶蚀两个化学反应过程, 判别其发生的可能性、方向和物理化学条件, 求取不同温度下CaSO4 (或SO42−)被直接还原为H2S的离子浓度、pH和氧化还原条件; 指出在地质体系中, 当CaCO3处于沉淀–溶解的边界时, 少量酸性流体的加入就会使沉淀转为溶解, 而当Ca2+和CO32−浓度升高时, 又达到新的沉淀–溶解平衡。H2S对CaCO3的溶蚀在深度约为1000 m时达到最佳效果, 长期、多次的TSR反应才能产生充足的酸性流体(即H2S), 这是溶蚀改造碳酸盐岩储层达到明显效果的必要条件。

    末次冰盛期青藏高原冰川变化对亚洲气候的影响
    毋宇斌, 刘永岗, 易朝路, 刘鹏
    2019, 55(1):  159-170.  DOI: 10.13209/j.0479-8023.2018.094
    摘要 ( )   HTML   PDF (3594KB) ( )  
    相关文章 | 计量指标

    以末次冰盛期(约2.6~1.9万年前)的气候为背景, 利用大气模式CAM4耦合陆面模式CLM4, 对青藏高原冰川规模扩大对气候产生的影响进行研究。结果表明, 末次冰盛期青藏高原冰川对北半球夏季的气候影响较显著, 除在冰川分布区引起显著的降温外, 通过遥相关作用, 还使得白令海峡附近显著升温。另外, 冰川产生的扰动会显著地增强南亚夏季风, 增加南亚地区降水。对比末次冰盛期与工业革命前时期不同气候态下青藏高原冰川规模扩大对气候的影响, 发现工业革命前时期的影响显著小于末次冰盛期, 说明青藏高原冰川对气候的影响与背景气候态有关。

    2000—2015年黑河流域中上游NDVI时空变化及其与气候的关系
    尤南山, 蒙吉军, 孙慕天
    2019, 55(1):  171-181.  DOI: 10.13209/j.0479-8023.2018.075
    摘要 ( )   HTML   PDF (14890KB) ( )  
    相关文章 | 计量指标

    选择西北第二大内陆河黑河流域中上游为研究区, 以2000—2015年逐月NDVI数据、月均温和月降水数据、DEM数据和基础地理信息数据为数据源, 采用RS, GIS 和数理统计分析等方法, 从区域尺度和像元尺度揭示区域NDVI时空变化格局及其与气候的关系。结果显示: 1) 2000—2015年, 黑河流域中上游NDVI总体上呈现增长趋势, 其中夏季的增长速率最大, 明显高于春季和秋季; NDVI快速增长区主要位于中游地区黑河干流两侧的绿洲地带; NDVI显著下降区位于张掖市市辖区、酒泉市市辖区以及其他县城所在地; 2) 夏季NDVI与降水相关性较高, 而春、秋季NDVI与气温相关性较高; 夏季NDVI与夏季降水的显著相关性主要体现在远离黑河干流的大片低覆被草地、戈壁以及荒漠, 而邻近黑河的人工绿洲地带NDVI与降水没有显著相关性; 3) NDVI响应降水的时滞效应较明显, 夏季NDVI对降水的响应普遍存在1个月的时间滞后, 最长能滞后2个月。研究结果可以为区域植被恢复和生态系统管理提供参考。

    基于径向基函数网络模型的中国生态压力指数评价
    王雨琪, 程舒鹏, 陆文涛, 付正辉, 郭怀成
    2019, 55(1):  182-188.  DOI: 10.13209/j.0479-8023.2018.091
    摘要 ( )   HTML   PDF (1601KB) ( )  
    相关文章 | 计量指标

    为了解决生态压力指数法参数繁多、计算量大、难以进行多区域评价以及因计算过程包含主观因素而导致评价结果偏差等问题, 构建一种简单易行、科学有效的生态压力评价方法。选取生态压力评价相关指标, 建立径向基函数网络(RBFN)模型, 根据目前已有的生态压力指数计算结果, 进行模型训练和检验, 分别对2008年和 2013年中国31个省、自治区和直辖市的生态压力进行评价, 并利用GIS软件, 对评价结果进行可视化表达。结果显示, 中国有一半的地区处于极不安全的生态压力状态, 北京一直是全国生态压力最大的地区; 2008—2013年, 有22个省级行政区的生态压力变大; 生态压力最大的是华北地区, 生态压力最小的是西北地区。

    基于景观评价的河道景观规划方法研究——以昆明市盘龙江为例
    刘佳驹, 王宇泓, 赵龙, 郭怀成
    2019, 55(1):  189-196.  DOI: 10.13209/j.0479-8023.2018.093
    摘要 ( )   HTML   PDF (2633KB) ( )  
    相关文章 | 计量指标

    以河道景观评价为目标层, 以生态性、社会性和艺术性指标作准则层, 以水质、物种多样性、水体透明度、防洪效应、水景利用率、景观可达性、色彩美感度、形态美感度以及地域文化性作为指标层, 构建城市河道景观评价指标体系。利用层次分析法(AHP)确定各指标层的权重, 利用距离指数法构建评价模型。以昆明市盘龙江为例, 利用该模型对盘龙江上中下游景观环境进行评价。将定量评价与定性评价相结合, 对城市水系景观环境规划设计提供指导, 构建水景观规划新模式, 以期为实现科学景观规划设计提供参考。