当期目录

        
    2016年 第52卷 第1期 刊出日期:2016-01-20
    在线医疗文本中的实体识别研究
    苏娅, 刘杰, 黄亚楼
    2016, 52(1):  1-9.  DOI: 10.13209/j.0479-8023.2016.020
    摘要 ( )   HTML   PDF (1120KB) ( )  
    相关文章 | 计量指标

    针对在线医疗文本, 设计考虑医疗领域特性的识别特征, 并在自建数据集上进行实体识别实验。针对常见的5 类疾病: 胃炎、肺癌、哮喘、高血压和糖尿病, 采用近年来较先进的机器学习模型条件随机场, 进行训练和测试, 抽取目标实体包括疾病、症状、药品、治疗方法和检查5类。通过采用逐一添加特征的实验方式, 验证所提特征的有效性, 取得总体上81.26%的准确率和60.18%的召回率, 随后对识别特征给出进一步分析。

    基于《现代汉语语义词典》的未登录词语义预测研究
    尚芬芬, 顾彦慧, 戴茹冰, 李斌, 周俊生, 曲维光
    2016, 52(1):  10-16.  DOI: 10.13209/j.0479-8023.2016.009
    摘要 ( )   HTML   PDF (396KB) ( )  
    相关文章 | 计量指标

    基于《现代汉语语义词典》, 首先建立不同语义层次的词典, 根据词典分别构建模型并进行语义预测, 然后将各个模型进行集成, 通过集成模型再对未登录词进行语义预测, 得到较好的预测性能。利用预测模型对2000年《人民日报》语料进行未登录词语义预测和标注, 最终得到带有未登录词语义义项标注的语料资源。

    基于主题敏感的重启随机游走实体链接方法
    李茂林
    2016, 52(1):  17-24.  DOI: 10.13209/j.0479-8023.2016.003
    摘要 ( )   HTML   PDF (729KB) ( )  
    相关文章 | 计量指标

    实体链接任务的目的是将文本中的实体指称链接到知识库中与之对应的无歧义实体。针对此任务, 提出一种基于主题敏感的重启随机游走的实体链接方法。该方法首先使用实体指称的背景文本信息将实体指称扩充为全称, 并在维基百科知识库中搜索候选实体, 得到候选实体集合; 根据上述中间结果构建图, 利用在图上的主题敏感重启随机游走得到的平稳分布对候选实体集合进行排序, 选出top 1 的候选实体作为目标实体。实验结果表明, 该方法在KBP2014 实体链接数据集上实验的F 值为0.623, 高于其他系统实验的F值, 能够有效提高实体链接系统的整体性能。

    双语影视知识图谱的构建研究
    王巍巍, 王志刚, 潘亮铭, 刘阳, 张江涛
    2016, 52(1):  25-34.  DOI: 10.13209/j.0479-8023.2016.022
    摘要 ( )   HTML   PDF (658KB) ( )  
    相关文章 | 计量指标

    提出一种双语影视知识图谱(BMKG)的构建流程。通过半自动化的方法构建了双语影视本体(BMO), 将各个影视数据源对齐到BMO, 以保持异构数据源的语义描述一致性。在知识链接方面, 在充分挖掘和利用领域特征的基础上, 采用基于Word2Vec 和TFIDF 两种向量模型的实体相似度计算方法, 使相似度特征增加一倍, 大大提升了模型的链接效果。在实体匹配方面, 提出基于相似度传播算法的实体匹配算法, 并利用影视数据源之间的内在联系, 克服了跨语言实体之间计算相似度的语言障碍。实验结果表明, 当阈值取到0.75 以上时, 实体匹配的准确率都能达到90% 左右。此外, 还建立了影视知识图谱共享平台, 并提供开放性的数据访问和查询接口。

    基于互信息改进算法的新词发现对中文分词系统改进
    杜丽萍, 李晓戈, 于根, 刘春丽, 刘睿
    2016, 52(1):  35-40.  DOI: 10.13209/j.0479-8023.2016.024
    摘要 ( )   HTML   PDF (401KB) ( )  
    相关文章 | 计量指标

    提出一种非监督的新词识别方法。该方法利用互信息(PMI)的改进算法——PMIk算法与少量基本规则相结合, 从大规模语料中自动识别2~n元网络新词(n为发现的新词最大长度, 可以根据需要指定)。基于257 MB的百度贴吧语料实验, 当PMIk方法的参数为10时, 结果精度达到97.39%, 比PMI方法提高28.79%, 实验结果表明, 该新词发现方法能够有效地从大规模网络语料中发现新词。将新词发现结果编纂成用户词典, 加载到汉语词法分析系统ICTCLAS中, 基于10 KB的百度贴吧语料实验, 比加载用户词典前的分词结果准确率、召回率和F值分别提高7.93%, 3.73%和5.91%。实验表明, 通过进行新词发现能有效改善分词系统对网络文本的处理效果。

    一种基于星型图的汉字镜像对称检测方法
    廖媛, 吕肖庆, 孙建伶, 汤帜, 王勇涛
    2016, 52(1):  41-48.  DOI: 10.13209/j.0479-8023.2016.015
    摘要 ( )   HTML   PDF (1456KB) ( )  
    相关文章 | 计量指标

    结合不同类型的汉字特征——尺度不变特征变换(SIFT)和轮廓信息, 提出一种基于星型图的汉字镜像对称检测方法。该方法利用基础对称元素构造一个加强关系有向图来描述不同对称元素之间的加强关系, 从而将检测汉字的显著对称轴问题转化为寻找具有局部最大权重的星型子图问题。实验结果表明, 与现有方法相比, 所提方法在汉字数据集上具有更好的检测效果。

    一种汉字笔画自动提取基准测试库
    陈旭东, 连宙辉, 唐英敏, 肖建国
    2016, 52(1):  49-57.  DOI: 10.13209/j.0479-8023.2016.025
    摘要 ( )   HTML   PDF (533KB) ( )  
    相关文章 | 计量指标

    构建一个提供评测工具的笔画基准测试库, 其中包含一个人工搭建的笔画数据库, 该数据库拥有4种字体的汉字图像以及对应的人工提取的笔画信息。通过比较算法自动提取的笔画结果和数据库中的标准笔画之间的差异, 测试库可以评测笔画自动提取算法的性能。还提出一种新的基于Delaunay三角剖分的方法, 可以有效地从汉字图像中提取出笔画信息。在测试库中对现有的3 种笔画提取方法进行比较, 实验数据表明, 所提出的笔画基准测试库能够对笔画提取算法给出有效的评测, 并且新的算法在汉字笔画提取的性能中效率较高。

    基于规则的依存树库错误自动检测与分析
    史林林, 邱立坤, 亢世勇
    2016, 52(1):  58-64.  DOI: 10.13209/j.0479-8023.2016.005
    摘要 ( )   HTML   PDF (428KB) ( )  
    相关文章 | 计量指标

    尝试将依存树转化为短语结构树, 并基于规则的方法自动检测出人工标注结果中的错误。将该方法应用于已经过两遍人工校对的北京大学多视图依存树库, 从50275个句法树中发现1529处错误, 正确率为100%。进一步, 所有错误可以分为3个层次: 分词错误、词性与句法角色不符、句法角色错标。该方法可以有效提高依存树库的质量, 并且适用于各类型的依存树库。

    基于排序方法的汉语句际关系树自动分析
    吴云芳, 万富强, 徐艺峰, 吕学强
    2016, 52(1):  65-74.  DOI: 10.13209/j.0479-8023.2016.014
    摘要 ( )   HTML   PDF (450KB) ( )  
    相关文章 | 计量指标

    提出一种自动分析汉语小句级句际关系树的新方法。在修辞结构理论体系下, 构建一个汉语句际关系标注语料库。不同于传统的只关心相邻两个单元的方法, 提出一种类排序模型(SVM-R), 自动构建汉语句际关系的树结构, 旨在把握相邻3 个单元之间的关联强度。实验结果表明, 所提出的SVM-R模型对句际关系树的分析显著优于传统方法。最后提出并验证了丰富的、适合于汉语句际关系分析的语言特征。

    基于字形与语音的音译单元对齐方法
    刘博佳, 徐金安, 陈钰枫, 张玉洁
    2016, 52(1):  75-80.  DOI: 10.13209/j.0479-8023.2016.001
    摘要 ( )   HTML   PDF (362KB) ( )  
    相关文章 | 计量指标
    为了解决仅采用基于语音或基于字形的音译方法造成的误差过大问题, 以汉英音译为主要研究对象, 运用统计与规则的理论思想, 提出融合基于语音和字形的音译单元对齐方法, 设计了4个实验, 与传统方法进行对比。实验结果显示, 该方法能够很好地提高机器音译的准确性。
    一种基于三维空间信息的字形匹配方法
    刘颖滨, 孙燕南, 荀恩东
    2016, 52(1):  81-88.  DOI: 10.13209/j.0479-8023.2016.016
    摘要 ( )   HTML   PDF (926KB) ( )  
    相关文章 | 计量指标

    提出一种基于三维空间信息的字形匹配方法。首先将字形轮廓Bézier 曲线的二维控制点集扩展至三维, 然后为三维点集建立高斯混合模型, 最后通过最小化高斯混合模型间的欧氏距离(L2)完成匹配。采用三维空间信息可以充分利用字形所蕴含的内在约束条件。采用高斯混合模型有利于在匹配过程中保持字形整体结构特征和局部书写特征。实验结果表明, 该方法提升了汉字单笔画以及整字字形匹配的准确度和美观度, 并且具有稳定性高、扩展性强的特点。

    基于MLN的中文事件触发词推理方法
    朱少华, 李培峰, 朱巧明
    2016, 52(1):  89-96.  DOI: 10.13209/j.0479-8023.2016.012
    摘要 ( )   HTML   PDF (867KB) ( )  
    相关文章 | 计量指标

    现有的中文事件触发词抽取方法大多数采用特征工程和触发词扩展方法, 无法利用同一文档中各个触发词实例之间的内在关系。为了解决上述问题, 基于马尔科夫逻辑网络(MLN), 利用核心词素, 训练语料中触发词实例填充真假事件的概率, 以及触发词实例间的关系等信息来推导测试集中缺乏有效上下文信息和低可信度的触发词实例。在ACE 2005 中文语料上的实验结果表明, 与基准系统相比, 该方法在触发词识别和事件类型分类阶段F1值分别提高3.65%和2.51%。

    基于全局优化的中文事件同指消解方法
    滕佳月, 李培峰, 朱巧明
    2016, 52(1):  97-103.  DOI: 10.13209/j.0479-8023.2016.010
    摘要 ( )   HTML   PDF (494KB) ( )  
    相关文章 | 计量指标

    针对目前对事件同指关系的研究中多采用事件对分类或聚类方法而忽略事件相互之间内在联系的问题, 提出一个中文事件同指消解的全局优化模型, 用于减少因分类器错误造成的同指事件链不一致问题。该模型利用对称性、传递性、触发词、论元角色、事件距离等多种约束条件, 将同指消解转化成整数线性规划问题。实验结果表明, 与分类器方法相比, 全局优化模型的F1值提高4.20%。

    一种基于词覆盖的新闻事件脉络链构建方法
    付佳兵, 董守斌
    2016, 52(1):  104-112.  DOI: 10.13209/j.0479-8023.2016.018
    摘要 ( )   HTML   PDF (1214KB) ( )  
    相关文章 | 计量指标

    针对目前构建新闻脉络链只关注新闻脉络链的主题相似性和文档重要性, 而忽略新闻脉络链逻辑连贯性和可解释性的不足, 以及新闻数据集合指数级增长带来的算法复杂度问题, 从词覆盖的角度提出一种新闻脉络链构建方法, 利用新闻的评论信息来定位新闻事件转折点, 用主题相似与稀疏差异的思想以及RPCA 方法对文档进行逻辑建模, 利用随机游走以及图遍历的方法, 量化并生成可解释且具有很好逻辑连贯性的脉络链。双盲实验表明, 与其他算法相比, 该方法取得较好的效果。

    统计机器翻译中实例短语对研究
    李强, 李沐, 张冬冬, 朱靖波
    2016, 52(1):  113-119.  DOI: 10.13209/j.0479-8023.2016.007
    摘要 ( )   HTML   PDF (465KB) ( )  
    相关文章 | 计量指标

     针对由于数据的稀疏性和双语数据规模的局限性造成的大量高质量短语对没有生成的问题, 在基于短语的统计机器翻译系统中, 通过对传统短语抽取算法抽取的短语对进行分解、替换、生成等操作, 生成传统方法无法抽取的实例短语对。在汉英新闻和汉英口语翻译任务上, 与基线系统相比, 该方法在多个测试集上明显提高了翻译系统的翻译质量, 在部分测试集上BLEU 值可提高1%左右。

    基于空间短文本对象的检索策略
    顾彦慧, 王道胜, 王永根, 龙云飞, 蒋锁良, 周俊生, 曲维光
    2016, 52(1):  120-126.  DOI: 10.13209/j.0479-8023.2016.008
    摘要 ( )   HTML   PDF (469KB) ( )  
    相关文章 | 计量指标
    针对传统空间文本检索策略中的效率和有效性问题, 对如何从给定的空间文本对象集合中快速有效地检索出top-k个近似结果进行研究。基于一个空间检索的通用框架, 提出一种基于空间文本对象的快速策略, 用于满足用户对效率与有效性的要求。实验结果证明该策略优于现有方法。
    基于选择偏向性的统计机器翻译模型
    唐海庆, 熊德意
    2016, 52(1):  127-133.  DOI: 10.13209/j.0479-8023.2016.013
    摘要 ( )   HTML   PDF (336KB) ( )  
    相关文章 | 计量指标

    针对基于短语的统计机器翻译使用有限的语义知识, 导致长距离的动宾短语对翻译质量不高的问题, 提出基于动词选择偏向性的翻译模型, 引入动词对宾语的语义约束信息, 为动词找到合适的宾语翻译。首先使用条件概率方法, 训练动词对宾语的选择偏向性, 然后将选择偏向性作为一个新特征, 集成到基于短语的翻译系统中。在大规模测试数据集上完成汉语到英语的翻译, 实验结果表明, 基于选择偏向性的翻译模型能够很好地捕获长距离的语义依赖关系, 从而提高译文质量。

    基于文本蕴含的选择类问题解答技术研究
    王宝鑫, 郑德权, 王晓雪, 赵姗姗, 赵铁军
    2016, 52(1):  134-140.  DOI: 10.13209/j.0479-8023.2016.017
    摘要 ( )   HTML   PDF (471KB) ( )  
    相关文章 | 计量指标

    利用选择类问题具有明确候选项的特点, 简化问题分类过程, 并针对长文本语义蕴含短文本语义的语言现象, 提出一种根据文本蕴含强度大小对候选答案进行排序的方法。在没有大规模问答对的情况下, 采用维基百科中文语料库, 以全国各省市高考地理选择题作为实验数据, 通过句子相似度和文本蕴含两种方法来解答地理选择题。实验表明, 基于文本蕴含方法的准确率为36.93%, 比基于词嵌入的句子相似度方法提高2.44%, 比基于向量空间模型的句子相似度方法提高7.66%, 验证了该文本蕴含强度计算方法的有效性。

    一种湘西民间苗文字形的动态生成方法及其实现途径
    莫礼平, 周恺卿
    2016, 52(1):  141-147.  DOI: 10.13209/j.0479-8023.2016.019
    摘要 ( )   HTML   PDF (1123KB) ( )  
    相关文章 | 计量指标

    为了有效地解决湘西民间苗文字形的生成及描述问题, 提出一种字形的动态生成方法。该方法将苗文字形的生成过程表示为由苗文构件作为操作数、由构件位置关系决定运算符的组合运算表达式, 将2~3个构件进行不同的组合运算, 即可动态生成不同结构的苗文字形。利用操作系统自带的表意文字描述序列解释机制, 将构件组合运算表达式转换为表意文字描述序列, 即可实现该方法。测试结果表明, 根据该方法编写的映射脚本生成的湘西民间苗文字形可以满足实用要求。

    基于双语对齐的汉语–新蒙古文命名实体翻译
    杨萍, 侯宏旭, 蒋玉鹏, 申志鹏, 杜健
    2016, 52(1):  148-154.  DOI: 10.13209/j.0479-8023.2016.006
    摘要 ( )   HTML   PDF (421KB) ( )  
    相关文章 | 计量指标

    汉语–新蒙古文命名实体翻译在跨汉语–新蒙古文信息处理中具有重要意义, 而直接使用机器翻译的方法不能达到满意的结果。针对上述问题, 提出一种从汉语–新蒙古文平行语料中自动抽取汉语–新蒙古文命名实体翻译对的方法。该方法只需对汉语端进行命名实体标注; 然后基于双语HMM词对齐结果, 利用滑动窗口的方法抽取所有候选命名实体翻译对; 最后基于融合5 种特征的最大熵模型, 对所有候选翻译单位进行过滤, 选取与汉语端命名实体相对应的置信度最高的新蒙古文命名实体翻译单位。实验结果表明, 该方法优于基于HMM的方法, 在对齐模型只是部分准确的情况下, 也获得较高准确率的汉语–新蒙古文命名实体翻译对。

    基于词间关联度度量的维吾尔文本自动切分方法
    吐尔地·托合提, 维尼拉·木沙江, 艾斯卡尔·艾木都拉
    2016, 52(1):  155-164.  DOI: 10.13209/j.0479-8023.2016.023
    摘要 ( )   HTML   PDF (836KB) ( )  
    相关文章 | 计量指标

    提出一种基于词间关联度度量的维吾尔文本自动切分方法。该方法从大规模生语料库中自动获取维吾尔文单词Bi-gram及上下文语境信息, 在充分考虑维吾尔文单词间结合规则的前提下, 将相邻单词间的互信息、t-测试差及双词邻接对熵的线性融合作为组合统计量(dmd), 度量文本中相邻单词之间的关联程度。以dmd度量的弱关联的词间位置作为切分点进行自动切分, 得到语义及结构完整的词串, 而不仅仅是以空格隔开的单词。在大规模文本语料上进行的测试表明, 该方法的切分准确率达到88.21%。

    基于评论主题的个性化评分预测模型
    马春平, 陈文亮
    2016, 52(1):  165-170.  DOI: 10.13209/j.0479-8023.2016.011
    摘要 ( )   HTML   PDF (323KB) ( )  
    相关文章 | 计量指标

    针对现有基于评论分析的推荐算法没有充分考虑个性化的问题, 通过对评论进行主题分析, 挖掘用户的喜好, 分别建立基于用户和物品的个性化评分预测模型。在真实数据集上进行实验验证, 结果表明该模型有效地提高了推荐系统的评分预测性能。

    基于词语情感隶属度特征的情感极性分类
    宋佳颖, 黄旭, 付国宏
    2016, 52(1):  171-177.  DOI: 10.13209/j.0479-8023.2016.004
    摘要 ( )   HTML   PDF (334KB) ( )  
    相关文章 | 计量指标

    在模糊集合论框架下探索基于词语情感隶属度的情感极性分类特征表示方法。以TF-IDF为权重分别构建情感特征词语的正向、负向极性隶属度, 并以隶属度对数比作为分类特征值构建基于支持向量机的情感极性分类系统。在产品评论、NLPCC2014情感分类评测数据和IMDB英文影评等数据上的实验结果表明, 基于情感隶属度特征的系统优于基于布尔、频度和词向量等特征表示的系统, 验证了所提出的基于情感隶属度特征表示的有效性。

    基于微博文本数据分析的社会群体情感可视计算方法研究
    刘翠娟, 刘箴, 柴艳杰, 方昊, 刘良平
    2016, 52(1):  178-186.  DOI: 10.13209/j.0479-8023.2016.021
    摘要 ( )   HTML   PDF (1441KB) ( )  
    相关文章 | 计量指标

    针对已有的情感分析研究多侧重在情感的倾向性方面, 缺乏对各类情感的详细描述, 不能形象直观地反映社会群体的情感变化的问题, 提出一种基于依存句法和人工标注相结合的情感分析方法。该方法采用三维立体的人脸表情进行情感分析, 形象地呈现社会群体的情感变化。对于不同的社会事件, 以可视化方式来展现不同地区微博群体的情感。实验结果表明, 该模型可以有效地描述人群情感, 研究结果为基于大数据的网络舆情分析提供了一种新思路。