当期目录

        
    2014年 第50卷 第1期 刊出日期:2014-01-20
    中文电子文档的数学公式定位研究
    林晓燕,高良才,汤帜
    2014, 50(1):  17-24. 
    摘要 ( )   PDF (536KB) ( )  
    相关文章 | 计量指标
    区别于传统基于图像和西文文档的公式定位方法, 针对中文电子文档的特点, 提出一种基于机器学习和规则相结合的独立公式和内嵌公式的定位方法。设计了适合中文文档的页面分行策略和词块划分规则; 选择适合中文文档的公式特征和机器学习算法; 针对公式定位中的过分割问题, 提出行合并与词块合并等后处理手段。实验结果表明, 该方法可以有效地从中文电子文档中自动定位公式区域。此外, 构建了公开可用的中文数据集, 以促进不同数学公式定位方法间的相互比较及性能评估。
    基于互联网的术语定义辨析
    吴瑞红,吕学强
    2014, 50(1):  33-40. 
    摘要 ( )   PDF (535KB) ( )  
    相关文章 | 计量指标
    针对一个术语的多条候选定义, 首次提出术语定义辨析模型并给出一种基于互联网的求解方法。该方法从百度百科和百度搜索构建参考释义, 总结术语及其定义来源语料中的术语定义模板, 根据参考释义和定义的模板从待辨析定义中选出最优定义。实验选取中国知网概念知识元库中部分领域的术语在学术文献和工 具书中的定义作为待辨析对象, 用所提出的模型和方法进行辨析实验, 结果表明, 该方法辨析的准确率为96.1%, 有很好的辨析效果。
    面向中文网络百科的属性和属性值抽取
    贾真,杨宇飞,何大可,刘胜久,尹红风
    2014, 50(1):  41-47. 
    摘要 ( )   PDF (523KB) ( )  
    相关文章 | 计量指标
    针对面向中文网络百科条目文章的属性和属性值抽取, 提出一种无监督方法。此方法将属性值看做命名实体, 利用频繁模式挖掘和关联分析, 从文本中抽取类别属性; 采用自扩展方法为属性建立触发词表; 基于属性触发词和属性值实体标注挖掘属性值抽取模式, 利用层次聚类算法获取高质量的模式。在互动百科中采集的数据集上进行实验, 结果表明所提方法行之有效。
    基于本体结构的新闻个性化推荐
    饶俊阳,贾爱霞,冯岩松,赵东岩
    2014, 50(1):  1-8. 
    摘要 ( )   PDF (1000KB) ( )  
    相关文章 | 计量指标
    为了更好地对新闻和用户进行建模, 将语义相似度模型引入基于内容的推荐系统中, 挖掘两者之间的语义关联。提出一种基于本体结构的相似度模型(OBSM), 利用在线百科构建的本体结构, 计算新闻和用户之间的语义相似度。为了降低本体结构上噪音数据对推荐效果带来的影响, 提出X-Ontology聚类算法对本体结构进行清理, 并衍生出OBSM的升级模型X-OBSM。中文和英文实验表明, OBSM和X-OBSM比基准模型具有更好的推荐效果, 尤其是对本体结构进行清理后, X-OBSM具有比OBSM更高的计算效率。
    面向微博短文本的细粒度情感特征抽取方法
    贺飞艳,何炎祥,刘楠,刘健博,彭敏
    2014, 50(1):  48-54. 
    摘要 ( )   PDF (447KB) ( )  
    相关文章 | 计量指标
    结合TF-IDF方法与方差统计方法, 提出一种实现多分类特征抽取的计算方法。采用先极性判断, 后细粒度情感判断的处理方法, 构建细粒度情感分析与判断流程, 并将其应用于微博短文本的细粒度情感判断。通过NLP&CC2013评测所提供的训练语料对该方法有效性进行验证, 结果表明该方法具有较好的抽取效果。
    基于句法分析的跨语言情感分析
    陈强,何炎祥,刘续乐,孙松涛,彭敏,李飞
    2014, 50(1):  55-60. 
    摘要 ( )   PDF (475KB) ( )  
    相关文章 | 计量指标
    利用句法分析模型, 将语句分成若干组合词, 根据组合词的主谓成分中情感词对于句子情感贡献的不同, 分别赋予不同的权重。统计分析该语句的情感分布特征, 利用得到的特征参数训练分类器, 再将训练好的分类器用于测试语料的情感分类。实验结果表明, 与已有的判别方法相比, 该方法的情感分类判别准确率较理想。此方法也可用于语句的比较级判别和否定句的极性判断等。
    基于社会关系网络的半监督情感分类
    薛云霞,李寿山,王中卿
    2014, 50(1):  61-66. 
    摘要 ( )   PDF (482KB) ( )  
    相关文章 | 计量指标
    基于样本的社会关系, 提出一种新的半监督学习方法, 创建一种基于文档?词及社会关系的二部图模型, 并根据标签传播算法将未标注样本加入到分类器的构建中。实验结果表明, 加入社会关系网络的半监督情感分类方法明显优于传统的仅利用评论文本信息的半监督情感分类方法。
    中文微博实体链接研究
    朱敏,贾真,左玲,吴安峻,陈方正,柏玉
    2014, 50(1):  73-78. 
    摘要 ( )   PDF (497KB) ( )  
    相关文章 | 计量指标
    针对2013年CCF自然语言处理与中文计算会议(NLP&CC2013)中文微博实体链接的任务, 使用CCF提供的新浪微博数据作为训练和测试数据, 利用西南交通大学耶宝智慧中文分词平台作为自然语言预处理工具, 提出一种实体链接的方法。该方法应用改进的拼音编辑距离算法和后缀词表匹配法, 提出实体聚类消歧与基于百度百科词频的同类实体消歧相结合的消歧方法。在2013年CCF 中文微博实体链接评测任务中正确结果的准确率为0.8838, 在10 个参赛队伍中名列第3位。表明该方法有效并可以适应文本中的噪声。
    多策略中文微博细粒度情绪分析研究
    欧阳纯萍,阳小华,雷龙艳,徐强,余颖,刘志明
    2014, 50(1):  67-72. 
    摘要 ( )   PDF (499KB) ( )  
    相关文章 | 计量指标
    针对中文微博用户的情绪分析问题, 提出一种基于多策略融合的细粒度情绪分析方法。首先采用朴素贝叶斯算法对微博的有无情绪分类问题进行研究, 然后构建有情绪微博的21维特征向量, 最后采用SVM和KNN算法对微博进行细粒度情绪分析。以新浪微博作为实验对象, 结果表明多策略集成方法好于单一分类 算法。在多策略集成方法中, “NB+SVM”方法略优于“NB+KNN”方法。
    基于情绪因子的中文微博情绪识别与分类
    张晶,朱波,梁琳琳,侯敏,滕永林
    2014, 50(1):  79-84. 
    摘要 ( )   PDF (528KB) ( )  
    相关文章 | 计量指标
    以情绪因子中的常用情绪词和情绪短语为基础构建情绪词典, 并针对特殊的情绪表达形式, 结合标点符号和表情符号在情绪分析中的功能, 建立情绪规则库。通过对情绪词典和情绪规则的匹配和计算, 实现对中文微博情绪的识别和分类, 并在2013年CCF第二届自然语言处理与中文计算会议中文微博情绪分析评测中取得较好成绩。测试结果证明该方法有效。
    面向知识库的中文自然语言问句的语义理解
    许坤,冯岩松,赵东岩,陈立伟,邹磊
    2014, 50(1):  85-92. 
    摘要 ( )   PDF (493KB) ( )  
    相关文章 | 计量指标
    设计从自然语言问句到结构化查询的转换框架。该方法从自然语言问句的句法结构入手, 提出一套启发式识别实体与关系的方法, 并利用语料库建立从实体到知识库的映射, 对谓词进行消歧, 进而转化为计算机可理解的结构化查询语言。从百度知道抽取人物、地点、组织3类共 42 个问题作为标准测试集。实验结果表明, 所提出的框架能够有效地将中文自然语言问句转换为结构化查询, 为下一代智能问答系统打下良好的基础。
    语义特征在评价对象抽取与极性判定中的作用
    周红照,侯明午,颜彭莉,张叶青,侯敏,滕永林
    2014, 50(1):  93-99. 
    摘要 ( )   PDF (631KB) ( )  
    相关文章 | 计量指标
    提出与评价对象抽取相关的7类语义特征: 评价触发词、评价消解词、评价对象绝缘词、后指动词、前指动词、心理动词和指向定语的评价名词, 以及与极性判定相关的5类语义特征: 褒义性名词、贬义性名词、语义偏移型名词、度量衡形容词和语义构式。从引入语义特征的必要性以及如何使用这些特征两方面进行阐述。实验证明, 语义特征的引入有助于提高评价对象抽取及极性判断的准确率。
    基于Deep Learning的代词指代消解
    奚雪峰,周国栋
    2014, 50(1):  100-110. 
    摘要 ( )   PDF (589KB) ( )  
    相关文章 | 计量指标
    针对指代消解一直是自然语言处理中的核心问题, 提出一种利用DBN (deep belief nets)模型的Deep Learning 学习机制进行基于语义特征的指代消解方法。DBN模型由多层无监督的RBM (restricted Boltzmann machine)网络和一层有监督的BP (back-propagation)网络组成, RBM网络确保特征向量映射达到最优, 最后一层 BP 网络可以对RBM网络的输出特征向量进行分类, 从而训练指代消解分类器。在 ACE04 英文语料及ACE05中文语料上进行测试, 实验结果表明, 增加RBM训练层数可以提高系统性能。此外, 引入对特征集 合的抽象分层因素, 也对系统性能的提升产生积极作用。
    汉语隐式篇章关系识别
    孙静,李艳翠,周国栋,冯文贺
    2014, 50(1):  111-117. 
    摘要 ( )   PDF (532KB) ( )  
    相关文章 | 计量指标
    采用一个自建的汉语篇章结构语料库(隐式关系占80%)进行隐式关系识别。语料中将篇章关系分成3个层次, 第一层包含因果、并列、转折、解说四大类。在此语料上, 利用上下文特征、词汇特征、依存树特征, 采用最大熵的分类方法对四大类关系进行识别。实验结果显示, 总正确率为62.15%, 其中并列类识别效果最好, F1值达到75.26%。
    一种无监督的中文漫画对白自动定位方法
    刘冬,李鹿原,王勇涛,汤帜
    2014, 50(1):  25-32. 
    摘要 ( )   PDF (3419KB) ( )  
    相关文章 | 计量指标
    针对中文漫画图像的特点, 提出一种无监督的中文漫画图像对白自动定位方法, 以满足中文漫画移动阅读的需求。不同于现有基于学习的方法, 该方法不需要训练集, 且具有较强的鲁棒性, 主要包括3个步骤: 1) 利用包围漫画图像文字的空白区域(气泡)的连通性进行气泡检测, 并在气泡中检测完整字符对; 2) 基于字符形状与字符排版规则的一致性, 聚类形成字符行或字符列, 并提取字体特征; 3) 联合多页漫画图像字体特征, 利用贝叶斯分类器检测多页漫画中的剩余字符。在包含900页漫画图像的数据集上进行实验, 结果表明, 该方法可以有效定位中文漫画图像中的对白区域, 取得比较满意的实验结果。
    C-TERN: 一种基于CFSA的军事新闻文本时间信息处理算法
    王伟,赵东岩,苏婷婷
    2014, 50(1):  9-16. 
    摘要 ( )   PDF (506KB) ( )  
    相关文章 | 计量指标
    提出一种基于层叠有限状态自动机(CFSA)的中文军事文本时间表达式识别与规范化算法C-TERN。C-TERN首先利用成熟的分词工具识别出文本中的时间词, 然后将从通用语言和军事语言中提取的时间表达式规则分成多层, 逐层进行时间信息的精细识别。在规范化过程中, 通过4个步骤分别对特殊时间表达式、简单时间表达式、时间段表达式和绝对/相对时间表达式进行推理计算和规范化。算法考虑了规则集提取的正确性、规则之间冲突的消解以及匹配方式的合理性。在多个数据集上的实验结果显示, C-TERN不但能有效地识别标准时间、偏移时间和不确定性时间表达式, 而且能完成对简单、特殊以及隐含的时间点、时间段和偏移时间的推理与规范化, 能够满足军事文本时间信息处理的需要。
    基于清华汉语树库的复句关系词识别与分类研究
    李艳翠,孙静,周国栋,冯文贺
    2014, 50(1):  118-124. 
    摘要 ( )   PDF (426KB) ( )  
    相关文章 | 计量指标
    根据清华汉语树库的标注方法, 利用规则从中提取复句关系词并标注其类别, 然后分别抽取带功能标记和不带功能标记的自动句法树的句法、词法、位置特征, 进行复句关系词的识别和分类。实验结果表明, 复句关系词判断准确率达95.7%, 复句关系词类别判断F1值为77.2%。
    基于最大熵的汉语篇章结构自动分析方法
    涂眉,周玉,宗成庆
    2014, 50(1):  125-132. 
    摘要 ( )   PDF (494KB) ( )  
    相关文章 | 计量指标
    在标有复句逻辑语义关系的清华汉语树库上, 研究汉语篇章语义片段自动切分以及篇章关系的自动标注方法。通过比较不同序列标注模型对汉语篇章语义单元切分的性能, 提出基于最大熵模型的汉语篇章结构分析方法。实验结果表明, 篇章语义单元自动切分的F值能达到89.1%, 当篇章语义结构树的高度不超过6层时, 篇章语义关系标注的F值为63%。
    基于推理线索构建的事件关系识别方法
    马彬,洪宇,杨雪蓉,姚建民,朱巧明
    2014, 50(1):  133-141. 
    摘要 ( )   PDF (521KB) ( )  
    相关文章 | 计量指标
    利用同一话题下的事件元素在话题内的分布特性以及事件元素在话题演化过程中的语义依存规律, 提出基于推理线索构建的事件关系识别方法。实验结果显示, 相比于基于核心词和实体推理的事件关系识别方法, 所提出的方法在F值上获得9.57%的性能提升。
    维吾尔语大词汇语音识别系统识别单元研究
    努尔麦麦提.尤鲁瓦斯,吾守尔.斯拉木,热依曼.吐尔逊
    2014, 50(1):  149-152. 
    摘要 ( )   PDF (405KB) ( )  
    相关文章 | 计量指标
    维吾尔语是一种黏着语, 单词不太适合作为维吾尔语大词汇连续语音识别系统识别单元。针对维吾尔语大词汇连续语音识别系统中的识别单元选择问题, 设计更适合维吾尔语的子词识别单元, 提出维吾尔语单词和子词相结合的组合识别单元构建方法, 并对单词、子词和组合识别单元的语言模型和语音识别性能进行评价。实验结果表明, 所提出的识别单元在单元数量、语言模型复杂度等方面表现出更加优越的性能, 并且使识别系统的单词错误率比基于单词的系统相对减少22%。
    藏文文本自动校对方法及系统设计
    珠杰,李天瑞,刘胜久
    2014, 50(1):  142-148. 
    摘要 ( )   PDF (535KB) ( )  
    相关文章 | 计量指标
    以藏文音节拼写检查、梵音转写藏文检查、接续关系检查、词语检查为研究内容, 提出藏文文本自动校对框架和接续关系检查算法。根据该框架及算法, 设计并实现藏文自动校对系统。通过实验证明算法和系统的可靠性和有效性。
    基于特征加权的汉字点笔画生成研究
    栗青生,熊晶,吴琴霞,杨玉星
    2014, 50(1):  153-160. 
    摘要 ( )   PDF (565KB) ( )  
    相关文章 | 计量指标
    针对汉字字形设计和开发的困难, 提出基于特征点抽象的汉字字形描述方法和汉字字形生成方法, 研究特征点、特征表达式、特征点的权值和权矢量等在汉字字形生成中的应用技术和方法, 并以点的生成为例, 设计汉字点笔画的生成算法, 并进行验证实验。实验结果证明该算法可靠并实用, 可切实提高汉字字形设计的效率, 为汉字其他笔画的生成提供一种解决方案。
    基于语义构件的甲骨文字库自动生成技术研究
    吴琴霞,栗青生,高峰
    2014, 50(1):  161-166. 
    摘要 ( )   PDF (496KB) ( )  
    相关文章 | 计量指标
    针对甲骨文字形多变、异体字多等特点, 通过对甲骨字的构成分析, 提出一种基于语义构件的甲骨文字库自动生成方法。该方法以动态描述库为基础, 通过算法提取甲骨字的构件特征信息, 重组笔元生成语义构件, 再给语义构件加上特征描述生成构件知识库。通过仿射变换重复使用语义构件自动生成任意甲骨字。实验表明, 该方法能有效解决甲骨文无字库输入的实现, 还可以解决甲骨字编码、构件统计、未释字的考释等。
    基于加权词汇衔接的文档级机器翻译自动评价
    贡正仙,李良友
    2014, 50(1):  173-179. 
    摘要 ( )   PDF (450KB) ( )  
    相关文章 | 计量指标
    在文档词汇衔接评价LC方法的基础上, 提出基于权重的LC, 即WLC, 该方法通过在文档词图上运行PageRank算法获得词汇权重。根据词性信息使得PageRank算法偏向特定的词汇, 并提出PWLC方法。实验表明, 在文档级别上, 所提出的两种方法与人工评价的相关度都优于LC; 融合两种方法后, BLEU和TER在文档级别上的评价性能有显著提高。
    基于翻译日志的统计机器翻译模型剪枝
    刘凯,吕雅娟,姜文斌,刘群
    2014, 50(1):  167-172. 
    摘要 ( )   PDF (399KB) ( )  
    相关文章 | 计量指标
    提出一种基于翻译日志的统计机器翻译模型的剪枝方法。该方法利用翻译规则在翻译日志中的命中频数对机器翻译规则进行过滤, 保留当前机器翻译模型所需的最小规则表。实验表明, 该方法能够在仅保留原有模型1%~3%翻译规则的前提下达到原有模型的翻译效果。
    日语时间表达式识别与日汉翻译研究
    赵紫玉,徐金安,张玉洁,刘江鸣
    2014, 50(1):  180-186. 
    摘要 ( )   PDF (482KB) ( )  
    相关文章 | 计量指标
    基于自定义知识库, 提出一种知识库强化规则集以及与统计模型相结合的日语时间表达式识别方法,旨在不断提高时间表达式的识别精准度。按照Timex2标准对时间表现的细化分类, 结合日语时间词的特点, 渐进地扩展重构日语时间表达式知识库, 实现基于知识库获取的规则集的优化更新。同时, 融合条件随机场CRF统计模型, 提高日语时间表达式识别的泛化能力。通过考察基于短语的翻译模型翻译时间词的精度, 提出统计机器翻译(SMT)结合规则翻译日语时间词的必要性。实验结果显示, 日语时间表达式识别的开放测试F1值达到0.8987, 基于《日汉时间词平行字典》与规则的翻译精度和召回率都略高于基于统计机器翻译模型。
    基于隐主题马尔科夫模型的多特征自动文摘
    刘江鸣,徐金安,张玉洁
    2014, 50(1):  187-193. 
    摘要 ( )   PDF (474KB) ( )  
    相关文章 | 计量指标
    基于隐主题马尔科夫模型, 消除LDA主题模型的主题独立假设, 使得文摘生成过程中充分利用文章的结构信息, 并结合基于内容的多特征方法提高文摘质量。提出在不破坏文章结构的前提下, 从单文档扩展到多文档的自动文摘策略, 最终搭建完善的自动文摘系统。在DUC2007标准数据集上的实验证明了隐主题马尔科夫模型和文档特征的优越性, 所实现的自动文摘系统ROUGE值有明显提高。
    面向话题的新闻综述报告自动生成研究
    路璐,李涓子,侯磊,张蓝姗
    2014, 50(1):  194-200. 
    摘要 ( )   PDF (599KB) ( )  
    相关文章 | 计量指标
    利用新闻事件的话题、实体及其关联和发展趋势分析, 建立对新闻事件分析报告模型。该模型可以从多个角度描述新闻事件, 并依照新闻综述报告的写作特点, 制定出一种计算机自动分析报告生成的框架, 对新闻事件在话题和实体上的分析结果进行组合, 自动生成一篇观点分析透彻、图表信息生动准确的新闻事件分析报告。