当期目录

        
    2015年 第51卷 第2期 刊出日期:2015-03-20
    语义知识库构建中的异常数据发现
    贺彬彬,邹磊,赵东岩
    2015, 51(2):  195-202. 
    摘要 ( )   PDF (739KB) ( )  
    相关文章 | 计量指标
    为了提高RDF知识库的数据质量, 提出RDF图数据的异常检测及其自动修复的方法。首先, 原创性地定义了基于图的条件函数依赖(GCFD), 能够将属性值和语义结构的依赖关系统一表示; 然后, 提出有效的算法框架以及优化策略, 挖掘RDF数据中的GCFD, 并给出异常数据的自动修复流程; 最后, 在真实的数据集上, 通过大量实验确认解决方案的可行性和优越性。
    北京大学学报
    流式文档到固定版式文档的可逆转换方法研究
    李宁,刘寅,梁琦,冯雪
    2015, 51(2):  203-212. 
    摘要 ( )   PDF (3825KB) ( )  
    相关文章 | 计量指标
    分析以往流式文档和固定版式文档一体化处理方法的局限, 提出一种可逆转换方法, 即将文档的转换信息记录于目标文档中, 以便用于源文档的重构。论述了可逆转换的原理、关键技术、实验结果以及技术优势。选择标文通(UOF)作为流式文档格式, CEBX作为固定版式文档格式, 利用该方法成功地实现标文通文档到CEBX文档的可逆转换, 实验结果表明, 该方法取得较好的效果。
    版面相似中文表单的分类方法研究
    王思萌,高良才,王悦涵,李平立,汤帜
    2015, 51(2):  213-219. 
    摘要 ( )   PDF (8513KB) ( )  
    相关文章 | 计量指标
    针对具有相似版面的中文表单, 提出一种简单有效的基于距离度量的表单分类方法, 该方法对表单的用户填写信息、布局信息和位置偏移分别进行距离度量, 并通过3种权重有效地降低用户填写信息的随机性、版面相似表单的布局一致性和位置抖动性对表单分类的影响。实验表明, 所提方法在多个中文表单图像库上的分类准确率达到90%以上, 比目前最新的表单分类方法有明显提高。
    利用URL-Key进行查询分类
    李雪伟,吕学强,董志安,刘克会
    2015, 51(2):  220-226. 
    摘要 ( )   PDF (460KB) ( )  
    相关文章 | 计量指标
    针对查询分类问题, 借助互联网中人工组织的分类网站领域URL, 利用URL-key在各个类别中使用的频度, 提出基于方差的领域URL-key识别方法, 利用机器翻译、拼音翻译和搜索结果反馈等技术对URL-key进行过滤, 构建领域URL-key。然后结合伪相关反馈技术, 选取URL-key为特征, 构建URL-key向量, 利用SVM对查询串进行分类。实验结果表明, 该方法不仅F值比对比方法提高7%, 而且资源的使用也远远小于对比方法, 提高了系统的时效性。
    一种基于查询加权的用户建模方法
    胡娟,白宇,蔡东风
    2015, 51(2):  227-233. 
    摘要 ( )   PDF (573KB) ( )  
    参考文献 | 相关文章 | 计量指标
    通过分析用户的查询日志, 模拟用户与搜索引擎之间的交互过程, 提出一种基于查询加权的用户建模方法。首先, 对查询日志进行会话分割; 然后, 利用会话中用户查询出现的次数、持续时间及所点击的URL排名等行为信息, 计算查询权重; 最后, 采用兴趣投票的方式, 完成用户模型的构建。在AOL (美国在线)查询日志数据集上的测试结果表明, 基于查询加权的用户建模方法在用户兴趣预测上取得较好的效果。
    基于自动编码特征的汉语解释性意见句识别
    贺宇,潘达,付国宏
    2015, 51(2):  234-240. 
    摘要 ( )   PDF (491KB) ( )  
    相关文章 | 计量指标
    提出一种基于自动编码特征的汉语解释性意见句识别的分类方法。首先从汽车和手机两个领域的产品评论中构造一个解释性意见语料库, 然后采用分类的方法进行解释性意见句识别。特别地, 采用自动编码技术表示和学习解释性意见句分类的词向量特征。最后, 在支持向量机框架下通过实验优选解释性词向量 维度, 并与一些传统特征表示方法进行比较。实验结果表明, 与传统的卡方、信息增益和TF-IDF及其组合方法相比, 自动编码特征的引入能有效提升汉语解释性意见句识别性能。
    面向书写教学的手写汉字图像笔画还原
    荀恩东,吕晓晨,安维华,孙燕南
    2015, 51(2):  241-248. 
    摘要 ( )   PDF (607KB) ( )  
    相关文章 | 计量指标
    为了实现智能化汉字书写教学, 提出一种手写汉字图像的笔画还原方法。首先提取手写汉字图像的骨架; 然后从知识工程的角度出发, 利用字形中稳定的拓扑信息, 消除骨架中的歧义变形; 最后利用A* 算法建立并求解手写汉字与相应模板汉字的字形相似度模型, 从而分割出手写汉字图像中的各个笔画, 并输出它们与模板汉字中各个笔画的对应关系。此方法的笔画还原结果可以应用于手写汉字规范性的自动化评判等场合。
    语料库语言学视角下的台湾汉字简化研究
    王博立,史晓东,陈毅东,任文瑶,阎思瑶
    2015, 51(2):  249-254. 
    摘要 ( )   PDF (488KB) ( )  
    相关文章 | 计量指标
    采用语料库语言学的研究方法, 论证台湾存在汉字简化的现象, 并分析台湾汉字简化的特点和影响因素。首先, 通过爬取台湾的新闻媒体、政府网站和博客, 建立台湾汉语语料库。然后, 借助语料库统计数据, 论证台湾民间存在对简笔俗字的使用偏好, 即台湾存在汉字简化的现象, 并进一步分析台湾汉字简化的若干特点。最后, 讨论台湾汉字简化的影响因素, 包括大陆简体字、汉字编码、中文输入法等。
    古典诗词动画自动生成研究
    阎思瑶,郑旭玲,史晓东,郑发魁
    2015, 51(2):  255-261. 
    摘要 ( )   PDF (1608KB) ( )  
    相关文章 | 计量指标
    以中国古典诗词为研究对象, 首次尝试将自然语言处理、计算诗学和计算机动画等相关研究成果相结合来解决古典诗词的动画自动生成。首先使用基于SVM和协同学习的分类器对古诗风格、题材以及时间进行自动判定。随后在使用Flash Actionscript 3.0脚本实现动画自动生成的基础上, 利用共现关系对生成的动画进行动画元件的补充, 并提出古诗场景划分方法。实验表明, 提出的方法初步解决了古典诗词的动画自动生成问题, 也为后继的相关研究提供了理论依据和实验基础。
    唐诗题材自动分类研究
    胡韧奋,诸雨辰
    2015, 51(2):  262-268. 
    摘要 ( )   PDF (509KB) ( )  
    相关文章 | 计量指标
    将文本分类技术引入唐诗研究。首先将唐诗按照题材分为爱情婚姻、边塞战争、交游送别、羁旅思乡、山水田园、咏史怀古和其他7类, 并据此提出唐诗题材自动分类模型。所选500首诗歌样本以《唐诗三百首》为基础, 并有所补充。采用向量空间模型(VSM)将唐诗文本转换为向量, 通过卡方检验进行词语特征选择, 最后基于朴素贝叶斯和支持向量机算法构造文本分类器, 取得较好的题材分类效果。此外, 还验证了作者关于题目、体制、作者等变量对题材分类产生影响的假设, 为相关诗歌本体研究提供了科学依据。
    基于MFCCG-PCA的语音情感识别
    陈炜亮,孙晓
    2015, 51(2):  269-274. 
    摘要 ( )   PDF (413KB) ( )  
    相关文章 | 计量指标
    针对语音情感值维度大、难处理的问题, 结合MFCC改进算法和PCA模型, 进行二次优化, 提出一种新的语音情感值提取模型MFCCG-PCA。多组实验表明, 相比一般的MFCC模型, MFCCG-PCA模型在语音情感识别方面的性能有较大提高。
    基于句法语义规则系统的比较句自动识别
    白林楠,胡韧奋,刘智颖
    2015, 51(2):  275-281. 
    摘要 ( )   PDF (452KB) ( )  
    相关文章 | 计量指标
    针对汉语比较句的自动识别, 提出一种基于句法语义规则的方法。将比较标记和比较结果做为识别比较句的关键因素, 归纳汉语比较句的类别, 书写比较句识别规则, 同时设计4个模型进行分类识别。实验结果表明, 规则系统可以有效地实现汉语比较句的句法分析和自动识别, 为比较关系的抽取打下良好的基础。
    基于自动编码器的短文本特征提取及聚类研究
    刘勘,袁蕴英
    2015, 51(2):  282-288. 
    摘要 ( )   PDF (557KB) ( )  
    相关文章 | 计量指标
    针对短文本的特点, 提出一种基于深层噪音自动编码器的特征提取及聚类算法。该算法利用深度学习网络, 将高维、稀疏的短文本空间向量变换到新的低维、本质特征空间。首先在自动编码器的基础上, 引入L1范式惩罚项来避免模型过分拟合, 然后添加噪音项以提高算法的鲁棒性。实验结果表明, 将提取的文本特征应用于短文本聚类, 显著提高了聚类的效果, 有效地解决了短文本空间向量的高维、稀疏问题。
    基于随机森林分类的微博机器用户识别研究
    刘勘,袁蕴英,刘萍
    2015, 51(2):  289-300. 
    摘要 ( )   PDF (718KB) ( )  
    相关文章 | 计量指标
    针对网络上机器用户大量散布谣言, 发布虚假信息, 误导网民舆论, 严重影响网络环境的问题, 以微博中的机器用户为研究对象, 结合其自动化程度高、伪装能力强、信息发布有针对性的特点, 从行为模式、微博内容、用户关系和发布平台4个维度分析机器用户的特征指标, 利用信息熵、内容重复率等8个指标构建微博用户的特征向量, 通过随机森林算法设计微博中机器用户的识别模型。最后, 在真实的新浪微博数据集上进行验证, 结果表明本模型识别机器用户的准确度达到96.7%, 可以有效地区分微博中的机器用户和普通用户。
    多策略同义词获取方法研究
    宋文杰,顾彦慧,周俊生,孙玉杰,严杰,曲维光
    2015, 51(2):  301-306. 
    摘要 ( )   PDF (881KB) ( )  
    相关文章 | 计量指标
    提出一种多策略同义词获取方法, 一方面利用《同义词词林》、《中文概念词典》等现有语义词典中蕴含的同义关系获取同义词, 另一方面根据百度百科信息框(Bdbk)中特征词和汉典网(Zdic)中HTML标记获取同义词, 同时采用DIPRE自动获取模式的方法, 从百度百科文本中发现置信度较高的模式和同义关系。实验结果表明, 所提方法在NLP&CC 2012同义词评测数据集中取得较好结果。利用该方法, 以《现代汉语语法信息词典》名词部分为目标, 构建一部同义词词典并进行人工校对, 为《现代汉语语法信息词典》构建较为完善的语义关系体系做出尝试。
    汉语篇章连接词识别与分类
    李艳翠,孙静,周国栋
    2015, 51(2):  307-314. 
    摘要 ( )   PDF (621KB) ( )  
    相关文章 | 计量指标
    基于自建的汉语篇章结构语料库以及语料库中连接词和连接词关系类别的标注, 抽取自动句法树和标准句法树的句法、词法和位置特征, 利用有监督的方法进行连接词识别和分类。实验结果表明, 连接词识别的F1值为69.2%, 连接词自动识别并分类的总正确率为89.1%。
    中文文本中评价对象省略识别方法
    朱珠,汪蓉,李寿山,周国栋
    2015, 51(2):  315-320. 
    摘要 ( )   PDF (404KB) ( )  
    相关文章 | 计量指标
    为了研究中文情感文本中评价对象省略现象的识别方法, 将评价对象省略识别建模为一个二元分类问题, 利用机器学习算法进行自动学习。探讨当前句位置无关特征、当前句位置相关特征和上下文相关特征对评价对象省略识别的作用。3个不同领域的实验结果表明, 新提出的基于机器学习的评价对象省略识别方法能够获得较好的识别效果。
    一个中文实体链接语料库的建设
    舒佳根,惠浩添,钱龙华,朱巧明
    2015, 51(2):  321-327. 
    摘要 ( )   PDF (7043KB) ( )  
    相关文章 | 计量指标
    鉴于现有中文实体链接基准语料库的缺乏, 在ACE2005中文语料库和中文维基百科的基础上, 通过自动构造和人工标注的方法, 构建一个中文实体链接语料库及其相关的中文知识库。与传统的英文实体链接语料库不同, 构造的中文实体链接语料库是基于实体而非单个实体指称(Mention)。中文实体链接语料库的构建, 将为中文实体链接研究提供一个可用的基准平台。
    面向词性标注的多资源转化研究
    高恩婷,巢佳媛,李正华
    2015, 51(2):  328-334. 
    摘要 ( )   PDF (568KB) ( )  
    相关文章 | 计量指标
    利用多资源转化方法进行词性标注研究, 旨在将源端资源的标注进行转化, 以符合目标端标注规范, 进而将转化后的资源与目标资源合并, 增大训练数据规模。做了两方面创新: 在转化过程中, 额外利用指导特征的置信度信息; 在转化后的资源中, 用模糊标注表示方法减少错误标注。实验表明, 利用置信度信息能有效帮助转化, 而模糊标注表示方法的影响不大。
    基于双语合成语义的翻译相似度模型
    王超超,熊德意,张民
    2015, 51(2):  335-341. 
    摘要 ( )   PDF (511KB) ( )  
    相关文章 | 计量指标
    提出基于双语合成语义的翻译相似度模型, 通过在翻译过程中引入双语语义相似度特征提高翻译性能。首先利用分布式方法分别在源端和目标端获取短语的单语合成语义向量, 然后利用神经网络将它们映射到同一语义空间, 获得双语合成语义向量。在该语义空间, 计算源语言短语和对应的目标语言短语之间基于合成语义向量的翻译相似度, 将其作为一个新特征加入解码器。在汉英翻译NIST06和NIST08测试数据集上, 相较于基准系统, 基于双语合成语义的翻译相似度模型获得0.56和0.42 BLEU值的显著性提高。
    使用源语言复述知识改善统计机器翻译性能
    苏晨,张玉洁,郭振,徐金安
    2015, 51(2):  342-348. 
    摘要 ( )   PDF (448KB) ( )  
    相关文章 | 计量指标
    为了缓解双语语料不足导致的翻译知识欠缺问题, 提出基于复述技术的翻译框架。此框架利用第三种语言获取带有概率的复述知识表, 以Lattice表示输入句子的多种复述形式, 扩展解码器使之可以对Lattice形式的输入进行解码, 将复述知识作为特征加入到对数线性模型的目标函数中。在保持原始翻译知识表不变的情况下, 此框架不仅可以增大短语翻译表对源语言现象的覆盖率, 也能够增加候选译文表现形式的多样性。在3个不同规模训练集上的对比实验结果表明, 在训练语料规模最小的情况下(10 K句对), 系统性能有明显提升(BLEU+1.4%); 在训练语料规模最大的情况下(1 M句对), 系统性能也取得一定提升(BLEU+ 0.32%)。
    面向中文专利SAO结构抽取的文本特征比较研究
    饶齐,王裴岩,张桂平
    2015, 51(2):  349-356. 
    摘要 ( )   PDF (525KB) ( )  
    相关文章 | 计量指标
    针对中文专利文本中SAO结构实体关系抽取问题, 使用支持向量机的机器学习方法进行关系抽取实验, 分别对基本词法信息、实体间距离信息、最短路径闭包树句法信息以及词向量信息等特征的有效性进行验证分析。实验结果表明, 基本的词法信息能够明显提高关系抽取性能, 而句法信息没有显著提高关系抽取效果。此外, 也验证了词向量在SAO结构关系抽取中的可行性。
    基于类别层次结构的多层文本分类样本扩展策略
    李保利
    2015, 51(2):  357-366. 
    摘要 ( )   PDF (785KB) ( )  
    相关文章 | 计量指标
    针对大规模多层文本分类训练样本获取代价高、类别分布不均衡等问题, 提出并比较几种基于类别层次结构的大规模多层文本分类样本扩展策略, 即利用类别层次体系中蕴含的类别名称、描述以及类别间的层次结构关系, 从内涵和外延两方面入手构造或扩展类别训练样本。在首次大规模中文新闻信息多层分类评测数据集上, 基于外延的局部样本扩展策略取得较好的性能。参测系统在第一级类别和第二级类别上宏平均F1分别为0.8413和0.7139, 在10个参赛系统中位列第二。
    一种结合有监督学习的动态主题模型
    蒋卓人,陈燕,高良才,汤帜,刘晓钟
    2015, 51(2):  367-376. 
    摘要 ( )   PDF (3346KB) ( )  
    相关文章 | 计量指标
    针对传统主题模型存在的不足, 提出一种新的结合有监督学习的动态主题模型(Supervised Dynamic Topic Model, S-DTM)。该模型不仅能够随时间的变化对语言进行动态建模, 而且结合有监督学习技术, 在主题变分推理中加入标签约束, 从而建立主题与标签之间的映射关系, 提高主题的表达解释能力。通过在一个跨越25年“以自然语言处理领域的中文期刊论文为主导”的中文语料库上的实验, 证明该模型相较于静态的有监督主题模型和无监督的动态主题模型, 具有更好的语义解释概括能力, 能更准确地反映文档的主题结构, 更精确地捕捉主题?词汇概率分布的动态演化。