北京大学学报自然科学版

张静杰,昝红英

2013, 49(1): 165-169.

摘要 ( )

PDF (420KB) ( )

相关文章 | 计量指标

首先对副词“都”分别进行基于规则和基于统计两种方法的用法自动识别研究, 并具体分析它们的优点和不足, 然后尝试了规则与统计相结合的方法。3种方法的准确率分别为82%, 89.62%和98.54%, 实验数据表明, 采用规则和统计相结合的方法使副词“都”用法的自动识别取得较好的效果。

语料库自然标注信息与中文分词应用研究

饶高琦,修驰,荀恩东

2013, 49(1): 140-146.

摘要 ( )

PDF (361KB) ( )

相关文章 | 计量指标

以中文分词为应用目标, 将大规模语料库上存在的自然标注信息分为显性标注信息与隐性标注信息, 分别考察了它们的分布和对大数据集上语言计算的影响。结果表明, 两者都直接或间接地表达了作者对语言的分割意志, 因而对分词具有积极的影响。通过词语抽取测试, 发现在缺乏丰富显性标注信息的文本中, 来自语言固有规律的自然标注信息对字符串有着强大的分割性能。

适用于大规模文本处理的动态密度聚类算法

李霞,蒋盛益,张倩生,朱靖

2013, 49(1): 133-139.

摘要 ( )

PDF (524KB) ( )

相关文章 | 计量指标

针对传统的基于密度的聚类算法对海量数据处理时, 存在参数输入复杂及时间复杂度高的问题, 给出新的密度定义方法, 并在此基础上提出一种只需一个简单输入参数就能动态识别密度不均匀聚类簇的聚类算法, 同时将其扩充为可以处理海量数据的两阶段动态密度聚类算法。在人造数据集、大规模数据集以及中英文文本语料数据集上的实验表明, 所提出的算法具有输入参数简单和聚类效率高的特点, 可以应用于海量文本数据的聚类处理。

基于MapReduce的中文词性标注CRF模型并行化训练研究

刘滔,雷霖,陈荦,熊伟

2013, 49(1): 147-152.

摘要 ( )

PDF (448KB) ( )

相关文章 | 计量指标

针对条件随机场模型面对大规模数据传统训练算法单机处理性能不高的问题, 提出一种基于MapReduce框架的条件随机场模型训练并行化方法, 设计了条件随机场模型特征提取及参数估计的并行算法, 实现了迭代缩放算法的并行。实验表明, 所提出的并行化方法在保证训练结果正确性的同时, 大大减少了训练时间, 效率得到较大提升。

基于排序学习的文本概念标注方法研究

涂新辉,何婷婷,李芳,王建文

2013, 49(1): 153-158.

摘要 ( )

PDF (1361KB) ( )

相关文章 | 计量指标

提出一种基于排序学习的方法CRM (concept ranking model), 来实现文档的维基百科概念自动标注。首先人工对一定规模的文档进行概念标注, 建立训练集合, 然后利用排序学习算法在多项特征上得到对概念排序的模型, 利用这个概念的排序模型对任意文档进行概念标注。实验表明, 相对于传统的文档概念标注方法, 此方法在各类指标上都有相当大的提高, 标注结果更加接近人类的概念标注。

面向专利文献的汉语分词技术研究

岳金媛,徐金安,张玉洁

2013, 49(1): 159-164.

摘要 ( )

PDF (480KB) ( )

相关文章 | 计量指标

针对专利文献专业术语多、领域广的特点, 采用基于领域词典与统计相结合的方法探讨了专利文献的汉语分词问题。利用NC-value算法抽取专业术语, 使用条件随机场模型(CRF)提高专业术语识别率, 提高分词精度。实验结果表明, 提出的方法在开放测试下分词的准确率为95.56%, 召回率为96.18%, F值为95.87%, 大大提高了专利文献的分词精度。

基于协同图排序的对比新闻自动摘要

黄小江,万小军,肖建国

2013, 49(1): 31-38.

摘要 ( )

PDF (567KB) ( )

相关文章 | 计量指标

采用协同图排序模型, 为两个可比的新闻话题自动生成对比摘要。利用一个话题内句子之间的相似性, 以及不同话题中句子之间的对比性, 采用迭代增强的方法, 同时计算两个话题中每个句子的重要程度, 并考虑信息的新颖程度, 选择适当的句子组成对比摘要。实验结果表明了该方法的有效性。

基于话题分布相似度的无监督评论词消歧方法

郭瑛媚,史晓东,陈毅东,高燕

2013, 49(1): 95-101.

摘要 ( )

PDF (530KB) ( )

相关文章 | 计量指标

基于话题信息、词的位置关系和互信息等特征, 提出一种无监督的跨语言词义消歧算法。该算法仅利用在线词典和web搜索引擎, 通过上下文信息选择评论句中多义评论词的词义。实验结果表明, 所提出的词义消歧算法具有较高准确率, 对于具有较多候选词义的评论词仍能表现出较好的性能。

基于主题情感混合模型的无监督文本情感分析

孙艳,周学广,付伟

2013, 49(1): 102-108.

摘要 ( )

PDF (462KB) ( )

相关文章 | 计量指标

针对有监督、半监督的文本情感分析存在标注样本不容易获取的问题, 通过在LDA模型中融入情感模型, 提出一种无监督的主题情感混合模型(UTSU模型)。UTSU模型对每个句子采样情感标签, 对每个词采样主题标签, 无须对样本进行标注, 就可以得到各个主题的主题情感词, 从而对文档集进行情感分类。情感分类实验对比表明, UTSU模型的分类性能比有监督情感分类方法稍差, 但在无监督的情感分类方法中效果最好, 情感分类综合指标比ASUM模型提高了约2%, 比JST模型提高了约16%。

基于语义依存线索的事件关系识别方法研究

马彬,洪宇,杨雪蓉,姚建民,朱巧明

2013, 49(1): 109-116.

摘要 ( )

PDF (536KB) ( )

相关文章 | 计量指标

以事件为基本语义单元, 基于事件的篇章结构信息及语义特征, 通过分析事件的语义依存关系及其在演化过程中的语义依存规律, 提出基于语义依存线索的事件关系识别方法, 实现事件语义关系的浅层检测: 判定事件之间是否存在语义关系。实验结果显示, 相比于传统的基于语义相似度的识别方法, 新提出的基于事件语义依存线索的事件关系识别方法获得了5%的性能提升。

面向自动文摘的主题划分方法

童毅见,唐慧丰

2013, 49(1): 39-44.

摘要 ( )

PDF (384KB) ( )

相关文章 | 计量指标

对当前主题划分方法进行了分类, 对主题划分算法TextSegFault (TSF)做了相关改进。根据文本的类型, 从TSF算法和改进的TSF算法中选择其一来进行主题划分, 以适应自动文摘任务的需要。实验结果表明, 引入本文的主题划分方法能有效地解决传统自动文摘方法造成的主题确实和主要主题冗余的问题, 使文摘的结构平衡化。

词语对齐的快速增量式训练方法研究

罗维

2013, 49(1): 88-94.

摘要 ( )

PDF (454KB) ( )

相关文章 | 计量指标

围绕翻译模型构建流程的瓶颈??词语对齐, 着手翻译模型的增量式训练。在基于无监督学习的词语对齐模型的基础上, 提出一种基于初始化同时应用迭代训练收敛速度更快的online EM算法, 以替换通常所用的batch EM算法, 实现增量式训练。实验表明, 所提出的方法既高效又能保证词语对齐质量和机器翻译质量。

汉语句类依存树库的构建研究

王慧兰

2013, 49(1): 25-30.

摘要 ( )

PDF (388KB) ( )

相关文章 | 计量指标

以机器翻译领域为应用目标, 以概念层次网络理论的语义网络和句类分析方法为理论基础, 探讨句类依存树库构建的理论和标注实践等问题。详细描述了构建树库所需的概念类别标注集和句类关系标注集, 并给出了句类依存树样例。

汉语并列关系的识别研究

郑略省,吕学强,刘坤,林进

2013, 49(1): 20-24.

摘要 ( )

PDF (452KB) ( )

相关文章 | 计量指标

针对汉语并列关系的标注方式, 提出一种基于条件随机场模型的并列关系自动识别方法。从语料库中自动抽取并列关系的角色信息, 进行角色标注, 在条件随机场模型的基础上实现并列关系的识别。与基于图的依存分析方法比较, 并列关系的召回率和正确率分别提高了9.1%和13.8%。

汉语并列复句的自动识别方法

吴云芳,石静,万富强,吕学强

2013, 49(1): 1-6.

摘要 ( )

PDF (494KB) ( )

相关文章 | 计量指标

针对汉语句际关系中分布最广泛的并列复句, 提出一种自动识别的方法。通过对句子语义相似度和结构相似度的计算, 使用基于词义的句子相似度计算、最大公共子串、最大谓词周边匹配长度、加重特定词语复现等方法, 在广义并列关系上进行评测。最后将其中3种方法进行集成, 并取得了较为理想的效果。

基于逗号的汉语子句识别研究

李艳翠,冯文贺,周国栋,朱坤华

2013, 49(1): 7-14.

摘要 ( )

PDF (462KB) ( )

相关文章 | 计量指标

根据篇章分析的任务和实践, 结合传统研究, 提出汉语的基本篇章单位为子句, 并从结构、功能、形式等方面给出其定义。分析了逗号与子句的关系, 并在标注语料上进行了基于逗号的汉语子句识别研究。首先手工标注了CTB6.0中前100篇文档的逗号是否为子句边界的信息, 在标注结果中抽取句法、词汇、长度等特征进行实验, 子句识别准确率为90%。然后利用信息增益选出贡献最大的9个特征, 使用它们也可获得较高的子句识别准确率。最后仅使用词法信息, 子句识别准确率可达84.5%。实验证明子句的定义合理, 基于逗号的子句识别在理论上和实验上均可行。

属性和属性值组合的概念模板

程显毅,施?,沈学华,田宇贺

2013, 49(1): 15-19.

摘要 ( )

PDF (445KB) ( )

相关文章 | 计量指标

基于本体抽取三元组〈概念, 属性, 属性值〉, 以词汇聚类为基础, 将概念表示为属性和属性值的组合向量, 对基于属性的概念模板和基于属性值的概念模板进行对比。研究发现, 基于属性和属性值组合的概念模板优于任何一个单独的模板。

版式电子文档表格自动检测与性能评估

房婧,高良才,仇睿恒,汤帜

2013, 49(1): 45-53.

摘要 ( )

PDF (677KB) ( )

相关文章 | 计量指标

针对版式电子文档的特点, 提出一种表格线分割符和表格文本的布局特征相结合的表格定位方法, 并且对中英文档均有效。此外, 针对缺少表格定位自动评估体系, 构建了一个初具规模的公开数据集, 由中英文版式页面等比例组成, 对其标注基准结果, 并针对移动阅读应用场景提出一套评估准则。通过与现有两个开源表格定位项目的比较, 验证了新提出的表格定位方法的有效性和评估体系的实用性, 特别是对中文数据集获得了较好的结果。

基于笔端形状相似性的汉字字体识别

王晓,吕肖庆,汤帜

2013, 49(1): 54-60.

摘要 ( )

PDF (521KB) ( )

相关文章 | 计量指标

提出一种基于笔端相似性的方法, 来解决在较大规模字体集上的单字符字体识别问题。该方法首先提取汉字笔画上的特定部位??笔端, 然后利用笔端形状作为汉字的字体特征, 对其进行识别。实验证明, 该方法不但在常用字体集合上的识别效果优于同类方法, 而且在扩展后的大字体集合上也能达到较高的识别率。

甲骨文字形动态描述库及其字形生成技术研究

栗青生,吴琴霞,杨玉星

2013, 49(1): 61-67.

摘要 ( )

PDF (859KB) ( )

相关文章 | 计量指标

基于甲骨文字形多变, 异体字多等特点, 提出一种甲骨文字形描述方法, 将甲骨文字形进行矢量描述。建立了甲骨文字形描述库, 通过字形描述库自动生成多种甲骨文字形, 有效地解决了由于使用轮廓字形描述甲骨文字形而存在的字形动态编辑和字形变换的困难, 为古文字的数字化编辑提供了一个新思路。

基于特征比较和最大熵模型的统计机器翻译错误检测

杜金华,王莎

2013, 49(1): 81-87.

摘要 ( )

PDF (413KB) ( )

相关文章 | 计量指标

首先介绍3种典型的用于翻译错误检测和分类的单词后验概率特征, 即基于固定位置的词后验概率、基于滑动窗的词后验概率和基于词对齐的词后验概率, 分析其对错误检测性能的影响; 然后, 将其分别与语言学特征如词性、词及由LG句法分析器抽取的句法特征等进行组合, 利用最大熵分类器预测翻译错误, 并在汉英NIST数据集上进行实验验证和比较。实验结果表明, 不同的单词后验概率对分类错误率的影响是显著的, 并且在词后验概率基础上加入语言学特征的组合特征可以显著降低分类错误率, 提高译文错误预测性能。

藏文音节规则模型及应用

珠杰,李天瑞,格桑多吉,仁青诺布,乔少杰

2013, 49(1): 68-74.

摘要 ( )

PDF (572KB) ( )

相关文章 | 计量指标

首先介绍藏文音节独特的构造方法, 以及藏文字母的语音特性带来的藏文组合形式上的诸多限制。然后以藏文音节为研究对象, 借助藏文语法规则, 建立现代藏文音节的简化模型和相应的规则库，并介绍其应用领域。最后提出一种基于音节模型的的藏文音节自动拼写算法, 并通过实验验证规则方法的有效性。

藏文数词识别与翻译

孙萌,华却才让,刘凯,吕雅娟,刘群

2013, 49(1): 75-80.

摘要 ( )

PDF (497KB) ( )

相关文章 | 计量指标

通过对藏文数词内部构词规律及外部边界信息进行分析, 提出对藏文数词基本构件定义的方案。采取最优路径决策模型判断数词构件边界, 然后通过有限自动机模型识别并翻译基本数词, 最后用模板匹配算法处理复杂数词。结果表明，提出的方法对数词识别与翻译的F值达到98.73%, 在藏汉机器翻译的测试集上的BLEU提高了2.64%。

基于社区节点重要性的社会网络压缩方法

李泓波,张健沛,杨静,白劲波,初妍,张乐君

2013, 49(1): 117-125.

摘要 ( )

PDF (1901KB) ( )

相关文章 | 计量指标

针对目前图压缩方法中存在的时间复杂度较高、依赖先验知识设定参数、需要调节的参数过多、压缩有损、忽视网络社区结构等问题, 提出基于社区节点重要性的社会网络压缩方法。该方法由基于贪婪策略的社区发现算法(GS)和社会网络压缩算法(SNC)两部分组成。GS算法采用拓扑势理论, 不但可以实现社区发现, 而且可挖掘出社区中的重要节点。SNC算法以网络社区为压缩对象, 在保持社区间的关联关系的前提下实现了无损压缩, 并可在必要时保留社区中的重要节点或基本结构。通过实验, 对方法的可行性和有效性进行了验证。

一种基于流形距离的中文语块聚类分析方法

雷霖,熊伟,景宁,肖建夫

2013, 49(1): 126-132.

摘要 ( )

PDF (535KB) ( )

相关文章 | 计量指标

将中文语块分析看做词在句子内部聚类并标记语块类别的过程, 建立了中文语块分析的聚类模型。首先构建词的语法功能空间, 使用ISOMAP方法重构词空间的低维流形嵌入, 进而考察词在低维空间中的分布情况。在使用层次聚类方法分析语块时, 使用流形上的距离替代传统的欧式距离, 在算法复杂度可以接受的范围内, 提高了语块分析效果。

当期目录