摘要:
尝试将依存树转化为短语结构树, 并基于规则的方法自动检测出人工标注结果中的错误。将该方法应用于已经过两遍人工校对的北京大学多视图依存树库, 从50275个句法树中发现1529处错误, 正确率为100%。进一步, 所有错误可以分为3个层次: 分词错误、词性与句法角色不符、句法角色错标。该方法可以有效提高依存树库的质量, 并且适用于各类型的依存树库。
中图分类号:
史林林, 邱立坤, 亢世勇. 基于规则的依存树库错误自动检测与分析[J]. 北京大学学报(自然科学版), 2016, 52(1): 58-64.
SHI Linlin, QIU Likun, KANG Shiyong. Rule-Based Detection and Analysis of Annotation Errors in Dependency Treebank[J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2016, 52(1): 58-64.