摘要: 针对汉语词法分析中分词、词性标注、命名实体识别三项子任务分步处理时多类信息难以整合利用,且错误向上传递放大的不足,该文提出一种三位一体字标注的汉语词法分析方法,该方法将汉语词法分析过程看作字序列的标注过程,将每个字的词位、词性、命名实体三类信息融合到该字的标记中,采用最大熵模型经过一次标注实现汉语词法分析的三项任务。并在 Bakeoff2007的 PKU 语料上进行了封闭测试,通过对该方法和传统分步处理的分词、词性标注、命名实体识别的性能进行大量对比实验,结果表明,三位一体字标注方法的分词、词性标注、命名实体识别的性能都有不同程度的提升,汉语分词的 F值达到了96.4%,词性标注的标注精度达到了95.3%,命名实体识别的 F值达到了90.3%,这说明三位一体字标注的汉语词法分析性能更优。 关键词: 汉语词法分析 最大熵模型 三位一体字标注 作者简介: 于江德,安阳师范学院计算机与信息工程学院。 胡顺义,安阳师范学院计算机与信息工程学院。 余正涛,昆明理工大学信息工程与自动化学院。 基金项目: 国家自然科学基金(60863011),河南省基础与前沿技术研究计划项目(112300410182),河南省教育厅科学技术研究重点项目(14A520077)。 (责任编辑:admin) |