摘要: 研究针对汉语(二语)教学会话体语料语义功能的检索需求,基于汉语国际教育动态语料库,探讨了一种语料库语言信息标注框架。围绕日常口语交际的主要目的以及教学范围,提出19类对答结构,刻画了引发语与应答语的基本形式。以此为基础,开展对答结构的自动识别算法研究,选取问候、感谢、祝贺、赞扬、介绍5个类别进行试验,实验测试在准确率和召回率上均取得较好的成绩。对答结构的标注框架对于会话体语料相关表达式的抽取具有较好的适应性,自动识别算法可用于语言信息的自动抽取以及语料库扩展应用软件研发等。 关键词: 汉语二语教学 标注框架 对答结构 语义功能 自动识别 作者简介: 杨丽姣,北京师范大学中文信息处理研究所。 熊文,中国专利信息中心。 徐丽芳,同方知网(北京)技术有限公司。 基金项目: 国家高技术研究发展计划(863计划)“海量文本多层次知识表示及中文文本理解应用系统研制”(2012AA011104)。 (责任编辑:admin) |