> 教育经验 > 什么是基于数据驱动的中文自然语言生成关键技术研究介绍

什么是基于数据驱动的中文自然语言生成关键技术研究介绍

什么是基于数据驱动的中文自然语言生成关键技术研究介绍

《基于数据驱动的中文自然语言生成关键技术研究》是依托北京邮电大学,由袁彩霞担任项目负责人的青年科学基金项目。

基于数据驱动的中文自然语言生成关键技术研究项目摘要

如何让计算机生成人类可以理解的语言,是一个重要的科学问题,同时也是实现人机自然交互、机器翻译、文本摘要等任务的重要技术手段。本课题以中文自然语言生成为具体任务,探索语言理解过程中的形式化理论及统计学习方法在语言生成中的应用,为提升现有语言生成技术的可重用性及鲁棒性、降低系统开发代价寻求有效途径。研究内容包括:

1、基于上下文无关语法的生成空间描述,借鉴语言理解中的句法分析方法,自动构建以语言生成为目的的概念短语层级树;

2、基于噪声信道模型的生成决策规划,进行深层结构及表层结构的统一实现,充分利用基于知识驱动的语言模型及基于动态规划的解码算法的概率特性及领域无关特性,提高系统的可重用性及鲁棒性;

3、针对中文自然语言生成系统的评测数据及评测技术研究,研制并开放一套用于汉语语言生成技术评测的标准数据及基础工具,为汉语语言生成技术提供科学一致的评测方法。

基于数据驱动的中文自然语言生成关键技术研究结题摘要

目前,主流的自然语言生成(NLG)技术普遍面临缺少良好的形式化方法、领域可重用性及鲁棒性差等挑战。本课题旨在探索语言理解过程的形式化理论及方法在语言生成中的应用,重点研究基于概率上下文无关文法(PCFG)的汉语自然语言生成技术,具体地,采用概率上下文无关文法对语义项及其对应自然语言句子描述之间的隐藏关系进行编码,对于输入的语义项,自然语言生成问题就转化为如何解码得到最优句法树的问题。这一研究思想不仅提供了一种有效的自然语言生成的形式化方法,而且有效提高了自然语言生成系统的可重用性及鲁棒性,同时,为其它基于数据驱动的自然语言生成技术的进一步研究打下了扎实的基础。三年来,本项目严格按照计划执行,课题总体进展顺利,达成预期的研究目标。特别是:

(1)在语言生成过程形式化方面,借鉴语言理解的形式化理论,提出了基于决策森林的生成空间表示方法与基于概率上下文无关文法的生成过程形式化方法,通过自动归纳获取用于语言生成的PCFG规则,将生成过程表示为定义良好的、包含概念、短语、词汇多层级的决策森林;(2)在生成决策优化方面,提出了一种可以融合多元特征的解码算法,同时完成句子规划与表层实现,充分利用从大量无标记语料习得的语言模型知识、语义项之间的结构依赖关系、词组之间的长距离相依关系,显著提高了生成的句子的质量;(3)在自然语言生成技术的评价方面,采用不同领域、不同风格及不同文本长度的5个评测数据,对生成系统进行了量化分析,评测表明,本课题的研究方法在确保生成高质量的自然语言的同时,可以有效提升系统的复用性及鲁棒性,极大降低系统的开发代价。经过三年的研究,我们在SIGGEN、CCL、NLPCC等重要国际国内会议和期刊上发表了论文10篇,已受理专利2项。