> 教育经验 > 什么是面向互联网的泰语-汉语双语语料获取及对齐方法研究介绍

什么是面向互联网的泰语-汉语双语语料获取及对齐方法研究介绍

什么是面向互联网的泰语-汉语双语语料获取及对齐方法研究介绍

《面向互联网的泰语-汉语双语语料获取及对齐方法研究》是依托昆明理工大学,由线岩团担任项目负责人的地区科学基金项目。

面向互联网的泰语-汉语双语语料获取及对齐方法研究项目摘要

双语语料库是双语信息处理的重要基础资源。泰国与我国政治经济交往密切,构建泰语-汉语双语语料库对泰语-汉语双语信息处理具有重要作用。本课题研究面向互联网的泰语-汉语双语语料获取、平行句对抽取、双语词汇抽取和词语对齐方法。首先,针对泰语和汉语新闻网页特点,结合泰语、汉语言知识,研究融合跨语言主题分析和狄利克雷过程的双语可比较语料获取方法;其次,融合泰语和汉语依存句法特征、词典互译特征,研究泰-汉双语平行句对和双语词汇迭代抽取方法;然后,在IBM 模型3相关特征基础上,融合泰语和汉语依存句法依存关系对齐特征,研究基于线性模型的泰-汉词语自动对齐方法。最后,基于以上方法,实现泰语-汉语语料获取及对齐系统,解决双语语料自动获取、平行句对抽取和自动词语对齐中的难点问题,构建泰-汉双语句子对齐语料库和词语对齐语料库。项目研究成果将为泰-汉双语理解提供语料资源,为进一步研究泰-汉双语自然语言处理奠定基础。

面向互联网的泰语-汉语双语语料获取及对齐方法研究结题摘要

双语语料库是机器翻译和双语信息检索的重要基础资源。本课题围绕泰语-汉语双语语料库构建问题,开展泰语-汉语双语可比较语料获取、平行句对抽取、双语词汇抽取和词语对齐方法研究。课题研究得了多项创新性研究成果:在国内外期刊发表论文14篇,其中SCI收录1篇,EI收录4篇,登记软件著作权1项。课题构建了8万余词的泰语-汉语双语词典,20万篇泰语-汉语可比较语料库,120万句对的泰语-汉语句子对齐语料库,以及10余词的词语对齐语料库。 在泰语语言分析工具方面,课题开展了泰语音节切分、词语切分、句子切分和词性标注研究,取得了很好切分和标注效果,为泰语-汉语双语语料库构建研究奠定了基础。课题针对可比较语料获取问题,提出了基于双语LDA主题模型的跨语言文本相似度计算方法,提高了可比较语料的召回率。 课题针对双语平行句对抽取问题,研究了单语和跨语言句子级的文本相似性度量方法,提出了结合词向量、句法结构和词序特征的多特征融合句子相似度计算方法;针对汉语-泰语句子相似度问题,提出了利用WordNet语义词典将汉语和泰语文本表示为中间语言,并基于中间语言计算汉语和泰语跨语言相似度的方法,为从汉语-泰语可比语料中抽取平行句对提供了方法。 课题针对词语对齐问题,利用汉语-泰语名词、动词分布的相似性,通过弱监督学习扩展方式,在中文语料中嵌入泰语的互译词、同类词、上义词,扩展生成跨语言语料,并基于生成的语料,研究了汉语-泰语双语词向量模型,取得了较好效果。 课题研究针对泰语词法分析方法、可比语料获取、平行句对抽取方法以及词对齐问题提出了新颖、有效的方法。借助于提出的方法,构建的汉语-泰语可比语料库、句子对齐语料库和词对齐语料库,为进一步开展泰语-汉语机器翻译、跨语言信息检索奠定了基础。