登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 毕业论文 > 计算机类 > 软件工程 > 正文

面向中文-阿拉伯语机器翻译的分词与词对齐技术研究毕业论文

 2021-03-12 23:44:22  

摘 要

随着中国综合国力的日益增强,中国与全世界各国在经济,文化,政治等领域的交流愈来愈频繁,特别是随着中国战略“一带一路”的快速发展,中国与阿拉伯语国家的交流也日益密切。然而,现有的面向中文与阿拉伯语的机器翻译工具的性能表现与其他语言的相比,明显不能满足使用者的需求,一定程度上限制了中国与阿拉伯语国家交流。在机器翻译的过程中,语料库以及分词与词对齐技术对最终翻译质量起着决定性作用。基于此,本文研究在现有主流的语料库中找到一种优秀的、适用于中文与阿拉伯语机器翻译的双语语料库,比较并研究现有的面向中文与阿拉伯语的分词与词对齐技术,并据此提出一种新的混合式的词对齐方法,本文的主要研究内容包括:

1) 比较并分析主流的阿拉伯语与中文双语语料库,包括UN corpus 2016 v1(联合国2016官方文件的六门工作语言的第一版),Opus Corpus(奥斯陆大学开发的来源于互联网包含60国语言的句子水平对齐的语料库)等,从语言特点,实验需求等方面考虑,找出面向中文与阿拉伯语的能够更好用于机器翻译实验与研究的双语平行语料库。

2) 研究各种中文分词技术的原理,运行现有的数种中文分词工具,从时间与精确度等多角度比较这些不同中文分词工具的异同与优劣,并据此选取一个最优的中文分词工具进行中文语料的预处理。

3) 在机器翻译中使用GIZA ,Berkeley Aligner,Fast_align这三种较主流的词对齐工具,得到并比较其不同的词对齐文件。基于这三种词对齐工具的使用,提出一种通过文本间比较相似度来混合不同的词对齐文件的方法,并研究此种混合式词对齐方法对机器翻译性能(以通行的Bleu值为衡量标准)的影响。

本文主要针对中文对阿拉伯语的机器翻译选取了一个合适的语料库,并对主流的分词与词对齐技术进行了比较与选取,最后我们提出了一种混合式词对齐方法对面向中文与阿拉伯语的机器翻译的性能进行改进。从最终实验结果的Bleu值测量来看,我们的混合式词对齐方法可以将机器翻译的得分值与单一词对齐方法相比最多提升了1.2分,因此我们提出的是一个有效的混合式词对齐方法。

关键词:机器翻译,平行语料库,中文分词,词对齐技术

Abstract

With the increase of China’s national strength, the communication between China and the rest of the world in the economic, cultural, political and other fields is becoming more and more frequently, especially with the rapid development of "The Belt and Road Initiative", China and Arabic-speaking countries are also getting much closer in all fields. However, compared with the performance of existing machine translation tools between Chinese and other languages, the technology for Chinese and Arabic Machine Translation obviously can’t meet the needs of users. As a result,being unable to understand each other’s language becomes a barrier to the exchanges between China and Arabic countries. Meanwhile in the process of machine translation, corpus choice,word tokenization and word alignment play a decisive role in the final translation quality. Based on these above, this paper is aimed to find an excellent and proper bilingual corpus for the Chinese and Arabic machine translation, then we compare the performance of the mainstream Chinese word segmentation tools and accordingly choose the best tokenizer for the Chinese corpus then for the word alignment part, we use GIZA , Berkeley Aligner and Fast_align separately. Based on their output, we come up with hybrid word alignment method to improve the performance of machine translation, the main contents of this paper include:

1) We analyzed and compared mainstream bilingual corpus in Chinese and Arabic, including the UN corpus V1 2016 (the first edition of the 2016 United Nations official documents in its six working language), Opus Corpus (developed by University of Oslo containing aligned sentence level in 60 languages from the Internet).Then taking language characteristics and experimental requirements into consideration, we chose the most proper bilingual parallel corpus for the Chinese and Arabic Machine Translation experiment.

2) We operated on a number of mainstream Chinese segmentation tools, compare their pros and cons from the aspects of time consuming and segment accuracy, according to which we select the best-performance tokenizer to preprocess the Chinese corpus.

3) To get the word alignment files, we used GIZA , Berkeley, Aligner, and Fast_align, then analyze and compare their output. Based on the use of these three different kinds of word alignment tools, we proposed a new hybrid method to mix three word alignment files into one file through calculating and comparing the text’s similarity, then we how the performance of the Machine Translation is using different alignment methods. (use Bleu value as a measure ).

In this paper, we select a suitable corpus for the Chinses-Arabic machine translation, then we did experiments on the mainstream Chinese word segmentation and word alignment techniques were compared. Finally, we proposed a hybrid method of word alignment into the Chinese-Arabic machine translation and by using our hybrid method to align the words, the translation performance was improved. From the final results of the Bleu, our hybrid method of word alignment can lift machine translation's score 1.2 up compared to the baseline systems, so the hybrid word alignment method we proposed is effective and meaningful.

Key Words: Machine translation, Parallel corpus, Chinese word segmentation, Word alignment

目录

摘 要 I

Abstract II

第1章 绪论 1

1.1 研究背景及意义 1

1.1.1 研究背景 1

1.1.2 研究意义 1

1.2 相关技术研究现状 1

1.2.1 中文分词技术的研究现状 1

1.2.2 混合型词对齐技术的研究现状 2

1.3 本文主要研究内容及结构安排 2

第2章 中阿机器翻译系统中语料库的选取 4

2.1 现有主流的大型多语语料库的介绍与比较 4

2.2 面向中阿的机器翻译的实验语料库的选取 5

2.3 本章小结 5

第3章 中文分词技术的比较与选取 6

3.1 中文分词技术原理分析与比较 6

3.2 中文分词中的重难点分析 6

3.3 主流中文分词工具的测评与比较 7

3.4 本章小结 8

第4章 词对齐技术的工具的使用与对比 9

4.1 使用GIZA 进行词对齐 9

4.2 使用Berkeley Aligner进行词对齐 10

4.3 使用Fast_align进行词对齐 10

4.4 本章小结 11

第5章 混合式词对齐方法的提出及其影响 12

5.1 混合式词对齐方法的设计 12

5.2 混合式词对齐技术对机器翻译性能的影响 14

5.3 本章小结 15

6.1 本文工作总结与反思 16

6.2 下一步工作的方向与展望 16

参考文献 17

第1章 绪论

1.1 研究背景及意义

1.1.1 研究背景

近十年间在国内外, 机器翻译领域有了很大的扩展和应用,最新的成果比如谷歌在2016年9月发布的Google神经网路机器翻译系统(Google Neural Machine Translation)从使用循环神经网络来直接学习一个输入序列(如一种语言的一个句子)到一个输出序列(另一种语言的同一个句子)的映射和用基于短语的机器学习会将输入句子分解成词和短语,然后对其中大部分进行独立翻译进入到神经网络机器翻译的领域,后者将整个输入句子视作翻译的基本单元,优点是所需调整更少,并因此很快就在中等规模的公共基准数据集上达到了与基于短语的翻译系统不相上下的准确度[1]。而目前国内在机器翻译特别是中文分词工具开发方面,成果较为突出的有比如中科院计算所开发的中文分词工具ICTCLAS,哈尔滨工业大学开发的LTP(Language Technology Platform) 以及复旦大学NLP(Natural Language Processing)组的中英文统计型机器翻译模型开发等工作。

您需要先支付 80元 才能查看全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图