基于TensorFlow的文本翻译方法研究文献综述
2020-04-24 09:56:25
1.目的及意义
近几年来,随着国内“互联网 ”的倡议,诞生了众多商业创新和技术创新,然而科技界的聚光灯却时时被人工智能和深度学习所创造的一个个奇迹所占据着,从阿尔法狗肆虐围棋界到集成独立AI人工智能专用NPU神经网络处理单元移动芯片华为麒麟970,都预示着我们即将进入“AI ”的时代,而对于AI“质”与“量”的提升,离不开高性能计算平台的发展,更离不开算法的进步。而深度学习则成为了推动算法进步的主力军。TensorFlow作为谷歌开源的深度学习框架,包含了谷歌对于人工智能的探索和成功的商业应用。在TensorFlow框架中,构建文本翻译系统,可以系统全面的了解TensorFlow框架,学习循环神经网络。
1.1研究目的:
基于TensorFlow的文本翻译系统,是机器翻译的衍生,主要是对自然语言进行处理,实现文本翻译效果,通过对基于TensorFlow的文本翻译方法的研究,主要学习自然语言的表达模型,以及研究自然语言处理技术语法分析技术,信息检索和语义理解技术;同时重点研究TensorFlow开源框架下,基于深度学习方法的自然语言处理的理论与算法实现。
1.2研究现状:
在2016年,谷歌发布了基于TensorFlow框架下的GNMT:Google Neural Machine Translation System(谷歌神经机器翻译系统)。该系统采用了当下最先进的训练方法,能够实现到目前为止机器翻译质量的最大提升。其使用的循环神经网络(RNN:RecurrentNeural Networks),可以直接学习一个输入序列(如一种语言的一个句子)到一个输出序列(另一种语言的同一个句子)的映射。相较于采用的基于短语的机器学习(PBMT)将输入句子分解成词和短语,然后在很大程度上对它们进行独立的翻译,谷歌神经机器翻译(GNMT)则将输入的整个句子视作翻译的基本单元。其相比于之前的基于短语的翻译系统,这种方法所需的工程设计更少。精确度更高。
在国内,机器翻译似乎兴起的更早,早在2015年,百度发布的神经机器翻译 (NMT)系统,是世界上首个互联网NMT线上产品。其采用的是百度内部研发的深度学习框架PaddlePaddle。
目前,无论是谷歌翻译还是百度翻译,都采取了新型的神经机器翻译(NMT)系统。它们在语义,句子结构上的翻译质量都有了前所未有的提供,但它们仍然会做出一些人类翻译者永远不出做出的重大错误,例如漏词和错误翻译专有名词或罕见术语,以及将句子单独进行翻译而不考虑其段落或页面的上下文。
1.3研究意义:
(1)TensorFlow作为google发布的一款用于深度学习的开源框架,目前被多个团队用于开发和研究各种基于深度学习的商用产品,如语音识别,谷歌地图,谷歌翻译等。而在这短短几年内,深度学习推广到了机器学习的各个领域,可以预测TensorFlow作为主流的深度学习开源框架,会被越来越多的人采用。学习和应用TensorFlow开源框架,是此次研究课题的意义之一。