对联自动生成模型的评估与度量文献综述
2020-04-15 15:43:04
对联 雅称「楹联」,俗称对子。它言简意深,有关对仗工整,平仄协调,是一字二音的汉语语言独特的艺术形式。可以说,对联艺术是中华民族的文化瑰宝。与自由语言不同,对联具有独特的诗性优雅,如唯美性、简洁性等。对联与诗词都是中国传统文化的艺术形式 ,都讲究韵律、节奏、意境、美感及对仗。对联的填写被认为是一项具有挑战性的任务,有一系列的结构和语义要求。在人工智能和自然语言处理的共同领域中,具有先行子句的对联生成是一个巨大的挑战。但是相对诗词等任务来说,对联要求严格的上下联对仗,这种严格的对仗关系意味着极强的映射规律性,而这个用RNN和Encoder-Decoder来说正好是能够发挥它们长处的地方,所以说Encoder-Decoder加上RNN配置是非常适合用来做对联的。
与古代相比,现代社会对于对联的创作热情已经日趋减少,对联创作更多是文学专业的特产,而对联作为中华文化的瑰宝,是应该大力发扬且传承下来的。然而对联所需的对仗工整,平仄协调又使得对联创作需要耗费大量的时间与精力,但是对于机器学习来说,人工智能很好的解决了这一问题。
关于自动诗歌的生成,业界的研究主要经历了三个阶段:第一阶段为基于规则和模板的方法,以ASPERA system和Haiku system为代表;第二阶段,统计机器学习方法,以Genetic Algorithm,Summarization Method和SMT为代表;第三阶段,神经网络方法,以RNNPG,Polish和Planning为主。相比而言,国外有关机器诗歌自动生成的研究起步较早,目前已尝试了许多方法并积累了一定的经验,从早期的Word#8194;Salada发展到现在较为成熟的基于进化算法和基于实例推理的方法,机器诗歌生成技术历经了多个阶段的发展,并开发了部分较成型的系统。而对于对联来说,微软亚洲研究院已经推出了计算机自动对联系统。中科院费越博士采用神经网络的方法,构造了形象思维层次的语义,用春联领域的知识实验生成了6个汉字以内的计算机春联。
对联生成之后需要不断地评估,同时,对联生成器也需要进行不断地优化,对于机器来说,检查生成的对联是否符合约束要求相对简单。然而是否具有优美性趣味化确需要不断改进,所以,对生成的对联进行评估也成为了重中之重。而利用机器学习来对对联进行生成与评估,可以起到传播知识,活跃思维,增加文化积累的作用,同时还可以丰富和反映民俗,起到民众精神调节的作用。对于传播中国传统文化具有积极向上的影响。
我们此次研究的课题为对联自动生成的评估与测量,侧重点主要是对生成对联的评估,根据困惑度,BLEU等度量指标对生成的对联进行评估,不断完善系统。
{title}2. 研究的基本内容与方案
{title}(1)主要内容:
对联,被认为是中国传统文化中最重要的一部分。对联讲究上下联字数、句式、内容、韵律对偶工整。本课题旨在研究使用Encoder-Decoder模型实现中文对联的自动生成。在对联的自动生成过程中,引入 Attention Mechanism(注意力机制),进一步改善模型的性能。最终使用BLEU,ROUGE,METEOR,ROUGE等自然语言处理机器翻译常用评价度量指标,对模型的生成结果进行分析与评测。
(2)目标:
主要完成这个自动生成的对联质量进行评估,与当前已存在的其他对联系统之间进行对比实验。
(3)拟采用的技术方案及措施: