基于LDA算法的识别文章主题的模型文献综述

2020-04-18 19:43:45

文献综述摘要本研究课题拟对当前自然语言处理中的文本主题识别问题进行研究，并尝试在相关数据上应用相关算法。

本课题拟在现有的研究基础上，重点探讨当前基于LDA算法的主题识别模型，总结近几年最新的研究成果，研究其优化、改良、集成的方法，探索其在实际工程的应用。

一引言随着互联网中信息量的迅速整张，自然语言处理技术（Natural Language Processing）被越来越多地应用于自动处理文本信息相关的任务。

而作为自然语言处理任务中的一种基本问题，LDA是一种非监督机器学习技术，可以用来识别大规模文档集（document collection）或语料库（corpus）中潜藏的主题信息，对文本挖掘，机器阅读理解等高层次自然语言处理问题的研究有着一定的启发性。

本文首先具体定义了需要解决的问题及实际意义，随后从两个角度论述了识别文本主题问题的解决方案，对现有方法进行了总结，指出了当前研究的存在的待改进的部分，对潜在的创新点进行了展望。

二文本主题识别的定义主题发现分为广义和狭义之分,广义的主题发现针对各种常见数据集(文本,图像,音频,视频等),狭义的主题发现仅针对文本数据，我们通常所说的主题发现是狭义的主题发现。

文献[2]对文本主题的定义进行了综合性整理。

该定义阐明文章主题与词的频数有关，词出现的频数越高，主题权重越大[14]，其结果如公式（1）所示：（1）其中，，V 表示词典中不重复的词的数目，表示在语料中由第 k 个topic 产生的第 t 个词的数目。

此外，文献[4]指出，文本的主题识别还可以从信息增益这个方面进行考量。

本文侧重于语义上的文本主题识别。

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付