登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 文献综述 > 计算机类 > 计算机科学与技术 > 正文

基于LDA算法的识别文章主题的模型文献综述

 2020-04-18 19:43:45  

文 献 综 述 摘要 本研究课题拟对当前自然语言处理中的文本主题识别问题进行研究,并尝试在相关数据上应用相关算法。

本课题拟在现有的研究基础上,重点探讨当前基于LDA算法的主题识别模型,总结近几年最新的研究成果,研究其优化、改良、集成的方法,探索其在实际工程的应用。

一 引言 随着互联网中信息量的迅速整张,自然语言处理技术(Natural Language Processing)被越来越多地应用于自动处理文本信息相关的任务。

而作为自然语言处理任务中的一种基本问题,LDA是一种非监督机器学习技术,可以用来识别大规模文档集(document collection)或语料库(corpus)中潜藏的主题信息,对文本挖掘,机器阅读理解等高层次自然语言处理问题的研究有着一定的启发性。

本文首先具体定义了需要解决的问题及实际意义,随后从两个角度论述了识别文本主题问题的解决方案,对现有方法进行了总结,指出了当前研究的存在的待改进的部分,对潜在的创新点进行了展望。

二 文本主题识别的定义 主题发现分为广义和狭义之分,广义的主题发现针对各种常见数据集(文本,图像,音频,视频等),狭义的主题发现仅针对文本数据,我们通常所说的主题发现是狭义的主题发现。

文献[2]对文本主题的定义进行了综合性整理。

该定义阐明文章主题与词的频数有关,词出现的频数越高,主题权重越大[14],其结果如公式(1)所示: (1) 其中, ,V 表示词典中不重复的词的数目, 表示在语料中由第 k 个topic 产生的第 t 个词的数目。

此外,文献[4]指出,文本的主题识别还可以从信息增益这个方面进行考量。

本文侧重于语义上的文本主题识别。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图