登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 开题报告 > 计算机类 > 物联网工程 > 正文

基于fasttext算法的文本分类设计与实现开题报告

 2022-01-09 22:29:15  

全文总字数:2145字

1. 研究目的与意义及国内外研究现状

数据正在迅速膨胀并变大,它决定着企业的未来发展,虽然很多企业可能并没有意识到数据爆炸性增长带来问题的隐患,但是随着时间的推移,人们将越来越多的意识到数据对企业的重要性。

因此,自然语言的处理被越来越多的人进行研究,学习。

fasttext是是facebook开发的一款快速文本分类器,提供简单而高效的文本分类的学习方法,性能比肩深度学习而且速度更快。fasttext结合了自然语言处理和机器学习中最成功的理念。这些包括了使用词袋以及n-gram袋表征语句,还有使用子字信息,并隐藏表征在类别间共享信息。本论文将采用python语言,在linux平台或者macos上实现基于fasttext算法的文本分类,并对实验结果进行验证。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容

本文首先会介绍一些预备知识,比如softmax,ngram等,然后简单介绍word2evc原理,之后来讲解fasttext的原理,并搭建一个简单的fasttext分类器,同时介绍一些fasttext的应用。

word2evc原理:

word2vec的本质是一个神经网络语言模型,基于语言模型进行分布式词向量的训练。与传统神经概率语言模型不同的是,作者提出了新的方法进行训练:cbow模型(continuous bag-of-words model)和skip-gram模型(continuous skip-gram model)。同时为了加快训练速度,使用hierarchical softmax和negative sampling这两种tricks

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 实施方案、进度安排及预期效果

实施方案及进度安排:

1.认识自然语言,了解机器学习的相关概念;

2.了解预备知识,比如softmax,ngram等;

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 参考文献

李晓明,闫宏飞,王继民,“搜索引擎——原理、技术与系统”冯是聪, '中文网页自动分类技术研究及其在搜索引擎中的应用,'Y. Yang and X. Liu, 'A re-examination of text categorization methods' presented at Proceedings of ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR99), F. Sebastiani, 'A tutorial on Automated Text Categorization', Proceedings of ASAI-99, 1st Argentinian Symposium on Artificial Intelligence, Buenos Aires, AR, 王涛:文本自动分类研究,图书馆学研究周文霞:现代文本分类技术研究奉国和:自动文本分类技术研究崔彩霞,张朝霞:文本分类方法对比研究刘霞,卢苇:SVM在文本分类中的应用研究都云琪,肖诗斌:基于支持向量机的中文文本自动分类研究

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图