基于卷积神经网络的网络文本分类开题报告
2022-01-25 23:22:24
全文总字数:2739字
1. 研究目的与意义及国内外研究现状
近年来,伴随着计算机技术、互联网及移动互联网产业的高速发展,网民数量呈现出了爆发式的增长,以微信、微博等社交平台为代表的互联网产品也日趋成熟。
随着大量活跃用户加入其中,每天都有数以亿计的短文本数据在这些平台上产生,如聊天记录、用户评论等。
无论是对于政府部门、科研单位还是互联网服务提供商来说,能够正确地应用文本分类技术,从而挖掘出蕴藏在数据背后用户的真实意图,具有非常重要的研究意义和巨大的应用价值。
2. 研究的基本内容
模型学习单词矢量表示,并对血单词向量进行分类,单词从稀疏的1-of-V编码经过隐藏层投影到低纬度的向量空间上(就是提取编码维度中单词的语义特征),这些语义特征是用欧几里德或余弦距离表示的。利用卷积神经网络(CNNs)来进行句子分类,并通过随机搜索和贝叶斯优化来对超参数优化。对全部训练文档进行分词,由这些词作为向量的维数来表示文本;统计每一类文档中所有出现的词语及其频率,然后过滤,剔除停用词和单字词;统计每一类内出现词语的总词频,并取若干个频率更高的词汇作为这一类的特征词集;去除每一类别中都出现的词,合并所有类别的特征词集,形成总特征词集,最后得到的特征词集是我们用到的特征集合,再用该集合去筛选测试集中的特征。
3. 实施方案、进度安排及预期效果
卷积神经网络在情感分析中取得了很好的成果,相比于之前浅层的机器学习方法如NB、SVM效果更好,特别实在数据集较大的情况下,并且CNN不用我们手动去提取特征,原浅层ML是需要进行文本特征提取、文本特征表示、归一化、最后进行文本分类,文本特征提取主要可以分为四步:(1):对全部训练文档进行分词,由这些词作为向量的维数来表示文本;(2):统计每一类文档中所有出现的词语及其频率,然后过滤,剔除停用词和单字词;(3):统计每一类内出现词语的总词频,并取若干个频率更高的词汇作为这一类的特征词集;(4):去除每一类别中都出现的词,合并所有类别的特征词集,形成总特征词集,最后得到的特征词集是我们用到的特征集合,再用该集合去筛选测试集中的特征。文本的特征表示是利用TF-IDF公式来计算词的权值,这也充分利用的是特征提取时提取的特征来计算特征权值大小的,归一化处理需要处理的数据,经过处理后限制在一定范围内,经过处理后,我们原来的文本信息已经抽象成一个向量化的样本集,然后将样本集和训练好的模板进行相似度计算,若属于该类别,则与其他类别的模板文件进行计算,直到分进相应的类别,这是浅层ML进行文本分类的方式;CNN进行文本分类相对简单一些,我结合最近做的一些实验总结了一下:在利用CNN进行文本分类的时候,首先要将原始文本进行预处理,主要还是分词、去除停用词等,然后对预处理后的文本进行向量化利用word2vec,我利用的时word2vec中的skip-gram模型,将搜狗数据集表示为了200维的词向量形式;转化为词向量后就可以将每一句话转化为一个矩阵的形式,这样就跟利用CNN处理图像分类很相似
4. 参考文献
[1] 超人汪小建(seaboat).卷积神经网络文本分类.博客,2018.3.24.
[2] 夏婵.卷积神经网络在nlp领域的实践:文本分类.博客,2017.6.3.
[3] guoyuhaoaaa.几种使用了cnn(卷积神经网络)的文本分类模.博客,2016.11.16.