基于机器学习的新闻分类系统的设计
2022-11-10 10:55:07
论文总字数:23366字
摘 要
互联网正在与时俱进的发展,随之诞生的智慧生活也作为每家每户的日常,人们每天都需要面对各种各样的信息,文本信息作为重要的数据承载方式,在日常生活中如何去分辨文本信息是现在迫切需要解决的问题。如何将新闻的文本进行分类是文本分类研究的一个分支领域。它是信息检索、推荐系统等应用领域中不可缺少的部分。采用机器学习进行分类,目的是为每一个新闻文本分配对应标签,这样标签就代表了该新闻期望的分类类型。
这次利用机器学习设计的新闻分类系统设计不仅可以直接分辨文本类别,还可以进行信息推荐,使得在海量的信息源中可以快速准确推荐有价值的信息。系统很好的完成了对新闻的分类并在公众号中展示出来。于此同时,为了进一步提高系统的准确率,利用机器学习模型进行数据的训练。
本文分析了文本分类的各项技术,最终基于CNN网络结构模型来进行最终分类模型的设计,本次设计通过对算法运行效率,平台等综合影响因素考量之后,确定本次设计采用python作为开发语言,Mysql作为存储数据库,利用Tensorflow完成新闻分类模型的设计工作,并以此为基础在公众号搭建新闻分类测试,结果表明本文设计的新闻分析系统性能可以达到预期效果。
关键词:机器学习;新闻分类;CNN;Mysql
Design of news classification system based on machine learning
Abstract
The Internet is advancing with The Times, and the resulting intelligent life has become the daily routine of every family, people need to face all kinds of information every day. Text information is an important data bearing method. How to distinguish text information in daily life is now urgent issues that need resolving. News text classification is a subdivision field of text classification research, and it is an indispensable part of information retrieval, recommendation system and other application fields. The goal of classification is to assign a corresponding label to each news text, and the label represents the expected classification type of the news.
The news classification system design based on machine learning design not only can directly distinguish text categories, but also can recommend information, so that valuable information can be quickly and accurately recommended from a large amount of information sources. The system has completed the classification of news well and displayed it in the official account. At the same time, in order to further improve the accuracy of the system, machine learning models are used for data training.
This paper analyzes the various technologies of text classification, and finally uses the CNN network structure model as the basic network to design the final classification model. After comprehensive consideration of the efficiency of the algorithm and the lightweight of the platform, it is determined to use python as the development language and Mysql as the development language. The main technical route of the storage database is to use Tensorflow to complete the design of the news classification model, and build a news classification test on the official account based on this. The results show that the performance of the news analysis system designed in this article can achieve the expected results.
Keywords: machine learning;news classification ;CNN; Mysql;
目录
摘要 I
Abstract II
第一章 绪论 1
1.1课题背景与意义 1
1.2研究现状 2
1.3研究内容 2
1.4论文组织结构 3
1.5本章小结 3
第二章 相关技术基础及算法模型的介绍 4
2.1 文本分词技术介绍 4
2.1.1 中文分词方法介绍 4
2.1.2 特征选择方法 4
2.2 基于卷积神经网络的分类算法 5
2.3 基于机器学习的新闻分类数据集的获取和处理 6
2.3.1爬虫模型阐述 7
2.3.2 新闻文本数据预处理 8
2.4 本章小结 8
第三章 新闻分类系统概要 9
3.1 系统需求分析 9
3.1.1 新闻分类系统功能性需求分析 10
3.1.2 新闻分类系统非功能性需求分析 13
3.2 新闻分类系统数据库设计 14
3.2.1 数据库概念结构设计 14
3.2.2 数据库物理结构设计 15
3.3.3 数据库sql语句 15
3.3 本章小结 16
第四章 新闻分类系统详细设计及实现 17
4.1 开发环境搭建及代码组织结构 17
4.2 系统各项功能模块的设计与实现 17
4.2.1 微信公众号首页展示设计与实现 17
4.2.2 新闻展现模块设计与实现 18
4.2.3 新闻预处理模块设计与实现 19
4.2.3 新闻分类模型的搭建与训练 20
4.2.4 实时新闻信息类别判定功能模块 24
4.3 本章小结 25
第五章 系统验证与测试 26
5.1 功能性测试 26
5.2 性能测试 27
5.3 模型测试结果分析 27
5.4 本章小结 28
第六章 总结与展望 29
6.1总结 29
6.2展望 29
致谢 31
参考文献 32
第一章 绪论
1.1课题背景与意义
在现代技术不断发展下,越来越多的信息被收集在一起,导致了人们要花费大量的时间在需要的信息筛选上,越来越多的文本信息被放在新闻文本上,获取各种信息资源的途径不断增多,带来好处的同时,存在着各种隐藏的问题,如:数据过多使得信息的利用率降低,信息难以进行有效地分类,使得在大量信息中搜寻想要的信息时,工作量增多,甚至会将一些无效的信息筛选在其中,最终导致信息的质量难以保证。
新闻文本分类是当前重要的研究之一,分类的目的是让不同的新闻类型都有自己的标签,不同的标签表示着新闻的不同内容,因此,在这些新闻向人们传递相关信息的时候,让人们了解各类新闻事件,并且有针对性地向他们推荐新闻的内容,减少他们阅读不相关新闻内容的时间,例如,金融行业的人员可以通过财经类的新闻更全面、快速地了解金融动态,从事体育相关的或者是爱好体育的人可以通过体育类的新闻了解各种新闻资讯,关心国家大事的人可以通过实时类新闻了解更多的国家大事等等,新闻文章的发布能够极大便利大家获取更多的信息,并且随着传统新闻报纸的不断改革,互联网新闻不断发展,传播更加地迅速,覆盖的范围也更加的广泛,更多的信息被收在其中,因此当前的新闻文本分类有着十分重要的意义。
剩余内容已隐藏,请支付后下载全文,论文总字数:23366字