文本关键词提取和自动分类算法的研究与实现文献综述
2020-06-23 20:45:02
一.课题背景 随着互联网技术的飞速发展,网络中出现了巨大的信息资源,而中文文本信息在其中占有很大的比重,因此我们如何快速、准确地获取自己所需要的中文信息成为我们急需解决的课题。
而针对中文文本的数据挖掘技术可以帮助我们解决这一难题。
二.数据挖掘理论 数据挖掘[1][2][3][4](Data Mining)就是从大量的数据中提取出对用户真正有用或感兴趣的知识(Knowledge),习惯上被称为数据库中知识发现(Knowledge Discovery in Database,KDD)的同义词。
数据的挖掘由七个步骤组成:1、数据清理:消除噪声,2、数据集成:多种数据源可以组合在一起,3、数据选择:从数据库中检索出与任务相关的数据,4、数据变换:数据变换成适合挖掘的形式,5、数据挖掘:使用人工智能方法提取数据模式,6、模式评估:根据某兴趣度度量,识别表示数据真正有用的模式,7、数据表示:使用可视化技术,向用户提供挖掘的数据。
对于各种数据源,如关系数据库,事务数据库,面向对象数据库,文本数据库,音频、视频等多媒体数据库以及web信息等[5],都可以进行挖掘。
三.文本数据挖掘 在现实世界中,大部分信息是存储在文本数据库中,由各种数据源(如新闻、书籍、数字图书馆、电子邮件和web页面等)的大量文档组成,随着Internet的快速增长,文本数据库也得到了迅速发展。
传统的处理文本数据库的方法是信息检索技术,就是根据用户输入的关键字定位相关文档。
虽然信息检索技术有方便快捷的优点,而且在现实生活中有很广的应用,但是大量电子文档的产生,这种方法已经无法满足处理文本数据库信息。
因此,为了更加有效地处理文本数据库,出现了文本自动分类(Automatic Text Categorization)[6]技术,就是利用计算机对对象按照一定的标准进行自动分类标记。
按照文本语料的性质和应用需求的不同,文本自动分类可分为基于分类体系的自动分类、基于信息过滤和用户兴趣的自动分类。