基于贝叶斯方法的信息分类工具的研究与实现文献综述
2020-05-24 12:15:50
摘要:计算机与网络技术自出现以来发展迅速,并日趋完善,互联网已日趋成为最主要的信息来源。由于网络中大量的信息是文本信息,作为有效组织和管理文本数据的重要基础的文本自动分类已成为具有重要应用价值的研究领域。基于贝叶斯的信息分类具有简单,有效,速度快的优点,成为文本分类的重要研究内容之一。
1.课题背景
l 随着计算机技术与网络技术的飞速发展,互联网得到了广泛应用。中国互联网信息中心(CNNIC)在2011年1月19日发布的《第27次中国互联网网络发展状况统计报告》表明:截至2010年12月底,我国网民达到4.57亿人,较2009年增加7330万人。互联网普及率持续增至34.3%,与2009年底相比提高了5.4个百分比。全国域名数866万个,全国网站数191万个。互联网成为人们信息获取的重要来源。而这些信息中又有大量信息是文本数据,面对如此巨大的信息海洋,如何有效的组织和管理,进行自动分类,并快速,准确,全面的从中找到用户所需的信息成为一个重要研究课题。
l 贝叶斯分类是一种基于概率统计的方法。贝叶斯分类方法是基于条件”独立性假设”,因此它适合于处理属性个数较多的分类任务,而文本分类正是这种多属性的分类任务,因此贝叶斯成为文本分类的一种常用分类方法。它是目前公认的一种简单有效的概率分类方法,其性能可以与决策树,神经网络等算法相媲美。
2.发展和研究现状
国外文本分类的理论研究可以追溯到20世纪50年代末,它的发展大致可以分为四个阶段:
第一阶段(1958-1964):主要进行文本自动分类的可行性研究;
第二阶段(1965-1975):进行文本自动分类的实验研究;
第三阶段(1975-1989):文本自动分类进入实用化阶段;
第四阶段(1990年至今):面向互联网的文本自动分类研究阶段。