基于FCM的文本聚类文献综述
2020-05-26 20:40:02
文献综述
1.本课题研究背景、目的及意义
当今世界是信息的世界,随着Internet 的广泛应用,网络上的各类信息不断增长,其组织结构愈发混乱。如今的Internet已经犹如黑盒一样难以确定其中的结构与内容,即使有如Google,百度之类的搜索引擎的帮助,但是这类搜索引擎大多数是按链接数或点击数进行排列,存在着一定的内容无关性。要想找出一些相关主题的内容,仅靠人工的分类与舍取未免不太合理。通常我们使用的数据处理方式只能进行浅层的处理操作,而对获取数据之间本质关系和内在深层的信息挖掘方面计算机却显得力不从心,不能凭借现有的信息进行挖掘和预测潜在的信息资源,如对信息的内在关联规则和分类等处理。因此我们很难由现有信息做出评判和裁决。以往数据处理方法只能获取海量信息中的部分数据,而很多有用的信息却无法被有效挖掘。文本挖掘(Text Mining)是数据挖掘研究的一个重要领域,因为文本处理需要自然语言的理解支持,它的数据特点不像数据库中是结构化的,但是现在计算机对人类语言歧义问题的理解还存在一定的困难,因此如果要使文本挖掘真正达到深层理解的程度还需更加深入的探讨和研究。
大部分信息内容是以文本为载体,因此,文本的分类学便成为一个重要的课题。其中的文本聚类作为一个重要的组成部分,是目前研究的重点。将物理或抽象对象的集合分组成为由类似对象组成的多个类的过程被称为聚类(Clustering)。而文本聚类(Text Clustering)就是将文本集合分组成多个类或簇,使得在同一簇中的文本内容具有较高的相似度,而不同簇中的文本内容差别不大。它是聚类分析技术在文本处理领域的一种应用。
传统的聚类属于硬划分方法,即对象是”非此即彼”的。然而事实上世界万物并没有严格的属性区分,它们在属性等存在着关联性,具有”亦此亦彼”的性质。针对这类问题,人们更倾向于用模糊的方法处理聚类的问题,即模糊聚类分析,从而来更好的反应客观世界。
作为文本聚类的基础而言,如何使用一种好的二进制表示方法直接关系到最后的结果。因为原本按照聚类的含义,其在过程中没有任何关于分类的先验知识,没有教师指导,仅靠事物间的相似性作为类属划分的准则,因此属于无监督分类的范畴。对应起来,希望整个过程中尽量少的受到外部条件的影响,所以希望在文本表示这一模块也能做到无监督性,这也是以后发展的一个方向。
另外,由于在需求上来讲,一般要求能在文本聚类的数量和速度上有一定的平衡,所以单纯的无监督的聚类方法在速度上并不完全适合其要求,所以通过以半监督方法进行文本聚类成为了一种很好的选择。同时半监督聚类方法也对聚类精度有着一定的贡献。
综上,文本聚类技术是随着信息时代到来而得到充分发展的,众多的研究者对文本聚类技术已经进行了深入研究,目前研究人员已经将模糊聚类算法引入到文本聚类中,并由此得到了新的算法,但是模糊聚类算法及其在文本聚类中研究还存在很多内容值得探索,并且具有很大的实际推广的价值。因此,模糊聚类算法在文本聚类中研究具有很大理论意义和实用价值。
2 .本课题国内外研究现状和发展趋势
人们对于文本聚类的研究与探索已经四十多年,文本聚类技术已经成为文本挖掘领域的热点。通过文本聚类技术,人们能够对大量文本信息进行高效的整理和归类,从而提高了用户查询和检索信息的效率,也更好的提供了个性化信息服务。