基于向量表示的文本聚类方法研究开题报告
2020-02-20 07:17:39
1. 研究目的与意义(文献综述)
聚类是统计数据分析的一门技术,是把相似的对象通过静态分类的方法分成不同的组别或者更多的子集(subset),这样让在同一个子集中的成员对象都有相似的一些属性,常见的包括在坐标系中更加短的空间距离等。
聚类在许多领域受到广泛应用,包括机器学习,数据挖掘,模式识别,图像分析以及生物信息。在商务上,聚类能帮助市场分析人员从客户基本库中发现不同的客户群,并且用购买模式来刻画不同的客户群的特征。在生物学上,聚类能用于推导植物和动物的分类,对基因进行分类,获得对种群中固有结构的认识。在数据挖掘上,聚类分析可以作为数据挖掘算法中其他分析算法的一个预处理步骤。聚类也能用于对web上的文档进行划分,可以作为一个单独的工具以发现数据集中分布的一些深层的信息,并且概括出每一类的特点。
文本表示模型主要有三种:集合论模型、向量空间模型和概率模型。文本的表示是文本聚类的一个重要方面,因为文本无论长短,表达出来的所有语义信息仅仅使用几个离散的词来表示是不精确的。文本向量空间模型能有效改进以往对文档表示方式过于简单,文本中的语义信息损失比较大的情况。
2. 研究的基本内容与方案
1)研究的基本内容
文本聚类(text clustering)主要是依据著名的聚类假设:同类的文档相似度较大,而不同类的文档相似度较小。聚类不需要对数据进行训练和学习,属于无监督学习,根据文档之间的相似度,可以将文档集分类划分为一些小的文档子集。常见的聚类算法包括:k-均值聚类算法、k-中心点聚类算法、clarans、birch、clique、dbscan等。
文本的向量空间模型(vsm),是将文档和查询都用向量来表示。每一维都对应于一个的单词或词组,词组的定义按不同应用而定,典型的词组就是一个单一的词、关键词、或者较长的短语。通过svm模型,可以将文本转化为向量表示的结构化数据。
3. 研究计划与安排
1) 1月3日上网确定各自的选题。
2) 1月19日提交开题报告。
3) 2月17日完成英文文献的翻译。
4. 参考文献(12篇以上)
[1]an efficient text classification scheme usingclustering[j]thomas, anisha mariam; resmipriya, m. g. 4th international conference on emergingtrends in engineering, science and technology,2016
[2]the smart cluster method [j]andreas m. schaefer;james e.daniell;friedemann wenzel. journal of seismology , 2017
[3]analysis of cluster-randomized test-negativedesigns[j]jewell np;dufault s;cutcher z;simmons cp;anders kl.biostatistics,2018