登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 毕业论文 > 理工学类 > 信息与计算科学 > 正文

科技文献的聚类方法研究与实证毕业论文

 2021-08-24 22:56:31  

摘 要

聚类分析和数据挖掘技术可以快速而有效地从海量数据中发现潜在的、有作用的知识以及信息,之所以要使用聚类分析方法,是利用“物以类聚”的规律,使用聚类方法对样品或指标进行分类,将数据分类到不同的类或者的簇中。本文研究的内容是以我国知识管理研究出来的学术期刊科技论文为对象,采用数据挖掘技术和聚类分析方法,从特征词入手对学术期刊论文的分析进行归纳和总结,从而实现对海量的科技文献的快速而高效的检索和利用,让它们能更好的服务于我们的日常研究中,提高工作和学习的效率。我们可以使用一种基于改进 TF-IDF 特征词加权算法的科技文献聚类方法: 先从检索的科技文献中提取出关键词;如果特征项大多数只在某个类别中集中出现,则它对于这个类应该有较强的表征能力,应该为其赋予较高的权重值,接下来建立一个向量空间模型,然后使用DBSCAN聚类算法对模型的数据进行聚类分析,得出结论后,再用F-measure统计分析法对结果做一个评估。

关键词:科技文献,聚类分析,数据挖掘,特征词加权。

Abstract

The technology of cluster analysis and data mining can find potential and useful knowledge and information from a large number of data very quickly. the reason to use technology of cluster analysis is according to “like attracts like”,use technology of cluster analysis to classify the sample or index, classify data into different classes or clusters. content of research in this paper is according to academic journal Science and technology in the research of knowledge management in our country, use the technology of cluster analysis and data mining, start with induction and summarize analysis of papers in academic journals, thus realize fast and efficient retrieval and utilization a large number of data, let it service our daily study, improve efficiency of work and study. we can use a clustering method of scientific and technical documents based on improved TF-IDF feature word weighting algorithm: firstly, extract key words from retrieval of scientific and technological documents; if most of the feature items only appear in a class, then it should have a strong ability to characterize this class, should be given a higher weight value, in the next we should build a VSM, then use DBSCAN algorithm to do the cluster analysis for data of model, after come to the conclusion, use the F-measure statistical analysis method assessment the result.

Key Words: Science and technology literature,Cluster analysis,Data mining.,Feature word weighting.

目录

第1章 引言 1

1.1聚类分析概述 1

1.2数据挖掘概述 2

1.3本文内容组织与安排 2

第2章 科技文献的聚类分析与方法 5

2.1科技文献聚类的常用算法 5

2.1.1直接聚类法 5

2.1.2阶层式聚类算法 5

2.1.3分割式聚类算法 6

2.1.4 DBSCAN聚类算法 7

2.1.5其它常见的聚类算法 8

2.2数据挖掘介绍 8

2.2.1数据挖掘的一般过程 8

2.2.2数据挖掘中的聚类分析技术 10

第3章 科技文献聚类方法的实证 11

3.1实证过程的基本思路 11

3.2向量空间模型 12

3.3特征词加权方法 13

3.4科技文献聚类算法 14

3.5对聚类结果进行标识 14

3.6科技文献聚类结果的评价 14

3.7人工数据实验 15

第4章 总结与展望 19

参考文献 21

致谢 23

第1章 引言

自从进入二十一世纪以来,人类社会的科学技术不断提高,特别是计算机技术的发展,使人类迅速步入了信息时代,作为信息载体的各种各样的数据,也是人类研究的重点对象之一,随着人类对于数据的深入研究,人们获取和搜集数据的能力也大大增强了。伴随着互联网技术的兴起,信息量和数据量也出现了爆炸性的增长,尤其是在科研和日常的生产领域中,工作人员不可避免地需要大量地使用到科技文献,从中获得想要的信息,但在这个信息爆炸的时代,记录着各种各样的知识和信息的科技文献多如牛毛,往往令我们感到不知所措,面对这如此浩繁的信息量,光靠人脑已经无法对其进行理解和处理了,同时,由于各种学科的交叉性发展,它们之间的界限正在变得越来越模糊,因此,如何对这海量的科技文献进行有效的整理和分类也成为了一个令人头疼的问题,面对这些迫在眉睫的难题,我们需要从数学中找寻答案,借助实用有效的分析方法理论去解决这一难题,因此,聚类分析方法作为一种古老的数学方法,走进了人类的视野,通过聚类分析方法,可以快速的从庞大的数据信息库中检索到我们所需要的知识和信息,并且可以根据数据和信息所表现出的不同的特性而对其实现有效的分类管理,大大提高了我们利用和管理信息的速度以及效率。因此,研究科技文献和聚类分析方法之间的关系,将大大有利于我们社会生产力的发展,对我们日常的工作和学习也有着十分积极的意义。

1.1聚类分析概述

聚类分析,是一种能够根据表现出来的特性的不同而对大量的数据样本进行分类的一种数学理论方法,将特性相同或相似的数据聚合在一起,而将特性不同的数据分隔开,实现对数据库的有效管理和优化。在现代社会里聚类分析的应用领域十分广泛而普遍,科学研究,市场调查,公司决策,业务分析,学校教学,图像分析等等,无论大事小事,聚类分析都在不知不觉中发挥着自己的作用,如果我们想要详细深入的了解聚类分析的知识,首先,我们要首先要了解聚类分析的几种基础的分类:

1.基于分层:这种方法的特点是以实现其某种预期的预设条件为终点,逐层地分解一个给定的数据集。在一开始,记录每一个数据,然后将其分到不同的组里,再把所有的组再重新合起来,才能完成工作。BIRCH算法是它的一种典型算法。

您需要先支付 80元 才能查看全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图