基于DBScan算法的网页聚类分析开题报告
2021-12-24 15:13:38
全文总字数:1511字
1. 研究目的与意义及国内外研究现状
dbscan(density-based spatialclustering of applications with noise)是一个比较有代表性的基于密度的聚类算法。与划分和层次聚类方法不同,它将簇定义为密度相连的点的最大集合,能够把具有足够高密度的区域划分为簇,并可在噪声的空间数据库中发现任意形状的聚类。论文选题目标是寻找一种基于dbscan技术的体系结构,并尝试运用这操作对大量网页进行聚类分析,并测试本算法实际运用的准确率。选题的意义是随着互联网的不断发展,聚类可以用来对web上的内容进行分类,从而发现用户访问的兴趣点,我们使用这算法能很好地对网页进行聚类,但是它还是有许多不足之处需要我们注意。
2. 研究的基本内容
DBSCAN(Density-Based Spatial Clustering of Applications with Noise,具有噪声的基于密度的聚类方法)是一种基于密度的空间聚类算法。该算法将具有足够密度的区域划分为簇,并在具有噪声的空间数据库中发现任意形状的簇,它将簇定义为密度相连的点的最大集合。该算法利用基于密度的聚类的概念,即要求聚类空间中的一定区域内所包含对象(点或其他空间对象)的数目不小于某一给定阈值。DBSCAN算法的显著优点是聚类速度快且能够有效处理噪声点和发现任意形状的空间聚类。但是由于它直接对整个数据库进行操作且进行聚类时使用了一个全局性的表征密度的参数,因此也具有两个比较明显的弱点:当数据量增大时,要求较大的内存支持I/O消耗也很大;当空间聚类的密度不均匀、聚类间距差相差很大时,聚类质量较差。
3. 实施方案、进度安排及预期效果
2016年11月—2017年2月初:收集资料,确定论文题目,查阅相关资料2017年2月—2017年3月:在老师的指导下,拟定写作提纲和开题报告。
2017年3月—2017年4月:论文修改。
听取老师意见,撰写论文初稿,并交指导老师评审。
4. 参考文献
李睿.web数据挖掘技术探讨[j].信息技术,2001.
潘卫东.web的数据挖掘[j].图书馆论坛,2004(2).
左开中.xml语言在web数据挖掘中的应用[j].微机发展,2002(3).