登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 文献综述 > 计算机类 > 计算机科学与技术 > 正文

文本相似度检测系统文献综述

 2020-04-12 16:22:23  

一、课题背景  步入近代,人类的发展速度早超出古代人们所能够想象的范畴。

自从英国工业革命以来,科技的发展日益迅速,人类的知识呈指数式地爆炸增长,尤其是最近数十年,伴随着计算机的出现以及互联网的普及,每一个人都被海量的信息所淹没。

而文字是信息的最重要载体,在这个高度信息化的世界里,信息主要以文本的形式记录和保存。

如果没有有效的手段自动筛选出人们所需要的信息,那些海量的信息便失去了其所拥有的价值。

为了解决这一问题,互联网搜索引擎便应运而生。

用户在使用搜索引擎的时候,希望所返回的结果都是搜索的关键字相关但却互不相同的页面。

因而需要相关的算法实现文本之间的相似度检测,从这些文本中获取有价值而又不重复的部分。

在实际的应用中,使用最为广泛的便是空间向量模型,其原理是将所需对比文本映射到向量空间得到对应的文本向量,通过对文本向量间夹角的余弦值计算,得到文本间的相似度。

通过本文所讲的内容也是基于余弦相似度算法实现的。

文本相似度计算涉及信息处理相关的很多应用,是信息处理领域的一个相当重要的部分。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图