登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 开题报告 > 理工学类 > 信息与计算科学 > 正文

面向大数据检索的哈希算法研究开题报告

 2021-03-11 00:24:17  

1. 研究目的与意义(文献综述)

近些年,由于云计算、移动设备、互联网和物联网等技术的迅猛发展,每天将产生数以万计的信息,大数据时代翩然而至。根据国际数据公司的统计结果,预计到 2020 年全球的数据总量将超过 40zb,是 2011 年的数据量的 22 倍。大数据已经和人们的生活息息相关,从购物到住房,从娱乐到商务,所有的一切都和大数据紧密相联。

如何中海量数据中查找到用户所需要的数据信息,是一个非常具有挑战性的问题。而哈希技术,则是一种解决大数据检索问题的有效方案。哈希技术通过0-1二元编码将任意类型的数据映射到汉明空间中进行处理,例如图像、文本、音频与视频等内容。二元编码的优点在于一方面能够大量节省计算机的存储空间,另外一方面能够加快检索速度。在汉明空间搜索的好处主要有:数据被高度压缩,因此可以载入内存;在汉明空间使用汉明距离进行搜索,而汉明距离可以使用逻辑运算,因而搜索速度很快。例如每一张图像大小是 800kb,那么一百万张这样的图像所需要的内存大约是 760gb,现在计算机的内存基本上无法全部加载,即使提取 512 维的 gist 特征,同样也需要 2gb 的内存,而 128 位的二进制编码仅需要 16mb 空间,可以看出使用哈希编码可以节省大量的内存空间。

局部敏感哈希(lsh)[17]是早期最经典的哈希方法之一,对之后哈希方法的发展起到了至关重要的作用,但其准确率低所以不能满足现实需求。为了克服lsh的种种缺陷与不足,weiss在2008年的时候提出了谱哈希(sph) [18]需要通过假设新的数据分布符合一个超矩形平面,才能得到哈希码。在现实应用中,数据一般是不会符合这种假设,因此实用效果差。之后,gong等人提出了迭代量化哈希(itq)[19]在sph的基础上,采用了迭代量化的形式,学习一个旋转矩阵,来修正投影方向和减小量化误差。最近,由于互联网上的数据种类变多,用户想要通过检索获得不同模态下的数据(比如,用户希望通过搜索文本来获得与文本相关的图像数据),因此,许多学者提出了跨模态哈希学习,例如:多视角哈希(cvh)[20]稀疏多模态哈希(sm2h)[21]等。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容与方案

为了得到快速准确的搜索结果,我们要求哈希算法满足以下三个方面的要求:

  1. 对于给定的查询点,可以很容易计算其编码;
  2. 编码的位数要尽量少;
  3. 相似的数据对应的编码的汉明距离要小。

据此,我们拟采用在深入学习和研究现有哈希算法的基础上,提出一种基于分类器的监督哈希算法框架,并将支持向量机分类器或adaboost 分类器应用于此监督哈希算法框架中,有效地提高了检索的精度。根据训练数据及相应的类标,对同类数据设定相同的编码,则每一位编码可看作一个二分类问题,基于此训练每一位编码对应的分类器,得到对应位的哈希映射函数。

通过对类标传递算法的研究,提出一种基于类标传递的半监督哈希算法框架,并将本文提出的监督哈希算法应用到此半监督框架中。基于类标传递的半监督哈希算法首先根据数据及少量类标,使用邻图的构建方法,构建所有训练数据之间的近邻图,然后使用lgc算法估计未标记数据的类标,从而使得所有训练数据均含有类标。在使用类标传递算法得到所有训练数据的类标后,将训练数据和训练数据的类标作为监督哈希算法的输入,使用监督哈希算法学习得到哈希映射函数,并且对训练数据进行编码。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 研究计划与安排

1-3周:查阅文献,完成开题报告
4-6周:总体设计,完成论文综述
7-10周:改进与推广
11-13周:论证和检查
14-15周:写论文,提交初稿,给老师检查,修改定稿,答辩。

4. 参考文献(12篇以上)

[1] dell zhang, jun wang, deng cai, jinsong lu. self-taughthashing for fast similarity search. sigir 2010: 18-25

[2] jingkuan song, yang yang, yi yang, zi huang, heng taoshen. inter-media hashing for large-scale retrieval from heterogeneous datasources. sigmod conference 2013: 785-796

[3] fumin shen, chunhua shen, wei liu, heng tao shen.supervised discrete hashing. cvpr 2015: 37-45

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图