大数据实体识别研究与仿真开题报告
2021-12-14 21:56:13
1. 研究目的与意义及国内外研究现状
随着信息技术的发展,大数据正在成为信息社会的重要财富,引起了国内外学术界、工业界和政府部门的广泛关注。
大数据研究已经蓬勃兴起,但是工作主要集中在大数据的存储、管理、挖掘分析等方面。
数据可用性问题没有得到足够的重视。
2. 研究的基本内容
本课题主要实现互联网环境下个人信息实体同一性识别的研究工作。
通过分析个人信息数据集的数据特征,构造键-值对,建立包含邻近数据的哈希表;而后基于Hung-sik Kim等人提出的基于局部敏感迭代哈希的记录链接算法(HARRA)进行相似度量,并改进输出方案,使结果可视化,最后完成个人信息实体识别。
具体到实现上,通过数据分块处理思想, 利用Hash函数将原始数据空间中相邻数据点通过相同的映射或投影变换到同一个桶内(bucket, hash bin),不相邻的数据点分散到不同的桶中,即对数据进行“粗”聚类,然后在每个桶内单独运行HARRA算法,即对数据进行进一步的“细”聚类,最后把块上的聚簇结果合并得到实体识别的结果。该方法降低了每次调用聚簇算法的时间代价,整体上提高了基于聚簇方法的实体识别算法的效率。此外,还改变对结果的输出方式,使得识别结果可视化。3. 实施方案、进度安排及预期效果
实施方案: 通过查阅相关资料和动手实践,深入了解数据可用性、实体同一性错误检测、lsh、minhash和harra聚类算法的基本概念及原理。先把相关概念和基本原理了解透彻,再通过分析选定数据集的数据集特征,建立哈希表,利用harra算法,完成个人信息实体的识别工作。
进度安排: 2016年1月-2月查阅相关资料,自己学习有关数据可用性、实体同一性及聚类算法的知识。
2016年3月根据前期的准备,编写实体识别算法,并运行相关数据,检查缺陷且进行完善。
4. 参考文献
1、李建中,刘显敏. 《大数据的一个重要方面:数据可用性》 计算机研究与发展20132、Kim H, Lee D. HARRA: Fast Iterative Hashed Record Linkage for Large-Scale Data Collections [C] // Proc of the 13 Int Conf on Extendind Database Technology. New York: ACM, 2010: 525-536
3、A. Gionis, P. Indyky, and R. Motwaniz. Similarity Similarity Search in High Dimensions via Hashing. In VLDB, pages 518–529, 1999