基于朴素贝叶斯分类器的同名消歧算法开题报告
2022-01-07 22:28:53
全文总字数:2380字
1. 研究目的与意义及国内外研究现状
本课题的目的:对于一些作者同名的论文,难以分辨此论文究竟出自哪个作者。本文根据论文中所标注的机构名以及不同作者使用虚词的习惯不同,利用朴素贝叶斯分类器进行同名消歧,使论文被引频次的统计工作更为精确。
本课题的意义:提高区分同名作者的精度,使论文被引频次的统计工作更为精确。同时帮助研究作者群在年龄、地域、学科领域等方面的分布情况,从而能够发现和追踪不同学科的科学前沿,辨明和研究不同领域的热点课题。
国内外研究现状
同名是一个人名对应多个真实个体的现象。同名区分就是要将这些混合在一起的真实个体区分幵。早在 1998 年 bagga 和 baldwin把这个问题做过探索,渐渐引起人们关注。刚开始针对数字参考文献检索系统中经常会出现同名作者问题进行同名作者消歧,数字图书馆联合会议(jointconferences on digital libraries,jcdl)就是针对这个问题召开的,它从 2001 年开始在美国举行,现已成功举办 16 届,随着网络的发展,网页中人名同名问题开始对网络应用带来不利影响。2007 年,网页人物搜索会议(webpeople search,we ps)召开,主要解决网页人名检索中的同名问题,同时把人名消歧问题作为自然语言处理的一个基本问题。
2. 研究的基本内容
根据论文中所标注的机构名以及不同作者使用虚词的习惯不同,本文打算利用朴素贝叶斯分类器进行研究。首先在特征独立性假设的基础上, 讨论朴素贝叶斯分类器的原理。继而描述提取特征的方案:将pdf格式的文本提取为字符串,通过大量实验选取出分辨度较高的一些虚词,统计这些虚词出现的频率,将这些频率作为特征。再将贝叶斯分类器用代码实现,用CNKI上的论文作为数据源进行大量实验。贝叶斯分类器不存在单分类器与多分类器的实现差异, 应用于文本分类这一问题上,预计会达到一个不错的效果。
3. 实施方案、进度安排及预期效果
本课题的实行方案:
使用tika插件将pdf格式的文本提取为字符串,提取使用虚词的频率作为特征,应用朴素贝叶斯算法进行实验。最后,总结设计成果,撰写论文。
进度安排:
4. 参考文献
1[1] guo, s.: research on author name disambiguation algorithm in the literature database. new technology of library and information service 29(z1), 69-74 (2013).
2[2]gu, b., sun, x.m., sheng, v.s.: structural minimax probability machine. ieee transactions on neural networks and learning systems (2016). doi : 10.1109/tnnls.2016.2544779
3[3] zhou, z.l., wang, y.l., wu, q.m.j., yang, c.n., sun, x.m.: effective and efficient global context verification for image copy detection. ieee transactions on information forensics and security, vol.12 no.1. pp 48-63, 2017. doi: 10.1109/tifs.2016.2601065, 2016.