生物文献分类系统的设计与实现开题报告
2020-04-06 11:07:20
1. 研究目的与意义(文献综述)
21世纪生物医学和信息技术的快速发张是的医学信息资源类型多样,数量庞杂,更新迅速。医学文献数量占科技文献总量的20%-25%,居学科文献之首。而相对应的医学科学研究需要对医学文献信息进行检索与分析,才能发现其中规律性的知识,获取有价值的信息,这是医学学术研究的重要组成部分。目前,医学文献检索系统存在的主要问题包括医学术语的同义现象较多,文献的规范化程度不高,造成医学文献的查全率与查准率受到较大的影响;文献之间的关联性较差,无法体现文献之间的规律性知识,未能全面满足用户的信息需求以及医学文献的寿命很短,半衰期仅为3.5年。为了解决这些问题,基于医学主题词表(medical subject headings,mesh)的医学信息组织工具在标引、编目、生物医学文献数据库和相关网络检索系统中得到了广泛应用。然而,要想更好的利用mesh这个权威性的工具,就必须将将生物文献正确地归类到mesh(medical subject headings)术语,目前,这个分类过程主要是基于人工操作的,效率比较低下并且准确率有待提升。而本文地研究目的就是为了通过一些如svm,text-cnn的分类算法,设计一个自动的智能的生物文献分类系统,以供后续更方便更准确更智能的检索。
mesh 于 1960 年首次出版,至今已经经过50多年的发展,逐渐成为医学文献信息服务领域的重要工具,为人类生物医学研究 的发展起到了重要的推动作用。目前美国国立医学图书馆每年都出版一个 mesh 的新版本, 所以 mesh 是一部规范化的可扩充的动态更新叙词表。美国国立医学图书馆以 mesh 作为生物医学文献标引的依据,并编制《医学索引》(index medicus)及建立计算机文献联机检索系统 medline 数据库。
在国内,随着mesh的版本升级和优化改进,以及国内生物医学文献信息服务领域对mesh的熟悉和了解,mesh正在被逐步应用到相关的生物医学文献数据库及其系统产品中。这其中比较典型的系统或网站有中国生物医学文献服务系统、万方医学网和中国医学数字图书馆。这三个案例体现了国内应用mesh的进展和成果,可以对国内相关研究机构和人员应用mesh提供一些借鉴和参考。总体来说, mesh 在国内实际应用的时间还不算长,在 mesh 翻译的权威性、 mesh 标引的准确性以及 mesh 检索的科学性方面还有待继续提高。对 mesh 进行更加深入的研究和更加科学的应用,对于提升国内医学文献信息服务水平具有重要的意义。
2. 研究的基本内容与方案
基本内容:如今,越来越多的人投身于生物医学领域研究,对生物文献的获取需求也越来越大。对生物文献进行检索主要有两种方式,其一是关键词检索,其二是主题词检索。就关键词检索而言,主要存在如下问题:(1)如何保证检索出来的文献与关键词的相关性、准确性,(2)如何扩展关键词,对关键词的同义词、近义词也进行检索,以保证检索结果的全面性。就主题词检索而言,虽然检索结果全面、准确,但是用户很难判断一篇生物文献属于哪个主题词。目前,对生物文献进行归类主要是基于人工的,效率和准确性都比较低。因此,通过建立一个生物文献分类的系统将生物文献正确地归类到mesh(medical subject headings) term,以供后续的检索是十分重要的,也是本文需要研究的基本内容。
目标:利用学习的算法和掌握的技能设计并实现生物文献分类系统,并在之后的测试中对所实现的系统进行完善。
3. 研究计划与安排
(1)2018/1/14—2018/3/5:确定选题,查阅文献,外文翻译和撰写开题报告;
(2)2018/3/6—2018/4/30:系统架构、程序设计与开发、系统测试与完善;
(3)2018/5/1—2018/5/25:撰写及修改毕业论文;
(4)2018/5/26—2018/6/6:准备答辩
4. 参考文献(12篇以上)
[1] gault l v, shultz m, davies kj.variations in medical subject headings (mesh) mapping:from the naturallanguage of patron terms to the controlled vocabulary of mappedlists[j].journal of the medical library association jmla, 2002.
[2] zhang y, sarkar i n, chen e s.pubmedminer: mining and visualizing mesh-basedassociations in pubmed[j]. amia. annualsymposium proceedings, 2014.