基于机器学习的Stack Overflow问答平台自动标记的设计与实现文献综述
2020-04-17 16:52:48
一、开发背景 在信息系统中,标记是一种分类信息和搜索内容的流行方式。
使用关键字或标签注释文档对于分类文档和帮助用户高效,快速地查找文档非常有用。
因此,几乎所有在线报纸、博客、问答社区和其他类似网站都使用标签对文章、帖子、问题、答案等进行分类。
类似地,Stack Overflow使用标签对编程问题进行分类,以便他们的用户可以在同一主题上找到类似的问题,或者找到他们可能能够回答的问题。
在Stack Overflow上,提问者可以添加最多五个标签,以使用现有标签或使用他们创建的新标签对问题进行分类。
但是,提问的人可能不一定知道对问题进行分类或标记的最佳方式,并且自动标记或分类问题是一项具有挑战性的任务。
对问题进行适当标记可能对获得快速回答很有用,因为当发布带有与其兴趣相关的标签的问题时,可以通知到潜在的读者。
由于问答网站可能会收集数十万个带有标签和其他数据的问题,因此该信息可用作自动为新问题建议标签的方法的培训和测试数据集。
本次毕业设计从问答网站Stack Overflow中的数十万个问题中挖掘数据,并使用判别模型方法,来自动标记问题标签,以帮助提问者选择适当的标签。
二、国内外的研究现状 国外主要的研究单位:CMU、斯坦福。
剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付