基于多因子融合的问答流行度预测方法设计与实现开题报告
2020-04-13 17:06:22
1. 研究目的与意义(文献综述)
如今,基于社区的问答(CQA)网站成为流行的基于互联网的网络服务,随着时间的推移,已经积累了上亿的问题和答案,这些社区问答数据覆盖了方方面面的用户知识和信息需求。因此,“问题答案”问题在CQA网站中的非常重要。预测问答流行度也有重要意义,即给定CQA(知乎、quora等)中的一个问题及一个特定答案,预测他的流行度(例如:多少人点赞)。预测答案流行度可以在问答平台首页展示问题-答案对(按流行度),好处在于不用细化到具体问题,对于所有问题皆可能有展示机会。
目前,大部分已有的工作都是在深层语义匹配模型的基础上研究“问题答案”的问题,同时也有一部分考虑了回答者对于给定问题的权威性,但很少考虑预测问答流行度时对问题发布者额外进行建模。社区问答系统有大量的用户参与,存在丰富的用户行为信息,例如回答者的问题采纳率、以及用户、问题、答案之间的相互关联信息等等,这些用户行为信息对于社区中问题和答案的分析具有重要的价值。本文在预测问答流行度时,不仅计划考虑答案与问题的匹配度,还考虑了提供答案的用户的性质(由于CQA中答案具有开放性,不一定只有唯一答案),以及问题发布者对整体流行度的影响。
2. 研究的基本内容与方案
研究的基本内容主要是根据答案与问题的匹配度,提供答案的用户的性质,以及问题发布者对整体流行度的影响,设计与实现问题答案的流行度预测。拟使用python语言进行,利用神经网络(卷积神经网络(convolutionalneural network, cnn)和循环神经网络(recurrent neural network,rnn))自动特征学习的特点,使用神经网络对问题和答案的自然语言文本信息进行特征学习,结合机器学习的学习模型,分析得到预测问答流行度的最优方法;(1)首先先仅考虑问题和答案的特征,利用得到的文本特征和其他分析后有用的特征,建模预测流行度;(2)进一步考虑答案提供者对于给定问题的权威性,添加进模型,优化结果;(3)最后考虑问题发布者对问答的整体流行度的影响,结合神经网络和机器学习模型得到最终的流行度预测方法。
cnn 可以得到文本特征向量用于分类学习。cnn 的优势在于在计算文本特征向量过程中有效保留有用的词序信息。与 cnn 相比,rnn 能够更自然地考虑文本的词序信息,是近年来进行文本表示最流行的方案之一。其中rnn的扩展模型,长短时记忆网络(lstm)提出记忆单元结构,能够更好地处理文本序列中的长程依赖,克服循环神经网络梯度消失问题。
3. 研究计划与安排
2018/1/14—2018/2/28:确定选题,查阅文献,外文翻译和撰写开题报告;
2018/3/1—2018/4/30:系统架构、程序设计与开发、系统测试与完善;
2018/5/1—2018/5/25:撰写及修改毕业论文;
4. 参考文献(12篇以上)
1) tay y, tuan l a, hui s c. crosstemporal recurrent networks for ranking question answer pairs[j]. arxivpreprint arxiv:1711.07656, 2017.
2) 周志华. 机器学习[m]. qing hua da xue chu ban she, 2016.
3) hochreiter s, schmidhuber j.long short-term memory[j]. neural computation, 1997, 9(8): 1735-1780.