基于单智能体Q-学习的公共品博弈模型及仿真任务书
2020-04-08 15:03:35
1. 毕业设计(论文)主要内容:
本课题基于多智能体仿真平台repast,结合演化博弈论的基础知识和多智能体仿真技术,实现基于单智能体Q-学习的公共品博弈模型及仿真。
有限理性的个体在规则网络环境中进行公共品博弈,在博弈过程中引入单智能体Q-学习进行自学习不断更新策略,以期在重复博弈的过程中找到最优策略。
2. 毕业设计(论文)主要任务及要求
(1) 查阅不少于15篇的相关资料,其中近5年外文文献不少于3篇,完成开题报告(设计目的意义至少800汉字,基本内容和技术方案至少400汉字)。
(2) 设计基于多智能体仿真平台repast,建立起基于公共品博弈的多agent模型。
(3) 在博弈过程中引入单智能体q-学习进行自学习。进行仿真实验,得出仿真结果并分析网络中个体间协作关系的演化过程、网络收益和个体收益的分布状况,以期建立促进合作演化的策略更新机制
3. 毕业设计(论文)完成任务的计划与安排
(1) 第1-3周:查阅相关文献资料,明确研究内容,学习毕业设计研究内容所需理论的基础。确定毕业设计方案,完成开题报告。
(2) 第4-7周:掌握公共品博弈模型及q学习的基本原理,完成英文资料的翻译,熟悉开发环境。
(3) 第8-10周:完成基于多agent的仿真模型。
4. 主要参考文献
[1] zhang k, cheng h.co-evolution of payoff strategy and interaction strategy in prisoner’sdilemma game[j]. physica a statistical mechanics amp; its applications, 2016,461:439-445.
[2] k, m., utility based q-learning to maintain cooperation in prisoner’ s dilemma games. web intelligence amp; agentsystems.
[3] tesauro, g. and j.o. kephart, pricing in agent economies usingmulti-agent q-learning. autonomous agents and multi-agent systems.