登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 毕业论文 > 理工学类 > 数学与应用数学 > 正文

基于深度强化学习的投资组合策略毕业论文

 2022-01-18 21:27:22  

论文总字数:16449字

摘 要

本文首先对投资组合的概念进行简单地介绍,并且对投资组合的国内外研究状况,研究意义以及目的进行概括。接着对机器学习进行介绍,并对机器学习中的强化学习和深度学习以及深度强化学习进行详细的说明,为研究投资组合做好基础。为了突出深度强化学习算法做出的投资组合策略的优势,先用等权重多因子选股和GRBT多因子选股两种策略进行实验回测,再使用深度强化学习中的DDPG算法实现解决投资组合策略,最后对深度强化学习算法构造的投资组合策略进行分析

关键字:投资组合策略 深度学习 强化学习 DDPG算法 深度强化学习

Portfolio based on deep reinforcement learning

Abstract

Firstly, this paper briefly introduces the concept of portfolio, and summarizes the research status, significance and purpose of portfolio at home and abroad. Then, machine learning is introduced, and reinforcement learning, deep learning and deep reinforcement learning in machine learning are described in detail, so as to lay a good foundation for the research of investment portfolio. Depth to highlight the advantage of the reinforcement learning algorithm to make the portfolio strategy, use first weighting factor to pick stocks and GRBT more many factors such as stock selection two strategies for experiments to test, reuse depth DDPG in reinforcement learning algorithm to solve the portfolio strategy, finally, the depth of reinforcement learning algorithm to construct the portfolio strategy is analyzed.

Key words:Deep learning;Reinforce learning;DDPG;Deep Reinforce learning;

Portfolio manageent Policy;

目录

摘要 I

Abstract II

第一章 引言 1

第二章机器学习介绍以及相关概念 4

2.1机器学习 4

2.2深度学习 4

2.3强化学习 5

2.4深度强化学习 7

第三章 多因子组合策略及因子挑选 9

3.1多因子选股 9

3.2打分法因子等权重 9

3.2.1打分法介绍 9

3.2.2相关系数介绍 10

3.2.3选股范围以及候选因子 12

3.3GBDT多因子选股策略 13

第四章模型假设以及问题描述 15

第五章DDPG算法以及实验 18

第六章结束语 23

致谢 25

第一章 引言

1.1研究背景及意义

在投资组合中,人们不仅要注意决策是否正确,更在意投资所带来的收益,投资在面对金融市场的动荡和复杂的环境两重挑战下,目标是使风险和在其中的不确定性降至最低,以使得投资者获得的最大回报率的投资组合管理模型被提出。又因为金融资产价格难以预测,交易数据体量庞大,并具有严重非线性,在实践中仅靠人脑难以做出最优决策。人们借助机器学习尝试预测市场未来变化趋势。本文利用深度学习在对金融产品资产配置的权重上进行合理调整, 建立模型,以使得该模型优秀突出收益。

1.2国内外研究状况

1.2.1国外相关研究状况

Saud Almahdi, Steve Y. Yang扩展了经常性强化学习(RRL)中的现有工作,并在连贯的下行风险度量下建立了最优的可变权重投资组合分配,即预期的最大亏损E(MDD),提出了一种经常性的强化学习方法,具有连贯的风险调整绩效目标函数,即Calmar比率,以获得买入和卖出信号以及资产配置权重,使用由交易最频繁的交易所交易基金组成的投资组合,与先前提出的RRL目标相比,基于预期最大跌幅风险的目标函数可以产生更高的回报表现功能,并且可变权重RRL长/短投资组合在不同交易成本情景下的表现优于等权重RRL长/短投资组合。进一步提出基于自适应E(MDD)风险的RRL投资组合再平衡决策系统,其中包括交易成本和市场条件止损再培训机制,并且表明所提议的投资组合交易系统更好地响应交易成本效应并且始终优于对冲基金基准。并提出投资者都会在自己投资组合中选择一个合适的权重,并且提出了三种启发式算法(遗传算法、模拟退火算法和粒子群算法)来解决投资组合约束问题[4]。

Parag C. Pendharkar, Patrick Cusatis,设计在线SARSA和离线Q学习方法来得到投资组合最大化收益率,设计了时间差异学习,TD(),在离散状态和连续动作设置中使用线性估值函数。实验测试了策略上的和非策略的离散状态,离散行为代理,使总回报或差动比率相一致。通过RL模型,利用机器学习得到投资组合中合适的权重比单一资产股票和债券的累积收益都要高得多。但实验同时也说明了在现实中连续的状态空间和连续动作时间更为真实但是会增加代理学习的复杂性[5]。

1.2.2国内研究状况

国内学者也将神经网络运用到投资组合管理之中:

在实证研究,郑正强,徐迪兴,金正亮构建无金融模型的强化学习框架,该框架包括独立拓扑结构,组合向量存储器,在线批学习方案和充分开发和显式奖励函数并在三个时刻通并且经由卷积神经网络(CNN),基本递归神经网络 (RNN)和长短期记忆(LSTM)实现,在加密货币市场中进行回归实验,结果显示:长短期记忆模型与卷积神经网络,基本递归神经网络三个网络的集合在与传统模型相比能获得更高的收益[2]。但是该模型基于零市场影响和零滑点,仍需要大量的数据进行回测实验。

同样的,刘笑天,赵胜民本文使用BP神经网络模型对股票价格的时间序列进行预测,并利用在线学习算法对资产组合的权重配置进行实时调整,构建了基于神经网络的在线学习(OLNN)策略[9]。实验证明OLNN策略与两种常见的离线策略(Market策略,Median-Stock策略)进行比较,年化收益率和夏普比率更高,最大回撤率更低并且这些指标稳定性更强。得到OLNN模型组合在权重构建、优化资金配置方面提供了理论操作以及依据。

邓晓卫,章铖斌以LSTM和BP神经网络为混合模型,将其引入证券市场进行统计套利,并且通过增加投资组合产品个数,继续测试模型,得到结论,投资组合越多元,风险越小,而且混合神经网络模型准确率也高于BP神经网络,并且最大收益率,最大亏损率都有所改善[7]。

李章晓,宋微,田野利用循环神经网络GRU建立汇率预测模型后利用多目标进化算法 AR-MOEA建立了最大化期望收益率与最小化风险的投资组合,解决了传统模型预测价格只能使用短期历史输入的局限性,并且得到了更加优越的投资组合方案[8]。

林浩楠提出CMOEA/D-FA算法,用以解决单期资金分配问题,提出多期动态演化算法把前面整个研宄成果放入到多期动态环境中,进行相应优化,并分析多个算法的性能,接着提出了最终帕累托集的基于模糊理论的选择算法,获得在不同的环境下的相对最优的解决方案,得到结论整个模型在解决多个投资机器人资金配置问题上是合理的[11]。

第二章机器学习介绍以及相关概念

2.1机器学习

机器学习的实际是无序数据转化为价值的方法。而机器学习的价值从数据中抽取规律并用来预测未来。金融市场是最早将机器学习运用其中的领域之一。“机器学习时期”包括了以下三个阶段,第一阶段是80年代感知机(Perceptron)和神经网络(Neural Network),第二阶段是运用统计相关的知识进行学习研究,紧接着,到了第三阶段深度神经网络被提出,而且随着数据量和计算能力的不断提升,以深度学习(Deep Learning)为基础的诸大量AI应用并且发展迅速趋于成熟。

2.2深度学习

Hinton等人首先论述对深度学习的想法与理解,随后根据DBN(深度置信网络)所提供的信息上,提出调优以及逐层训练方法,再经过自主学习过程后将吸收到的特征处理优化,解决了时常出现的局部最优解以及非智能的选取特征。深度学习常见的网络结构包括深度神经网络DNN 、深度信念网络 DBN、卷积神经网络 CNN、循环神经网络 RNN、LSTM 等,深度学习分为监督学习和无监督学习[6]。最常见的神经网络依附网络层数的增加难以解决局部最优解和过拟合的问题。深度学习在搜索技术,数据挖掘,机器学习,机器翻译,自然语言处理,多媒体学习,以及其它相关领域都取得了很多成果,深度学习使机器模仿视听和思考等人类的活动,将复杂问题趋于简化最后将其解决,使得人工智能相关技术取得了很大进步,深度学习在图像生成,alphago,机器翻译中都有深刻表现[6]。浅层次学习难以对复杂的函数较为贴近的表达,而深度学习则通过对非线性网络结构的学习,解决浅层学习不能解决的对复杂函数的表现问题,同时也具有强大的在数据中提取特征的能力。深度学习也是机器学习的一种,而且深度学习所学习到的参数都是权重,被用来拟合出一条多维空间的曲线。

深度学习中所采用的训练方法又与已知的传统的神经网络掌握的方法有所差异,传统神经网络所使用的训练方法是通过调整权重,而其调整权重的方式则是要因为残差的逆方向传递[4]。深度神经如果采取此种训练方法,会因为其有数量较大的网络层数被训练,而使梯度扩散的问题明显暴露出来。

深度学习分为调试其最优状态以及每次训练时从一层开始进行的两步。

当对每一层进行训练时,通常会进行下述的操作

从上层向下传递且为监督学习

从上层向下传递且为监督学习

采用无标定数据分层训练各层参数,这一步可以看作是一个特征学习过程,是和传统神经网络区别最大的部分,逐层学习每一层的参数,每一步可以看作是得到一个使得输出和输入差别最小的三层神经网络的隐层,使得得到的模型能够学习到数据本身的结构,得到

比输入更具有表示能力的特征。

基于第一步得到的各层参数进一步微调整个多层模型的参数,这一步是一个有监督训练过程,第一步类似神经网络的随机初始化初值过程,由于深度学习的第一步不是随机初始化,而是通过学习输入数据的结构得到的,因而这个初值更接近全局最优,从而能够取得更好的效果,所以深度学习效果好很大程度上归功于第一步的特征学习过程

在特征学习中,针对每一层的参数训练,无标定数据在发挥了重要的作用,区别与普通的神经网络,被训练的参数,换一种角度就是存在输出和输入差别最小的三层神经网络的隐层,本质皆从该模型中模拟出来,输出表现特征明显优于输入[16]。

基于第一步得到的各层参数进一步微调整个多层模型的参数,这一步是一个有监督训练过程,第一步类似神经网络的随机初始化初值过程,由于深度学习的第一步不是随机初始化,而是通过学习输入数据的结构得到的,因而这个初值更接近全局最优,从而能够取得更好的效果,所以深度学习效果好很大程度上归功于第一步的特征学习过程[16]。

2.3强化学习

状态是机器对当前环境的感知,机器仅通过动作影响环境,机器执行动作后,会使环境按概率影响下一状态,同时,环境会根据奖赏函数反馈给机器奖赏。强化学习四个主要要素:状态,动作,转移概率以及奖赏函数。最大化的奖赏函数是动作所要到达的,直到最终算法收敛,所得的政策就是一系列动作的连续性数据。具体而言:机器处在一个环境中,每个状态为机器对当前环境的感知;机器只能通过动作来影响环境,当机器执行一个动作后,紧接着的状态会接受到环境以相应概率的传递;相邻时间内,凭借着已经存在还未浮现的奖赏函数环境也反应给机器奖励。但是强化学习本质上局限于相当低维的问题。究其局限问题的本源是因为强化学习算法与其他算法复杂性相似。

状态,就是当前动作所处的状态,状态也等于环境;政策是行动对于状态的反应,并且由确定策略以及随机策略二者构成。马尔科夫列过程也可以称为状态以及状态的转移,奖赏函数通常都被表示第t个时间步伐的返回奖赏值[12]。所有强化学习都是基于奖赏函数假设的。奖赏函数是一个标量,在进入每个状态后,能打来正面或者是负面的影响,而动作择时当前状态下被容许的行动。

传统的强化学习难以解决动作以及状态空间维度很高的问题。强化学习为了获得长期奖励,要对动作进行优选

强化学习是使得代理人从环境中获得的奖赏最大化用以学习到最优策略,所以其目标就是寻找首位策略。强化学习方法在对于学习策略更加注重,被认为是迈向通用人工智能(Artificial General Intelligence, AGI)的重要途径。

在强化学习中存在的主要方法有Q-Learning算法,策略学习。下图清楚地介绍了强化学习的流程图

图 1 2-1强化学习流程图

2.4深度强化学习

首先给出深度强化学习的整体流程图示

图 2 2-2深度强化学习流程图


深度强化学习在人工智能领域中的应用也愈来愈广.它将深度学习与强化学习联系,并运用二者的能力将感知和决策组合到一起,在使用时可以直接将数据从输入层输入,而在输出层得到结果。深度强化学习能较好地解决高纬度的输入数据问题。深度强化学习在人工智能,机器学习,博弈论方面都有广泛运用。

当状态和动作维数较低并且不是连续状态时,传统的强化学习中应用Q-Table储存各个状态动作对应到的的Q值[10]。偏近于现实和过程繁复的任务则往往有着很大的状态空间和连续的动作空间,这种情况下使用Q-Table不现实。同时实现端到端的控制也是要求能处理高维的,如图像、声音等的数据输入。而前些年开始兴起的深度学习,刚好可以应对高维的输入,如果能将两者结合,那么将使智能体同时拥有深度学习的理解能力和强化学习的决策能力。

第三章 多因子组合策略及因子挑选

3.1多因子选股

传统量化投资大多使用多因子选股,挑选适合因子构成策略,按照策略进行股票交易。多因子选股即将一系列因子作为选股的标准,满足标准被买入,反之卖出,多因子模型的优点在于,它能通过有限的共同因子来筛选数量庞大的个股,在大幅度降低问题难度的同时,也通过合理预测做出判断[10]。影响股票收益的因素很多,根据特征不同可以分成不同的类别.常见的大类因子如下表。我们从中八大类中挑选合适的因子,构造多因子策略。在这里我们首先采取各因子等权重,构造模型。

表3-1因子名称

大类因子名称

财务质量因子

规模因子

杠杆因子

波动率因子

动量因子

估值因子

规模因子

成长因子

3.2打分法因子等权重

3.2.1打分法介绍

打分法是凭借因子大小对股票打分,将得到的分数按某种权重加权得到总分,凭借得打的结果进行股票的筛选。对模型评价,实际通过测评分法回测出的股票组合收益率,就能够对备选的选股模型做出优劣评价。而本文是赋予各因子相同的权重再对股票进行筛选。打分法的有点在于相对稳定,不容易受到极端值的影响。但是打分大需要对各因子的权重做一个相对主观的设定,这也是打分法在时机模型评价过程中模型的关键点求取所在.

打分法流程

选股模型建立和选股

冗杂因子剔除

候选因子选择

3.2.2相关系数介绍

在进行实验前,先对涉及到观察分析的指标进行详细的解释。

表 3-2 股票分析指标解释

名称

介绍

Beta系数

是衡量股票收益相对于业绩评价基准收益的总体波动性指标,用以衡量系统性风险,投资者可以通过对系统风险指标的测量,在大盘处于趋势性较强的行情中进行有效的选股,值越高,意味着股票相对于业绩评价基准的波动性越大,反之亦然,当=1时,表示该股票的收益和风险与大盘指数收益和风险一致,当时,表示该股票收益和风险与大盘指数的收益和风险[15]。根据CAMP模型的公式,Beta的计算公式为

(3-1)

Alpha系数

是以投资或基金的绝对回报和按照系数计算的预期风险回报之间的差额,绝对回报是投资的实际回报减去无风险投资收益,绝对回报是用来测量投资者或基金经理的投资技术,反应投资或基金由于市场整体变动而获得的回报,实际风险回报和平均预期风险回报的差额即系数,表示基金或股票的价格可能被低估,建议买入,亦即表示该基金或股票以投资技术获得比平均预期回报大的实际回报,表示基金或股票的价格可能会被高估,建议卖空,表示基金或者股票的价格准确反应其内在价值,未被高估或者低估。

夏普比率

是以均衡市场假定下的资本市场先作为基准的一种按照风险调整的绩效测度指标,也就是用投资组合的总风险即标准差去除投资组合的风险溢价[15]。风险所带给的投资组合的收益,在已有假设前提之下资本市场中所存在的定价模型是以下形式

(3-2)

在上述 式中,代表投资组合的期望收益率,代表无风险利率,代表市场组合期望收益率,代表投资组合期望收益率的标准差,测量该投资的总风险,是市场组合的标准差,测量市场投资组合的总风险,夏普测度,就是资本市场线中的斜率项,当处于投资组合当中时,等于夏普测度等于该项投资组合的风险收益除以它的标准差相等[16]。公式如下

(3-3)

信息比率

  1. 一均值方差模型为基础,用来衡量超额风险带来的超额收益,表示单位主动风险所带来的超额收益,这个比值高则说明超额收益高[16]。具体计算方法是

(3-4)

式中,为组合收益率向量,为组合业绩基准的收益率向量,表示资产跟踪偏离度的样本均值,表示资产的跟踪误差[16]。

最大回撤

  1. 是一个重要的风险指标,小时组合与最高点的亏损率,描述策略可能出现的最糟糕的情况,反应了组合管理人守住收益的能力或基金持续盈利的能力,对于对冲基金和数量化交易,该指标比波动率还重要[16]。T日组合最大回撤的公式为

(3-5)

3.2.3选股范围以及候选因子

此次实验我们选择的是沪深300股份。本文中所选择的候选因子,基于经验从四大方面因子,分别为价值类因子,成长类因子,规模因子,以及交投类因子中测试了了21个因子。通过对因子有效性检验因子的去极值,标准化,冗杂因子去除确定了下列因子。

表 3-2 因子名称

因子名称

因子解释

ROE

资产净收益率

ROA

总资产净利率

inc_net_profit_year_on_year

净利润同比增长率

inc_operation_profit_year_on_year

营业利润同比增长率

market_cap

总市值

circulating_market_cap

流通市值

P/R

净利率

作为有效因子。经过选择的因子作为依据计算和个股的得分情况应在每月开始之时,并且求得平均值。如果在某月中没有得到因子的初始数值,则根据剩余因子来进行加权平均。对于上述得到的数据本文中将进行排序,在交易中排名位列前面的股票就是我们的选择。我们选取沪深300股2010年1月5日至2015年1月1日所有日级别的数据,并用2015年1月5日到2016年12月30 日进行回测.

图 3-3多因子等权重回测图

3.3GBDT多因子选股策略

GDBT全称Gradient Boosting Decision Tree即梯度提升树,是决策树的一种。此次实验中依旧选择沪深300 股中2010年1月5日至2015年1月1日所有日级别的数据,并用2015年1月5日到2016年12月30 日进行回测。

图 3-4GBRT多因子回测图

将上述两种方法按照相应的评价指标放到同一个表格之中。

图 3-5策略比较示意表

评价指标

第一种策略表现

第二种策略表现

阿尔法

0.077

0.5

贝塔

0.861

0.95

夏普比率

0.047

1.16

基准收益率

-6.33%

-6.33%

信息比率

0.579

0.11

年化收益率

5.47%

53.85%

从上述运行的结果来看,GBDT多因子侧率明显好与多因子等权重策略。

表3-6GBDT算法优点与缺点

GBDT算法的优点

GBDT算法的缺点

预测精度高,适合低维数据,能处理非线性数据,可以灵活处理各种类型的数据,包括连续值和离散值,在相对少的调参时间情况下,预测的准备率也可以比较高,这个是相对SVM来说的,使用一些健壮的损失函数[13]。在这里鲁棒性是将稳定性和可靠性作为目标

由于弱学习器之间存在依赖关系,难以并行训练数据。不过可以通过自采样的SGBT来达到部分并行。如果数据维度较高时会加大算法的计算复杂度。

通过以上两组实验不难发现,传统的有效因子方法基于相关分析,与收益相关性高的因子类别中,选择累计收益率改的,战胜市场率大的因子。

第四章模型假设以及问题描述

4.1模型假设

在实际的市场交易中,大额的交易会导致市场价格的不稳定,交易成本与交易额并不会趋于稳定的正比关系,由此会产生投资者在对股票买入亦或是卖出时未能按照其收盘价格。因此做出下列假设简化问题。

假设1.市场资产流动性高,每笔交易都可以最后价格即收盘价交易

  1. 交易中资金的投入量对市场的影响微不足道

4.2问题描述和模型表示

面对一定数量的风险资产时,要合理分配资金,按照某种特点使得资产所占资金的比例满足低风险高回报这一目的。在投资组合管理中,各项资产的权重是连续的变量,需要通过深度强化学习网络进行自我学习和计算,在实现总收益最大化的目标下,在每个交易时刻之前输出一次最优权重,并通过自动交易将投资组合各项资产的比例调整到最优权重,从而实现优化的投资组合管理[11]。

4.2.1数学形式

在试验中全部资产是由风险资产和任意一种货币所组成,第一个资产为货币代表,其余为风险资产。在连续市场中,价格向量是资产在期的开盘价也是期的收盘价.所有资产的收盘价包含时期的价格向量,即的第个元素,,第个资产在期的收盘价,是资产收盘价和开盘价的商数,即投资收益率。

(4-1)

请支付后下载全文,论文总字数:16449字

您需要先支付 80元 才能查看全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图