融合迁移学习和GAN的文本分类算法研究与实现开题报告
2020-02-18 19:35:20
1. 研究目的与意义(文献综述)
文本分类是一种重要的数据分析方法,它能够提取、刻画出重要数据类的模型,使得计算机可以从过去的数据中获取知识,解决问题。有关文本分类的研究经过多年发展,算法的分类精度和时间效率都得到了令人满意的结果,但是传统的基于统计的机器学习算法仍存在不能应用之前己经存在的分类体系给新的数据集分类,并且要求训练数据与测试数据必须满足同分布的限制。而迁移学习是运用已存有的知识对不同但相关领域问题进行求解的一种新的机器学习方法,刚好能够放宽这两项限制,实现对不同分布的数据的知识复用,因此学者们开始关注将迁移学习模型引入到文本分类中。
根据迁移方式的不同,常把迁移学习文本分类分为四类:基于实例权重的迁移学习、基于特征的迁移学习、基于参数的迁移学习与基于关系知识的迁移学习,其中前两种迁移方式被研究地较为普遍。其中基于实例权重的方法主要适用于两个领域差异较小的场景,但当两个领域之间的数据在领域间分布差异比较大时,该方法就很难只是通过简单调整样本权重的方式达到学习目的,具有一定拘束性。本设计拟研究基于特征表示的迁移学习方法,先把数据映射到特征空间,得到一个特征向量,然后在这个新的特征空间下加入一些约束减少两个域特征之间的分布差异,最终达到迁移学习的目的,这样即使源域和目标域边缘概率分布差异比较大,但是两个领域之间只要存在一定的关联,该种方法就会通过在特征空间上约束使两个领域分布对齐,达到知识转化复用的目的。
学者们还常根据迁移学习中源领域和目标领域在特征空间、类别空间的异同分为同构迁移学习和异构迁移学习,清华大学的龙明胜根据边缘分布、条件分布等因素进行了更为细致的划分,如图一。本设计主要研究同构迁移学习中的领域适配问题。
图一 迁移学习分类
随着生成对抗网络被广泛关注,对抗学习的思想也开始被大家所研究。通过构建两个相互对抗的子网络:生成器和判别器,模拟博弈论中两人对弈的场景,使两个子网络之间交替训练,相互对抗,使各自的性能逐渐提高。对抗思想为解决迁移学习中领域适应问题提供了新的思路,这些方法主要关注于对齐源域和目标域的特征分布。如ADDA方法提出一种对抗域适配的泛化框架,先在源域上学习出一个特征抽取器和一个分类器,再在目标域上利用GAN对抗的思想把目标域的数据映射到源域上,进而能够学出一个新的特征抽取器,达到迁移学习的目的。
综上,本研究拟将对抗思想引入基于特征的迁移学习,解决领域适应问题。把生成对抗网络中的生成器生成样本过程转化为对目标域特征提取的过程,不断学习域数据的特征,使得判别器无法对源域和目标域进行分辨,利用学习到的目标域特征和源域特征进行文本分类问题,并进行实验评估。
2. 研究的基本内容与方案
本次毕业设计的主要内容是设计一个融合迁移学习和生成对抗网络的文本分类算法并将其实现,观察其效率。拟将对抗思想引入基于特征的迁移学习,解决领域适应问题,在ganin y 等人提出的dann(域对抗神经网络)的模型的基础上,以学习目标域数据特征,建立文本分类算法并提升效率为设计目标。
在设计的具体进行过程中,我打算按照以下流程进行相关知识的学习和设计的实施:
-
python编程能力的强化:python语言是实现数据处理、学习算法的重要语言,因此对python的编程能力的强化是很有必要的,尤其要学习类似方向的实例代码,学习算法的编程模式。
剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!3. 研究计划与安排
-
2019年2月20日到2019年3月10日:python编程能力的强化和论文的查阅;
-
2019年3月10号到2019年4月10日:算法的提出与实现;
-
2019年4月10日到2019年4月30日:算法的检验,效率比对和调整;
剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!4. 参考文献(12篇以上)
[1]吴冬茵, 桂林, 陈钊, et al. 基于深度表示学习和高斯过程迁移学习的情感分析方法[j]. 中文信息学报, 2017, 31(1).
[2]韦余永. 基于实例与特征的迁移学习文本分类方法研究[d]. 2015.
[3]生成式对抗网络gan的研究进展与展望[j]. 自动化学报, 2017(3).
剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付
-