面向小样本的文本分类方法研究与实现文献综述
2020-04-14 20:09:27
撰写内容要求(可加页):
1.目的及意义
背景资料:
近年来,随着移动互联网的快速发展,网民数量的大幅增加,数以几十亿计的网民每天在互联网上留下大量的数据。而这其中的数据,很大一部分是以文本的形式呈现的。对于互联网企业/政府部门而言,由于数据量的巨大和时间限制,由人工进行分类是不现实的,因此,程序自动化分类文本是迫切的需求。近年来,随着机器学习理论的发展,越来越多的互联网公司开始用机器学习的方法来进行文本的自动化分类。
然而,由于传统的机器学习方法需要大量的标注文本数据来进行训练,当面临标注文本的数据量比较少时,就显得力不从心了。在现实生活中,一方面,对大量文本数据进行标注是比较耗时耗力的;另一方面,有些文本数据的量本来就比较小,无法用来满足传统机器学习方法的训练。例如,对民航员工在社交网络上发布的文本数据进行分类,就面临数据量比较小的问题。因此,如何实现小样本的文本数据分类,是当下文本分类研究领域的一个重要方向。
目的及意义:
本项目在传统的机器学习基础上,引入迁移学习这一方法,面向小样本的文本数据进行分类,在各个领域都有着广泛的应用。例如,垃圾电子邮件的识别与分类,网络商城的商品评价分类,社交网络上的色情有害信息自动识别,大众情绪的识别等。
用传统的机器学习方法来进行文本分类,存在以下三个主要问题:
l 大数据和少标注之间的矛盾:随着互联网的快速发展,网络世界的数据量越来越大,但是这些大数据缺乏完善的数据标注,这给机器学习训练模型带来困难。
l 大数据和弱计算之间的矛盾:一些模型的训练需要漫长的时间和极大的算力,而普通人是比较难获取这些算力的。