基于logistics回归和svm的乳腺癌分类研究开题报告
2021-12-14 21:55:01
1. 研究目的与意义及国内外研究现状
当今社会,乳腺癌已然成为女性困扰的因素。自20世纪70年代开始,整个世界的乳腺癌的发病率持续增高。根据国家癌症中心和卫生部疾病预防控制局2012年公布的2009年乳腺癌发病数据显示:在全国范围内,女性恶性肿瘤患病率最高的便是乳腺癌。
在如今一个信息化的社会,计算机的应用越来越广泛。关于乳腺癌的研究已经不仅仅是在医院用医疗设备进行测量。即使在家里,了解到相关的数据,利用本文所讨论的logistics和svm方法,也可以利用计算机方便的测试出你患病的概率。这无疑减少了我们去医院所花的费用,在日常生活中也十分方便,预测结果也十分可信。
2. 研究的基本内容
首先,本文基于二元logistics回归对数据进行了分析,从单因素对乳腺癌的影响分析到多因素共同影响的分析。单因素对乳腺癌的影响其实就是分析变量2至10与乳腺癌的关系(1对1)。对于这种1对1的关系,本文首先对所有数据进行了列表分析,分析各个不同指标下患乳腺癌的概率。如此之外,本文还另采用一种方法:盒状图。由于原始数据中有10个变量,7个为分组线性变量,另外3个变量为连续性变量。变量1即是否患乳腺癌为0-1变量。因此对此数据的处理先通过盒状图粗略地找出变量2至10与乳腺癌的关系。
其次,在讨论多因素对是否患乳腺癌的关系的时候,本文对数据进行预处理后再应用二元logistics回归分析精确地找出变量2至10中对乳腺癌显著性较大的变量,同时也建立了回归模型。
3. 实施方案、进度安排及预期效果
2016.2.22-2016.2.29查阅相关文献资料,归纳总结乳腺癌分类研究的大体方向。
2016.2.30-2016.3.10筛选大量的分类模型,选取logistics回归和svm进行研究。
4. 参考文献
[1]米生权. 中国成人个体糖尿病发病风险预测模型的建立及验证[d].中国疾病预防控制中心,2011.
[2]沈其君.sas统计分析.北京:高等教育出版社,2005.