基于EM算法的混合模型参数估计开题报告
2021-02-26 11:16:58
1. 研究目的与意义(文献综述)
极大似然估计和bayes统计是统计领域中最主要的两类计算方法,其中bayes统计是运用最广泛也是研究最深入的问题。其中bayes统计的计算方法大致分为两大类,一类是直接用后验分布从而得到后验均值,另一类是数据添加算法,它是在已经得到的观测数据上添加一些潜在数据,在可能存在数据缺失或者似然函数非显示的情况下使计算更加简单。其中,em算法便是一种数据添加算法。
em算法又称期望最大化算法,是求参数极大似然估计的一种迭代优化策略,它可以从非完整数据集中对参数进行极大似然估计,是一种非常简单实用的学习算法。该算法最初在1977年由dempster提出,主要用来计算后验分布的众数以及极大似然估计。此后由于em算法在处理不完全观测数据上的优点,在统计领域得到广泛应用,并且得到了广泛的改进和深入研究,关于em算法的文章比比皆是。经过几十年的发展,em算法被应用于诸多数据量需求比较大的领域中,例如工程学、医学、社会学、商务管理学等。
混合分布是数据概率建模的一种灵活和高效的工具。由于有限混合模型可以用来定义任何复杂的概率密度函数,因而在许多统计数据建模的场合,其使用得到了广泛的认可。而基于em算法的混合模型参数估计利用em算法的优点,可以广泛地应用于处理缺损数据,截尾数据,带有噪声等所谓的不完全数据,算法是在缺失数据等不完全数据下进行参数的极大似然估计或者极大后验估计一种行之有效的方法。
2. 研究的基本内容与方案
本文旨在用em算法解决混合模型参数的估计问题,主要介绍em算法和基于em算法的混合模型的参数估计,对解决生活中的实际问题有重要意义。
em算法是一种缺失数据情况下参数估计的特别算法。它之所以被称为em算法是因为算法的每一次迭代是由一个期望步(expectation step)和极大步(maxjmization step)构成。其基本思想是首先在给缺失数据对初值的条件下,估计出模型参数的值;然后再根据参数值估计出缺失数据的值。根据估计出的缺失数据的值再对参数值进行更新,如此反复迭代,直至收敛,迭代结束。em算法是一种迭代算法,它的优点很明显,主要表现在以下几个方面:一方面在于它所涉及的理论的简单化和一般性,二是在大多数情况下,它实质上是一个优化算法,并且能够收敛到局部极值,再者就是在于许多的应用都能纳入到em算法的范畴,em算法成为统计学上的标准工具。而混合模型是分析复杂现象的一个灵活而有力的建模工具,他提供了用简单结构模拟复杂密度的一个有效方法,给出了模拟同质性和异质性的一个自然框和半参数结构。因此它被广泛地应用于各个领域,如医学、遥感、经济学、科学、模式识别、语音识别、图像处理、信号处理、神经网络,几乎涵盖了学科。混合模型参数的估计问题是em算法在模式识别中应用最为广泛的领域。
因此,本文的研究内容主要包括以下几个方面:
1.熟练掌握em算法的原理及实现步骤,掌握em算法的性质。
2.在深刻理解em算法的前提下,对em算法进行改进,本文意在加快em算法的迭代速度上进行改进。
3.结合两个具体实例研究混合模型参数的估计问题,在具体的情况下选择合适的模型。
在掌握em算法的原理之后,发现em算法的迭代速度慢,本文所做的改进就是加快em算法的迭代速度。传统的 em 算法对初始值敏感, em 算法收敛的优劣很大程度上取决于其初始参数,对于初始值依赖性很强。本文的主要目的是通过采用合适的初始值来减少em的迭代次数,从而加快迭代速度。通过原始em算法与改进em算法比较,展示迭代速度的加快。
混合模型由于任何复杂的概率密度函数都可用有限混合模型来定义,因此,无论在理论上还是实践上有限混合分布模型都受到人们的极大关注,比如常见的高斯混合模型,隐马尔科夫模型,正态混合模型等,除此之外混合分布模型也很常见,将参数模型的解析优势和非参数模型的灵活性结合起来在参数的框架下为复杂现象建模提供了一个可行的建模环境,常见的形式有正态分布、泊松分布、指数分布、weibull分布等。
在这一部分,我将寻找两个应用背景,将其与混合模型与em算法结合起来,进行参数估计,这样理论与实际相结合,更能体现em算法的现实意义。
3. 研究计划与安排
第1-2周:查阅相关文献资料,明确研究内容,确定方案,完成开题报告,同时阅读相关英文资料,完成英文资料的翻译。
第3-6周:学习em算法。
第7-8周:分析算法性能,完成仿真实验。
4. 参考文献(12篇以上)
[1]Wu C F J.On the convergence properties of the EM algorithm[J].The Annals of statistics,1983,(11):95-103.
[2]Louis T A.Finding the observed information matrix when using theEM algorithm[J].Journal of the Royal Statistical Society B,1982,44:226-233.
[3]Meilijson I.A fast improvement to the EM algorithm on its own term [J].Journal of the Royal Statistical Society B,1989,51:127-138
[4]Meng X L, Rubin D B. Recent Extension to the EM algorithm[M]. Bayesian Statistics 4.Oxford:Oxford University Press,1992:307- 320.
[5]Liu C,Rubin D B.The ECME algorithm:a simple extension of ECM with faster monotone convergence[J].Biometrikn,1994,81:633-648.
[6]Wei G C G,Tanner M A.A monte carlo implementation of the EM algorithm and poor man’s data augmentation algorithms[J].Biometrikn,1994,81:633-648.
[7]Mc Lachlan G J.Finite Mixture Models [M].New York : Wiley amp; Sons,Inc,2000.
[8]R.D. Nowak. Distributed EM algorithms for density estimation and clustering in sensor networks[j]. IEEE Trans. Signal Process, 2003,51(8): 2245-2253.
[9]Berlinet, A.F.,Roland, Ch..Acceleration of the em algorithm: P-EM versus epsilon algorithm[J].Computational statistics amp; data analysis,2012,56(12):4122-4137.
[10]Qinpei Zhao,Ville Hautamaeki,Ismo Kaerkkaeinen et al.Random swap EM algorithm for Gaussian mixture models[J].Pattern recognition letters,2012,33(16):2120-2126.
[11]Wei Ding,Peter X.-K.Song.EM algorithm in Gaussian copula with missing data[J]. Computational Statistics and Data Analysis,2016.
[12]Mc Lachlan G J.The EM Algorithm and Extensions( Second Edition)[M].New York:Wileyamp;Sons,Inc,2008.
[13]王继霞,刘次华缺失数据下多元正态模型算法[J].郑州大学学报:理学版,2011,43(3):59-61.
[14]连军艳.EM算法及其改进在混合模型参数估计中的应用研究[D].长安大学硕士学位论文, 2006
[15]杨基栋.EM算法理论及其应用[J].安庆师范学院学报:自然科学版,2009,15(4):30-35.
[16]余爱华.基于EM算法的高斯混合模型参数估计[J].现代计算机:下半月版,2011,(15):3-7,31.
[17]张宏东.EM算法及其应用[D].山东大学硕士学位论文,2014.
[18]杨晴.EM算法在混合模型参数估计中的应用[D].宁夏大学硕士学位论文,2014.
[19]王爱平,张功营,刘方.EM算法研究与应用[J].计算机技术与发展,2009,(09):108-110.
[20]肖维.用于高斯混合模型参数估计的EM算法及其初始化研究[J].电子测试,2011,(06):26-30.
[21]茹正亮,高安力.EM 算法在不完全数据参数估计中的应用[J].南京工程学院学报(自然科学版),2008,(04):9-12.
[22]张香云,汪四水.基于EM算法的高斯混合密度参数估计[J].杭州师范学院学报(自然科学版),2005,(05):349-352.
[23]谢勤岚.基于EM算法的混合模型的参数估计[J].计算机与数字工程,2006,(12):42-44.
[24]林鸿.改进的EM 算法——A-ECM 算法[J].福建电脑,2006,(12):42-44.
[25]钱峰.混合模型参数估计的研究[D].东南大学硕士学位论文,2005.
[26]张香云.基于EM算法缺失数据下混合模型的参数估计[C].第十三届中国管理科学学术年会论文集.2011:79-83.