利用近红外光谱和回归建模技术预测糙米中镉含量的研究外文翻译资料
2023-01-06 11:25:55
利用近红外光谱和回归建模技术预测糙米中镉含量的研究
摘要: 采用近红外光谱技术和化学计量学方法,建立了糙米中镉(Cd)的含量测定方法。应用组合的区间偏最小二乘法(synerginterval partial least squares , siPLS)对所得近红外透射光谱进行有效谱段范围的选择以及二者定量校正模型的建立, 并对光谱预处理方法进行了详细的讨论。以交叉验证根均方误差(RMSECV),预测均方根误差(RMSEP)和校正集和预测集相关系数(Rc和Rp)对所建立的模型的性能进行评估。所建立的糙米中镉(Cd)的siPLS, RMSECV,Rc,RMSEP,Rp分别为0.232,0.930,0.250,0.915。siPLS所建模型优于PLS和iPLS。实验结果表明该模型可用于糙米中镉含量NIRS的测定。
关键词: 糙米,镉含量,近红外光谱,定量模型,组合的区间偏最小二乘法
引言
水稻是中国的主要粮食作物,是中国60%人口(Ying, 1997)的主要主食,在粮食安全方面起着重要作用。水稻是产量最高的粮食作物(MOA 2006)。作为有毒重金属的镉(Cd)主要涉及土壤和食品污染,特别是在水稻种植中(Reeves amp; Chaney, 2001)。镉在土壤中积累会引发食物链的潜在污染,危害生态安全和人类健康(Reynders et al., 2008)。食用重金属污染的食物和水造成世界上好几亿人的严重食源性疾病(WHO 2004)。
像其他植物性食物,大米中的镉污染可以从土壤、肥料和其他工业活动中来。因此,大米的质量控制非常重要。很多高灵敏和选择性技术包括原子吸收光谱法(AAS)、电感耦合等离子体发射光谱法(ICP- OES)和电感耦合等离子体质谱法(ICP-MS)得到开发,能在低浓度下测镉。然而这些方法需要昂贵的仪器,通常需要复杂的样品预处理过程。相比之下,近红外光谱(NIRS)是一种快速、无损的分析方法。与传统分析方法比,近红外更快速、环保、便捷和划算。
理论上说,无机物在近红外区域没有吸收带。但是人们认为有机络合物和螯合物成分可以在近红外光谱的变化中反应(Kumagai et al., 2003; Chen et al., 2010)。NIRS已经运用于无机元素在沉淀中的浓度分析(Xia et al., 2007; Moros et al., 2008a)、土壤的特征描述(Kooistra et al., 2001; Cozzolino amp; Mor? on, 2003; Siebielec et al., 2004; Chodak et al., 2007; Moros et al., 2009; Cave et al., 2013)、植物组织(Font et al., 2004a; Huang et al., 2009; Cozzolino et al., 2011)、水样(Gonz? alez-Mart? ın et al., 2002; Sheng et al., 2009; Chen et al., 2010; Li et al., 2011; Ning et al., 2012)和食品(Font et al., 2004b, 2005; Moros et al., 2008b; Wu et al., 2009)的分析。尽管日本的Kumagai et al. (2003)使用NIRS和典型判别分析(CDA)来辨别稻米中的镉含量水平(0.4 mg/kg),在106个样品中正确识别率为85.2%。在日本,糙米中镉的最高限量是0.4 mg/kg(MHLW 2010)。中国对谷物中镉的限制浓度为0.2 mg/kg(MoH 2012)。糙米中镉的限值更低,用NIRS方法难度更大。目前为止,还没有使用近红外光谱定量预测糙米中镉含量的报道。
偏最小二乘法(PLS)回归是最常见的多元方法之一。区间PLS (iPLS)和协同区间PLS (siPLS) 可以搜索一个或一些有效的光谱间隔,从而构建一个好的模型(Zou et al., 2007)。本研究的主要目的是做一个可行的调查来测试NIRS结合化学计量学方法确定糙米中镉含量的潜力。PLS回归是用来构建一个模型,iPLS和siPLS作为变量选择方法用来提高模型性能。
材料与方法
样品采集
从湖南4个地方,包括湘阴县浩河口镇(42个样品)、大同桥镇(10个样品)、江背镇(12个样品)和长沙县干杉镇(11个样品)共75个样品。样品是当农民收获作物时从水稻种植地随机收集的。
Cd的检测
根据调整后的标准方法GB/T5009/15-2003(MoH 2004)和AOAC方法(Jorhem amp; Engman, 2000)进行对用于测大米镉浓度的样品制备步骤。分析中所用到的化学试剂都确保是优级纯的,处理过的溶液中的镉含量由石墨炉原子吸收光谱仪AA-6800(Shimadzu Corp., Kyoto, Japan)得出。
近红外光谱的设备和软件
用近红外光谱仪(Antaris II; Thermo Electron Co., Madison, WI, USA)在近红外光谱区10000–4000 cm-1收集大米样品的近红外反射光谱。分辨率4 cm-1,平均扫描32次,增益为2,每个样品测三次,每次测量杯转120°,取相应光谱平均值,减小杂质影响。3.856 cm-1间隔测量原始数据。
光谱预处理
近红外光谱有许多噪音和背景倾斜,原始光谱需要进行光谱预处理(Li et al., 2012)。在这项研究中Savitzky–Golay滤波器自动定量、多重散射校正(MSC)、均值中心化和它们的组合作为预处理方法。用五点移动平均线和一个二阶多项式的SG平滑(Savitzky amp; Golay, 1964)来减少仪器信号中的随机噪声。实践中,MSC是一个非常合适的、可广泛应用的方法来解决光散射效应(Bakeev, 2005)。 自动定量均衡各变量的影响,是所有变量有相同重量(Noda amp; Ozaki, 2004)。均值中心化是计算数据集的平均光谱和移除通过减去每个光谱的平均得到的每个变量绝对信息强度(Geladi et al., 1985)。优化后,采用方法(SG平滑结合MSC和均值中心化)作为原始光谱预处理方法。
软件
结果软件(AntarisTM II System; Thermo Scientific Co., Madison, WI, USA)用于光谱的获得。所有化学计量学算法是在Windows XP下的Matlab 7.0(Mathworks, Natick, MA, USA)操作的。iPLS和siPLS算法的应用是由Noslash;rgaard等从化学计量学组合KVL发展而来,哥本哈根,丹麦。程序中siPLS代码是从http://www.models.kvl.dk/source/iToolbox/下载)。
建立校正模型
所选择的PLS模型的性能是根据根的交叉验证均方误差(RMSECV),预测均方根误差(RMSEP)和相关系数(R)评估,PLS成分的数量是由百叶窗优化交叉三段的方法验证。
RMSECV像公式1那样计算
对于预测集,RMSEP计算如下
n和m是样品校正集和预测集的数量,ci和^ ci分别是由标准方法和PLS模型预测结果决定的值。
预测和测量值间的相关系数(R)对校正集和预测集都如公式3那样计算,^ ci是校正和预测集中所有样品的平均值。
结果与讨论
模型的校准
根据基于欧式距离的Kennard–Stone算法(Kennard amp; Stone, 1969),数据分为校正集和预测集。KS 算法可以从文献上查到(Zhu et al., 2009)。 Kennard–Stone算法从七十五个样本中选取五十四个校正集,另外二十一个样本作为预测集。如表1所示,在校准的y值的范围覆盖了整个范围的预测集。因此,样品分布在校准和预测集是适当的。
近红外光谱的变量减少
水稻样品采集的原始光谱包括1557个变量。这些光谱通常由广泛的,弱的,非特异性的和广泛重叠的带组成(Blanco et al., 2000)。 因此,有一些不相关的变量的回归。更简洁、高效的模型可以通过搜索变量的区域而不是全谱的获得,可以提高回归模型的预测能力(Gributs amp; Bums, 2006)。因此,噪声的影响,常数和线性基线漂移可以通过消除无信息的光谱区域减少。
iPLS法用于波长区域的选择(Norgaard et al., 2000)是所有近红外光谱数据点分成n个相等间隔编号1–n下进行。iPLS的延伸叫siPLS,这是一个基于所有区间的子集的所有可能的PLS模型的所有可能的区间组合程序测试。算法如下:首先,全谱数据的区间划分为若干子区间。其次,按所有可能的模型组合的2,3或4个间隔计算。几个区间的最优组合是在最低RMSECV值时实现。
区间偏最小二乘法的结果
为实现iPLS,五个区间首先划分在20-60 (20, 30, 40, 50 和 60), 最好的预测结果在全谱分为六十个区间时获得。图1中,柱状图的柱状条块表示每个区间模型的RMSECV 虚线对应的是由五个潜在变量(LV)建立的全球模型(1557个变量)的RMSECV。误差条中的斜体数字是所有区间模型的潜在变量的最佳数。从波数6907.8到7004.2 cm-1中选间隔数30,因为它产生RMSECV 最低。
协同区间偏最小二乘法的结果
研究中,四个区间的计算时间很长(975270倍),matlab程序应用于计算和停止响应。因此,大米样本的全谱 (4000–10 000 cm-1)分成60个区间,然后结合两三个区间。表2显示前始终基于两个区间使用siPLS得到最小RMSECV值的组合。从表可知,当[21, 30]的两个区间相结合,达到最低RMSECV 值。如图2所示,有效光谱区间6907.8 到7004.2 cm-1和波数6005.2 到6101.6对应。si-PLS选出光谱区间组合中50个变量。
图3和图4分别是校准的散点图和显示NIRS预测和标准测量值相关性的预测集。RMSECV 的结果是0.230,校准组(Rc)的相关系数为0.930。当siPLS模型的性能是由独立的样品进行评估,RMSEP结果为0.250,预测集(Rp)相关系数为0.915。由于五个大米样品来自重金属污染严重的地区,土壤重金属的背景值非常高。因此,2个散点图中,这些样品中的镉的浓度超过2毫克/千克。
从6005.2到6101.6 cm-1的波数与C-H键的纤维素第一泛音伸展有关。蛋白质N-H不对称拉伸的第一泛音和淀粉O-H拉伸的第一泛音在6907.8–7004.2 cm-1区间 (Lu, 2007)。大多数非淀粉构成在研磨中去除同时纤维显著下降,其次是其他营养素除蛋白质(Zhou et al., 2009)。这些现象表明,Cd与淀粉和蛋白质的结合,是近红外光谱定量分析的基础。
结果讨论
实验中, siPLS和经典的PLS和iPLS比较,突出了它相对其他两种方法的优越性。PLS和iPLS模型的结果在表 3。
PLS算法实现了构建基于存在一些不必要的与镉含量无关的信息(共线和冗余变量)的全近红外光谱波长范围内的回归模型。因此,如果包含太多不需要的信息,模型的性能将不可避免地被削弱。至于iPLS 模型,计算每个PLS模型的RMSECV,通过最小RMSECV选出唯一的光谱子区间。变量区间构建的iPLS模型没有显示比全谱PLS模型的RMSEP值低。测试其他区间组合,但没有产生更好的预测值。这可能是Cd信息在全光谱范围内传播,和PLS相比,每间隔一个变量选择将自动降低信息和诱导RMSEP增加。
一般情况下,蛋白质和淀粉是复杂的、包含很多化学键如C-H,O-H,N-H和S-H的营养参数,这是有机化合物中的四条主要的键的类型。那些共价键在近红外区域有很强吸光度,然而OH、CH、NH 和SH键的典型近红外吸收范围却不在实验选定的唯一光谱子区间内。因此,当只有一个子区间,虽然大量多余的变量/噪声与化学反应无关,它可以被删除,但一些相关的变量也会同时消除。因为很多有用的变量被弃,iPLS局部回归模型精度削弱 (Jiang et al., 2012)。
siPLS模型的结果比PLS模型和iPLS模型的预测精度好。这表明,使用NIRS测大米中Cd含量,siPLS 比PLS和iPLS性能更好。siPLS算法将全光谱分为若干等间距子区间,结合两个有效子区间发展PLS模型。因为在模型校准中,通过siPLS可以消除一些不必要的光谱信息,一些需要的信息可以尽可能保留。
总结
本研究对NIRS测量大米中Cd的含量进行看初步研究。利用siPLS筛选特征变量。与PLS和iPLS模型相比,siPLS模型具有明显优势。可获得最佳预测结果。校正集RMSECV 和Rc分别是 0.232和0.930,预测集RMSEP和Rp分别是0.250和0.915。近红外光谱技术可用于水稻收获季节快速无损监测稻米中镉污染程度。该方法可以作
剩余内容已隐藏,支付完成后下载完整资料
英语原文共 7 页,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[286370],资料为PDF文档或Word文档,PDF文档可免费转换为Word