基于多核架构的程序控制流故障检测技术实现开题报告
2020-02-10 22:35:27
1. 研究目的与意义(文献综述)
计算机系统的硬件并不是完全可靠的,特别是系统暴露在充满宇宙射线和各种高能带电粒子的太空环境中时很可能发生硬件故障[1]。例如“单粒子事件”就是由于高能粒子打击硅晶片而 使内存单元的状态发生改变而导致的一种瞬态故障,文献[2] 中就“单粒子事件”对计算机软件的影响作了深入的介绍。现在由于在深亚微米器件中很小的能量就能使存储单元的状态发生变化,所以宇宙 射线影响不仅仅局限在太空环境中,在地球表面也能观察到这种效应[3]。 瞬时故障通常指的就是处理器以及计算机系统内部某一位信息的翻转,被称为单地址翻转(single Event Upset seu)[4]。研究表明,计算机系统中80%~90%的失效都是由瞬时故障引起的[5]。这种故障的影响是暂时的,持续时间短暂,且并没有损坏内部硬件电路,但是它却可以通过改变处理器状态或寄存器存储值等方式影响程序的正常运行,甚至有可能导致系统崩溃。
在程序的执行过程中,当seu故障破坏指令的操作数部分时,就会造成程序的数据流错误;当seu故障破坏的是指令的操作码部分时,就会造成程序的控制流错误。各种故障注入的结果表明,瞬时故障引起的控制流错误将占错误总数的33%~77%[6]。
到目前为止 已经提出了许多控制流检测技术,主要包括通过硬件实现和通过软件实现两种。在用硬件实现的方法中,典型例子是三部件冗余(TMR)[7],这种技术通过比较处理器的3个结果,并选取两个相同的结果作为最终结果。看门狗[8]技术采用辅助的专用处理器来检测总线上数据的正确性。用硬件实现的缺点是需要对原硬件体系结构进行修改,成本和开发 周期都相应大大增加,且不具有可移植性。
2. 研究的基本内容与方案
为了检验 rscfc 的有效性,在 intel 处理器 linux 操作系统下,对下面四个标准程序进行了故障注入实验:
·冒泡排序( bs)
·快速排序( qs)
3. 研究计划与安排
1月11日-1月22日
查阅参考文献,初步了解选题;
1月23日-3月7日
4. 参考文献(12篇以上)
[1] li, a., amp; hong, b. (2007). software implemented transient fault detection in space computer. aerospace science and technology, 11(2-3), 245-252.
[2] benso a, di carlo s, di natale g and prinetto p.static analysis of seu effects on software applications[ c] . ieee international test conference, 2002: 500-508
[3] goloubeva o, rebaudengo m, sonza reorda m and violante m . softerror detection using control flow assertions[ c] . ieee international symposium on defect and fault tolerance in vlsi systems( dft' 03) , 2003: 581-588