【摘要】 本发明公开了一种用于机群容错的系统和方法。该系统包括:检查点服务器,其网络连接到所述多个结点,用于收集并行应用的所有进程的信息,向结点发送监控请求,并响应结点的检查点操作请求,并将检查点文件保存于检查点文件服务器上;在检查点切取操作完成后,执行检查点恢复操作;检查点文件服务器,其网络连接到所述多个结点,用于存储检查点文件,并在进程恢复过程中提供检查点文件访问支持;故障监测模块,位于所述结点上,用于根据所述监控请求来监测本地结点的操作系统的运行状态和所述监控请求指定进程的指定运行状态,以及所述监控请求指定的硬件部件的指定状态,并在监测到故障时向所述检查点服务器发送检查点操作请求。 【专利类型】发明授权 【申请人】中国科学院计算技术研究所 【申请人类型】科研单位 【申请人地址】100080 北京市海淀区中关村科学院南路6号 【申请人地区】中国 【申请人城市】北京市 【申请人区县】海淀区 【申请号】CN200810211566.3 【申请日】2008-09-19 【申请年份】2008 【公开公告号】CN101377750B 【公开公告日】2010-10-06 【公开公告年份】2010 【授权公告号】CN101377750B 【授权公告日】2010-10-06 【授权公告年份】2010.0 【IPC分类号】G06F11/00; G06F11/14 【发明人】霍志刚 【主权项内容】一种用于机群容错的系统,所述机群包括网络连接的多个结点,其特征是,该系统包括:检查点服务器,其网络连接到所述多个结点,用于收集并行应用的所有进程的信息,根据进程信息,向结点发送监控请求,并响应结点的检查点操作请求,执行远程检查点切取操作,并将检查点文件保存于检查点文件服务器上;在检查点切取操作完成后,执行检查点恢复操作;检查点文件服务器,其网络连接到所述多个结点,用于存储检查点文件,并在进程恢复过程中提供检查点文件访问支持;故障监测模块,位于所述结点上,用于根据所述监控请求来监测本地结点的操作系统的运行状态和所述监控请求指定进程的指定运行状态,以及所述监控请求指定的硬件部件的指定状态,并在监测到故障时向所述检查点服务器发送检查点操作请求和向被监测的并行应用的其他进程广播通知该进程正在进行检查点操作。 【当前权利人】中国科学院计算技术研究所 【当前专利权人地址】北京市海淀区中关村科学院南路6号 【统一社会信用代码】12100000400012342E 【被引证次数】1 【被他引次数】1.0 【家族被引证次数】82