【摘要】 本发明提供一种规模化蛋白质鉴定中的索引加速方法,包括:为肽序列设定质量区间;为计数窗口设定大小,并结合质量区间设定计数窗口的数目以及各个计数窗口的范围;对蛋白质数据库做模拟酶切,根据模拟酶切所得到的肽序列的质量计算肽序列在各个计数窗口内的数量;根据计算机内存的大小得到在计算机内存中一次可处理的肽序列的数量,结合肽序列在各个计数窗口内的数量,得到在计算机内存中一次处理的肽序列的质量范围段;对蛋白质数据库做模拟酶切,将所得到的在一个质量范围段内的肽序列保存在计算机内存中,并在计算机内存中完成对所保存肽序列的排序、去冗余以及建立词典和倒排表的操作;为每个质量范围段建立词典和倒排表。 【专利类型】发明申请 【申请人】中国科学院计算技术研究所 【申请人类型】科研单位 【申请人地址】100190 北京市海淀区中关村科学院南路6号 【申请人地区】中国 【申请人城市】北京市 【申请人区县】海淀区 【申请号】CN200810223683.1 【申请日】2008-10-07 【申请年份】2008 【公开公告号】CN101714187A 【公开公告日】2010-05-26 【公开公告年份】2010 【授权公告号】CN101714187B 【授权公告日】2011-09-28 【授权公告年份】2011.0 【IPC分类号】G06F19/00 【发明人】李由; 李德泉; 王乐珩; 迟浩; 王海鹏; 付岩; 孙瑞祥; 贺思敏; 刘超; 袁作飞; 王文平; 秀丽蕴 【主权项内容】一种规模化蛋白质鉴定中的索引加速方法,包括:步骤1)、根据计算机内存空间的大小,预先将肽序列按照质量的大小分成多个质量范围段,使得在所述计算机内存中一次可对一个质量范围段内的肽序列进行处理;步骤2)、对蛋白质数据库做模拟酶切,将所得到的在一个质量范围段内的肽序列保存在所述计算机内存中,并在所述计算机内存中完成对所保存肽序列的排序、去冗余以及建立词典和倒排表的操作;步骤3)、对其余质量范围段重复上述步骤2)中的操作,为所述的每个质量范围段建立词典和倒排表。 【当前权利人】中国科学院计算技术研究所 【当前专利权人地址】北京市海淀区中关村科学院南路6号 【统一社会信用代码】12100000400012342E 【被引证次数】13 【被自引次数】10.0 【被他引次数】3.0 【家族引证次数】3.0 【家族被引证次数】15