【摘要】 本发明公开了一种创建索引库的系统及其方法,其中,该方法包括:步骤一,对从数据源中提取的文本信息进行预处理,得到预处理后的文本信息;步骤二,创建多个临时子索引库,并将根据所述预处理后的文本信息生成的索引记录写入到所述多个临时子索引库中;步骤三,对所述多个临时子索引库中的索引记录进行合并处理,生成单一的目标索引库。本发明充分利用服务器多CPU的处理能力,提高了索引记录生成的效率;提高了索引记录写入的效率;同时不会增加系统复杂性,且不改变原有索引库的格式。 微信 【专利类型】发明授权 【申请人】中兴通讯股份有限公司 【申请人类型】企业 【申请人地址】518057 广东省深圳市南山区高新技术产业园科技南路中兴通讯大厦 【申请人地区】中国 【申请人城市】深圳市 【申请人区县】南山区 【申请号】CN200810056000.8 【申请日】2008-01-03 【申请年份】2008 【公开公告号】CN101196935B 【公开公告日】2010-06-09 【公开公告年份】2010 【授权公告号】CN101196935B 【授权公告日】2010-06-09 【授权公告年份】2010.0 【IPC分类号】G06F17/30 【发明人】游波; 李英 【主权项内容】一种创建索引库的系统,包括用于从数据源提取文本信息的抓取模块、用于对所述文本信息进行预处理的预处理模块,其特征在于,还包括:调度模块,连接所述抓取模块,用于对所述抓取模块进行调度控制;索引生成模块,连接所述调度模块、所述预处理模块,用于在所述调度模块的调度控制下从所述预处理模块获取预处理后的文本信息,根据所述预处理后的文本信息生成索引记录,并将所述索引记录采用并行方式写入到所创建的多个临时子索引库中;索引库合并模块,连接所述索引生成模块,用于对所述多个临时子索引库中的索引记录进行合并处理,得到单一的目标索引库。 【当前权利人】中兴通讯股份有限公司 【当前专利权人地址】广东省深圳市南山区高新技术产业园科技南路中兴通讯大厦 【专利权人类型】上市股份有限公司 【统一社会信用代码】9144030027939873X7 【引证次数】3.0 【他引次数】3.0 【家族引证次数】3.0 【家族被引证次数】16