【摘要】 本发明公开了一种文档集摘要获取方法及装置,以改善文档集摘要的获取效果。该方法提取文档集中各个文档中包含的各个句子,组成句子集合;基于文档集中的文档和句子集合中的句子之间的文本相似度,确定句子集合中各个句子的重要性权重值;根据确定的重要性权重值,按照重要性权重值由高至低的选择顺序,选择规定数目的句子组成文档集摘要。 【专利类型】发明申请 【申请人】北京大学; 北大方正集团有限公司; 北京方正电子政务信息科技有限公司 【申请人类型】企业,学校 【申请人地址】100871 北京市海淀区颐和园路5号 【申请人地区】中国 【申请人城市】北京市 【申请人区县】海淀区 【申请号】CN200810239344.2 【申请日】2008-12-10 【申请年份】2008 【公开公告号】CN101751425A 【公开公告日】2010-06-23 【公开公告年份】2010 【IPC分类号】G06F17/30 【发明人】万小军; 杨建武; 肖建国 【主权项内容】一种文档集摘要获取方法,其特征在于,包括:提取文档集中各个文档中包含的各个句子,组成句子集合;基于文档集中的文档和句子集合中的句子之间的文本相似度,确定句子集合中各个句子的重要性权重值;根据确定的重要性权重值,按照重要性权重值由高至低的选择顺序,选择规定数目的句子组成文档集摘要。 【当前权利人】北京大学; 北大方正集团有限公司; 北京方正电子政务信息科技有限公司 【当前专利权人地址】北京市海淀区颐和园路5号; 北京市海淀区成府路298号中关村方正大厦9层; 【专利权人类型】公立; 其他有限责任公司; 有限责任公司 【统一社会信用代码】12100000400002259P; 91110108101974963M; 91110108676602263P 【被引证次数】19 【被他引次数】19.0 【家族被引证次数】19