【摘要】 本发明公开了一种互联网新颖词监测方法,属于互联网信息挖掘领域。本发明方法包 括下列步骤:根据目标信息源集合,获得其中各个首页及其内部链接所指向的各级下级页 面中当日的所有文章;对各个文章作分词处理,并为各个文章中的每个词语赋予权重,以 权重最大的前a个词语作为该文章的备选新颖词,并以该备选新颖词同时成为多个文章的 备选新颖词时的文章数作为该词当天的频率freq;根据各个备选新颖词在b天内的freq记 录计算各个备选新颖词的新颖系数n;根据新颖系数n确定新颖度θ,当某个备选新颖词的 新颖度大于新颖度阈值θt时,即认为该词语是当天的新颖词。本发明方法可以有效地发现 当天的新颖词汇,指导互联网新信息发现和监管的实践。 【专利类型】发明申请 【申请人】北京大学 【申请人类型】学校 【申请人地址】100871北京市海淀区颐和园路5号 【申请人地区】中国 【申请人城市】北京市 【申请人区县】海淀区 【申请号】CN200810117821.8 【申请日】2008-08-05 【申请年份】2008 【公开公告号】CN101645066A 【公开公告日】2010-02-10 【公开公告年份】2010 【授权公告号】CN101645066B 【授权公告日】2011-08-24 【授权公告年份】2011.0 【发明人】王超; 梁循 【主权项内容】1.一种互联网新颖词监测方法,其特征在于,包括下列步骤: a)根据目标信息源集合,获得其中各个首页及其内部链接所指向的各级下级页面中当日的所有文章; b)对各个文章作分词处理,并为各个文章中的每个词语赋予权重,以权重最大的前a个词语作为该文章的备选新颖词,并以该备选新颖词同时成为多个文章的备选新颖词时的文章数作为该词当天的频率freq; c)根据各个备选新颖词在b天内的freq记录计算各个备选新颖词的新颖系数 其中 ceil表 示上取整函数; d)根据新颖系数n确定新颖度θ,当某个备选新颖词的新颖度大于新颖度阈值θt时,即认为该词语是当天的新颖词。 【当前权利人】北京大学 【当前专利权人地址】北京市海淀区颐和园路5号 【专利权人类型】公立 【统一社会信用代码】12100000400002259P 【被引证次数】TRUE 【家族被引证次数】TRUE