【摘要】
本发明涉及一种基于网络拓扑的主题信息采集方法。它是从引擎获取初始网页集,经净化、分词和去停止词后,表示成向量集合,使用向量空间模型计算文本相似性。利用网络结构,对抽取出的URL先进行链接分析,通过URL的目录层次过滤链接,再根据网络的无标度性,修正URL的权值,进行优先吸附选择。同时反馈不相关的主题区域,并通过URL与种子集合的距离设置不相关URL的缓冲区长度。对采集到的主题计算其热度,以此选择主题获取其新的回复。。微信
【专利类型】发明授权
【申请人】北京交通大学
【申请人类型】学校
【申请人地址】100044 北京市海淀区上园村3号
【申请人地区】中国
【申请人城市】北京市
【申请人区县】海淀区
【申请号】CN200810227582.1
【申请日】2008-11-28
【申请年份】2008
【公开公告号】CN101441662B
【公开公告日】2010-12-22
【公开公告年份】2010
【授权公告号】CN101441662B
【授权公告日】2010-12-22
【授权公告年份】2010.0
【IPC分类号】G06F17/30
【发明人】刘云; 熊菲; 李勇; 沈波; 张振江; 贾凡; 程辉; 张立; 张彦超; 司夏萌
【主权项内容】1.基于网络拓扑的主题信息采集方法,其特征在于包括如下步骤: a、从引擎获取种子网页集合; b、对种子网页集合中的每篇网页根据主题词进行分词,表示为向量集合,提取出URL,初始化未访问URL队列; c、选择未访问URL队列,采集相应网页,计算采集网页与种子网页集合的相似性; d、把采集网页与种子网页集合的相似性与设定的阈值进行比较; 所述c步骤中采集网页与种子网页集合的相似性为该网页与种子网页集合所有网页相似性的平均值 其中采集网页为V,种子网页集合D=,文档Di对应的n维词条向量为,其中wij为文档中词条j的权重,因此任意两文档Di、Dj相似性为 所述的步骤d具体包括: 如果相似性大于设定的阈值, 1)从网页中解析出URL,去重后插入未访问URL队列,比较父URL与子URL的路径关系,给子URL分配不同的权值; 2)计算子URL的链接权,子网页i对父网页j的链接加权系数为:linkji=pathji+freqi,其中,pathji为不同的URL路径权值,freqi为归一化的锚文本关键词频率; 3)对子URL的加权值修正,修正后的权值如下: 其中,n为网页i的入度,sim(Vt,D)是父网页与种子集合的相关性,linkti是网页i对父网页的链接加权系数, 为主题网页的偏向概率,kt为父网页引用的有效链接数;sim(Vt,D)的定义同以上所述的步骤c中的sim,Vt为父网页文档,D=为包含m篇网页的种子网页集合,若Dk为D中任一网页文档,Vt与Dk的相似性为: 因此,父网页与种子集合的相似性 如果相似性不大于设定的阈值,根据URL与种子集合的距离计算隧道长度,隧道长度为 floor是向下取整,σ为初始深度参数常量,n(i)为种子集合至网页i的链接深度;若URL的隧道长度大于0,子URL处理方法与相似性大于阈值的情况相同,反之,减少所有子URL权值; 所述的给子URL分配不同的链接权重具体包括为: 1)子URL包含父URL,则子网页处于父网页的下级目录中,子网页的主题是父网页主题 的扩展和延伸,子URL分配的权值为t; 2)子URL与父URL具有相似的路径,子网页与父网页目录深度和文件夹长度相同,新主题是前期或跟踪报道,子URL分配的权值为t; 3)子URL为背景插图、广告等冗余链接,子URL分配的权值为 其中0.4<t<0.6。
【当前权利人】北京交通大学
【当前专利权人地址】北京市海淀区上园村3号
【统一社会信用代码】1210000040088209X1
【引证次数】3.0
【他引次数】3.0
【家族引证次数】3.0
【家族被引证次数】36