24小时服务热线
效率高速
品质保障
厂家直供
售后保障
行业新闻
当前位置:行业新闻>

基于网络拓扑的主题信息采集方法专利

发布时间:2026-06-13

【摘要】 本发明涉及一种基于网络拓扑的主题信息采集方法。它是从引擎获取初始网页集,经净化、分词和去停止词后,表示成向量集合,使用向量空间模型计算文本相似性。利用网络结构,对抽取出的URL先进行链接分析,通过URL的目录层次过滤链接,再根据网络的无标度性,修正URL的权值,进行优先吸附选择。同时反馈不相关的主题区域,并通过URL与种子集合的距离设置不相关URL的缓冲区长度。对采集到的主题计算其热度,以此选择主题获取其新的回复。。微信 【专利类型】发明授权 【申请人】北京交通大学 【申请人类型】学校 【申请人地址】100044 北京市海淀区上园村3号 【申请人地区】中国 【申请人城市】北京市 【申请人区县】海淀区 【申请号】CN200810227582.1 【申请日】2008-11-28 【申请年份】2008 【公开公告号】CN101441662B 【公开公告日】2010-12-22 【公开公告年份】2010 【授权公告号】CN101441662B 【授权公告日】2010-12-22 【授权公告年份】2010.0 【IPC分类号】G06F17/30 【发明人】刘云; 熊菲; 李勇; 沈波; 张振江; 贾凡; 程辉; 张立; 张彦超; 司夏萌 【主权项内容】1.基于网络拓扑的主题信息采集方法,其特征在于包括如下步骤: a、从引擎获取种子网页集合; b、对种子网页集合中的每篇网页根据主题词进行分词,表示为向量集合,提取出URL,初始化未访问URL队列; c、选择未访问URL队列,采集相应网页,计算采集网页与种子网页集合的相似性; d、把采集网页与种子网页集合的相似性与设定的阈值进行比较; 所述c步骤中采集网页与种子网页集合的相似性为该网页与种子网页集合所有网页相似性的平均值 其中采集网页为V,种子网页集合D=,文档Di对应的n维词条向量为,其中wij为文档中词条j的权重,因此任意两文档Di、Dj相似性为 所述的步骤d具体包括: 如果相似性大于设定的阈值, 1)从网页中解析出URL,去重后插入未访问URL队列,比较父URL与子URL的路径关系,给子URL分配不同的权值; 2)计算子URL的链接权,子网页i对父网页j的链接加权系数为:linkji=pathji+freqi,其中,pathji为不同的URL路径权值,freqi为归一化的锚文本关键词频率; 3)对子URL的加权值修正,修正后的权值如下: 其中,n为网页i的入度,sim(Vt,D)是父网页与种子集合的相关性,linkti是网页i对父网页的链接加权系数, 为主题网页的偏向概率,kt为父网页引用的有效链接数;sim(Vt,D)的定义同以上所述的步骤c中的sim,Vt为父网页文档,D=为包含m篇网页的种子网页集合,若Dk为D中任一网页文档,Vt与Dk的相似性为: 因此,父网页与种子集合的相似性 如果相似性不大于设定的阈值,根据URL与种子集合的距离计算隧道长度,隧道长度为 floor是向下取整,σ为初始深度参数常量,n(i)为种子集合至网页i的链接深度;若URL的隧道长度大于0,子URL处理方法与相似性大于阈值的情况相同,反之,减少所有子URL权值; 所述的给子URL分配不同的链接权重具体包括为: 1)子URL包含父URL,则子网页处于父网页的下级目录中,子网页的主题是父网页主题 的扩展和延伸,子URL分配的权值为t; 2)子URL与父URL具有相似的路径,子网页与父网页目录深度和文件夹长度相同,新主题是前期或跟踪报道,子URL分配的权值为t; 3)子URL为背景插图、广告等冗余链接,子URL分配的权值为 其中0.4<t<0.6。 【当前权利人】北京交通大学 【当前专利权人地址】北京市海淀区上园村3号 【统一社会信用代码】1210000040088209X1 【引证次数】3.0 【他引次数】3.0 【家族引证次数】3.0 【家族被引证次数】36

  • 【摘要】加热炉出口温度的一种综合控制方法属于炉温控制技术领域,其特征在于,支路平衡控制使多支路加热炉出口温度一致,并可实现自动提降负荷。采用实测状态的状态反馈预测控制和前馈控制,有效的提高了抗干扰的能力。加热炉状态空间模型通过机理建模获得,
  • 【摘要】本发明提供了一种维护终端上下文信息的方法和基站,其中,方法包括: 基站接收到无线网络控制器的包含终端标识的消息后,如果确定该终端 标识所对应的终端处于小区前向接入信道(CELL-FACH)状态或者小区寻 呼信道(CELL-PCH)状
  • 【摘要】本发明公开了一种应急无线指挥系统,其中所有对讲机基站分别经由一个基站控制器连接到通信网络上,以便所有对讲机基站联网,当一台对讲机发起呼叫后,除了本地转发台转发使本基站下的其他对讲机接收到信号外,与转发台相连的基站控制器将信号通过互联
  • 【摘要】本发明提出了一种波束赋形颗粒度的指示方法、系统及设备。所述方法包括以下步骤:无线发送装置判断将要采用的波束赋形模式,确定发送波束赋形信号的赋形颗粒度;所述无线发送装置通过物理层控制信息将所述赋形颗粒度的指示信息通知无线接收装置;所述
  • 【专利类型】外观设计【申请人】大唐移动通信设备有限公司【申请人类型】企业【申请人地址】100083 北京市海淀区学院路29号【申请人地区】中国【申请人城市】北京市【申请人区县】海淀区【申请号】CN200830132621.0【申请日】200
  • 【摘要】本发明提供一种服务器及其工作方法,其中,该服务器包括:分组模块,用于将第一数据文件分成至少一个第一内容分组,每个所述第一内容分组中的数据文件都具有相同的文件内容,且每个所述第一数据文件仅属于一个所述第一内容分组;第一监视模块,用于监