【摘要】 本发明涉及计算机网络技术领域,一种在线讨论区话题检测与跟踪方法,包括步骤:采用HTML解析模块对讨论区帖子进行预处理及线索重构;利用帖子和线索的信息度测量模块对新输入的帖子和相关线索进行信息度检查,并对线索特征向量进行更新;对线索数据库中的线索的内容文本进行分析;对线索数据库中的线索的用户行为进行分析;将线索的内容文本和用户行为的分析结果进行融合,判断线索的话题分类。本发明鉴于在线讨论区的复杂性,本发明通过结合内容和用户行为的方法较好的解决了在线讨论区话题检测与跟踪问题,具有很好的应用前景。 【专利类型】发明申请 【申请人】中国科学院自动化研究所 【申请人类型】科研单位 【申请人地址】100080 北京市海淀区中关村东路95号 【申请人地区】中国 【申请人城市】北京市 【申请人区县】海淀区 【申请号】CN200810239328.3 【申请日】2008-12-10 【申请年份】2008 【公开公告号】CN101751424A 【公开公告日】2010-06-23 【公开公告年份】2010 【IPC分类号】G06F17/30; H04L12/18 【发明人】胡卫明; 朱明亮; 吴偶 【主权项内容】一种在线讨论区话题检测与跟踪方法,包括步骤:步骤1:采用HTML解析模块对讨论区帖子进行预处理及线索重构;步骤2:利用帖子和线索的信息度测量模块对新输入的帖子和相关线索进行信息度检查,并对线索特征向量进行更新;步骤3:对线索数据库中的线索的内容文本进行分析;步骤4:对线索数据库中的线索的用户行为进行分析;步骤5:将线索的内容文本和用户行为的分析结果进行融合,判断线索的话题分类。 【当前权利人】中国科学院自动化研究所 【当前专利权人地址】北京市海淀区中关村东路95号 【统一社会信用代码】12100000400010945B 【被引证次数】9 【被他引次数】9.0 【家族被引证次数】9