【摘要】 本发明公开了一种网络舆情观点收集方法,通过在网络论坛中提取热点词,根据热点词提取相关的信息文档,构成该热点词相关的热点事件文档集,并对其中的关键句进行聚类,得到某一热点事件的多个观点主题句集,然后通过建立不同类别的情感词库,对观点主题句集中的关键句的情感词进行情感标记,然后根据情感标记计算出每个关键句的情感倾向值,再依据关键句的网民的身份标记,计算出每个网民在该观点主题下的情感倾向值,得到某一热点事件的网络舆情观点,从而实现了网络舆情观点的收集。本发明不但可以有效地发现网络中的舆情信息,还可以针对具体的舆情信息能及时准确地提取网民观点,弥补了以往舆情系统只能发现舆情信息,而不能做观点分析的不足。 【专利类型】发明授权 【申请人】电子科技大学 【申请人类型】学校 【申请人地址】611731 四川省成都市高新西区西源大道2006号 【申请人地区】中国 【申请人城市】成都市 【申请人区县】郫都区 【申请号】CN200810147645.2 【申请日】2008-11-24 【申请年份】2008 【公开公告号】CN101408883B 【公开公告日】2010-09-01 【公开公告年份】2010 【授权公告号】CN101408883B 【授权公告日】2010-09-01 【授权公告年份】2010.0 【IPC分类号】G06F17/30 【发明人】高辉; 傅彦; 佘莉; 田军伟 【主权项内容】一种网络舆情观点收集方法,包括以下步骤:(1)、从网络论坛中抓取网页,将其信息文档保存到爬虫数据库中;(2)、从爬虫数据库中的信息文档中提取出热点词,根据热点词,提取热点词相关的信息文档,构成该热点词相关的热点事件文档集;(3)、在热点事件文档集中,提取信息文档中的关键句,构成关键句集,在提取关键句过程中,在该关键句句末添加网民的身份标记,以标记该关键句的所属用户;(4)、对关键句集中的关键句进行聚类,对聚类结果按每类句子数目对其排序,取最高的前M类,形成M类观点主题句集;(5)、建立不同类别的情感词库,情感词库中的每一个词语对应一个权值,对M类观点主题句集分别标注其对应的情感词库,然后依据情感词库,分别对M类观点主题句集中的关键句的情感词进行情感标记,然后根据情感标记计算出每个关键句的情感倾向值,再依据关键句的网民的身份标记,计算出每个网民在该观点主题下的情感倾向值,从而得到某一热点事件的网络舆情观点;其中,所述的根据情感标记计算出每个关键句的情感倾向值为通过关键句中标记的情感词的权值来计算,计算规则如下:首先将句中相邻的相同词性的情感词,包括形容词、动词、名词和副词进行合并,合并方法是对词语的权值应用加法规则;然后对下面几种情况采用乘法规则进行合并:1)相邻的转义词语之间采用乘法规则;2)副词和其修饰的形容词采用乘法规则;3)副词和其修饰的动词采用乘法规则;4)形容词和其修饰的名词采用乘法规则;最后将剩下的权值应用加法规则得到一个关键句的情感倾向值。 【当前权利人】电子科技大学 【当前专利权人地址】四川省成都市高新西区西源大道2006号 【专利权人类型】公立 【统一社会信用代码】121000004507193117 【被引证次数】3 【被他引次数】3.0 【家族被引证次数】110