行业新闻

一种互联网舆情信息的分类处理方法专利

发布时间:2026-06-22

【摘要】本发明公开了一种互联网舆情信息的分类处理方法，选取已分类的舆情信息文本作为训练文本并分词，选取名词和动词并进行筛选，提取得到特征词将训练文本向量化，然后得到PCA变换特征矩阵、BP神经网络模型、决策树规则。利用PCA变换特征矩阵将待分类舆情信息文本的向量矩阵的向量降维，然后根据BP神经网络模型对其进行变换，得到与分类数量相同维数的输出向量，再用决策树规则进行匹配，若有，则待分类舆情信息文本属于该规则所标记的舆情信息分类。由于PCA变换将高维相关的特征词空间转化为低维正交的特征空间，解决了分类不准确的缺点；同时利用决策树规分类无需比较数据之间的相似性，能够在相对短的时间内处理大量数据源。【专利类型】发明授权【申请人】电子科技大学【申请人类型】学校【申请人地址】611731 四川省成都市高新西区西源大道2006号【申请人地区】中国【申请人城市】成都市【申请人区县】郫都区【申请号】CN200810147719.2 【申请日】2008-11-28 【申请年份】2008 【公开公告号】CN101414300B 【公开公告日】2010-06-16 【公开公告年份】2010 【授权公告号】CN101414300B 【授权公告日】2010-06-16 【授权公告年份】2010.0 【IPC分类号】G06F17/30; G06N3/06 【发明人】高辉; 傅彦; 陈旭【主权项内容】1.一种互联网舆情信息的分类处理方法，其特征在于，包括以下步骤： (1)、将互联网舆情信息分为M类，从互联网网站下载、提取舆情信息，人工将其分为M类舆情信息中的一种，并以文本文件的格式保存在相应的文件目录中，每类选取f个的舆情信息文本作为训练文本； (2)、采用汉字分词系统对每个训练文本进行分词，根据词性，从分出词语中选取名词和动词作为候选特征词进行筛选，对每一类舆情信息提取代表该类舆情信息的g个特征词，从而得到所有训练文本的G个特征词，其中G＝M×g； (3)、获取主成分分析变换矩阵按步骤(2)得到G个特征词在每个训练文本中出现的词频，向量化每一个训练文本，得到N个G维的向量xi＝(xi，1，xi，2，...，xi，G)，1≤i≤N，构成训练文本的向量矩阵(TM)N×G，其中，N＝M×f；计算N个训练文本在每一个维度上的均值：其中为N个训练文本向量在第j维上的均值，xi，j表示第i个向量xi在第j维上的值，1≤j≤G。计算G个特征词之间的协方差矩阵C：其中xi，k，xj，l分别为向量xi和xj在第k与l维上的值，分别为样本在第k维和第l维上的均值，1≤i，j≤N，1≤k，l≤G，协方差矩阵C为对称矩阵，即有C(i，j)＝C(j，i)；计算协方差矩阵C特征值λi及其对应的特征向量ui(i＝1，2，...，G)，并按特征值的大小降序排列，即λ1＞λ2＞...＞λG；选取前r个特征值λi对应的主成分特征向量u1，u2，...，ur，得到主成分分析变换特征矩阵A＝(u1，u2，...，ur)T，其中 (4)、获取BP神经网络模型的网络权值矩阵w与偏移值b 将训练文本的向量矩阵(TM)N×G乘以主成分分析变换特征矩阵A的转置矩阵(AT)G×r，得到经主成分分析变换后的向量矩阵(TM_PCA)N×r，将其中的N个r维行向量作为BP神经网络模型的N个输入向量，将每一个训练文本对应一个表示该训练文本所属舆情信息分类的M维输出向量，训练BP神经网络，当BP神经网络渐趋稳定时，保存训练好的神经网络模型参数，即网络权值矩阵w与偏移值b，获取BP神经网络模型； (5)、获取决策树规则集利用步骤(4)得到的神经网络模型，将训练文本的向量矩阵(TM)N×G经主成分分析变换后得到的向量矩阵(TM_PCA)N×r作为神经网络模型N个输入向量，计算得到对应的N个M维的神经网络模型输出向量，构成BP神经网络输出矩阵(TM_PCA_BP)N×M；在矩阵(TM_PCA_BP)N×M中每一行都对应一个M维的神经网络输出向量，根据每一行对应训练文本所属的舆情信息分类，将每一个M维神经网络输出向量增加一维表示该训练文本所属的舆情信息分类，这N个M+1维向量构成了决策树样本矩阵(Sample)N×(M+1)；矩阵(Sample)N×(M+1)中N个向量在第i(1≤i≤M)维上有k个不同的数x1，x2，...，xk，对于其中的每个数xj(1≤j≤k)，将N个向量在第i维上的值分为两类，小于xj的为一类，不超过xj的为另一类，第一类和第二类中分别有n1和n2个值，按如下公式求出N个行向量在第i维上基于xj(1≤j≤k)的熵值：将k个熵值中最大熵值对应的数xj，记为maxSi，计算N个向量在前M维上的最大熵值对应的数，得到一个熵值数组S＝{max S1，max S2，...，maxSM}；根据熵值数组S对矩阵(Sample)N×(M+1)中N个行向量在前M维上的值进行离散化，如果在第i维上的值大于等于maxSi，则离散化为1，否则离散化为0；然后利用C4.5决策树算法建立基于离散化后矩阵(Sample)N×(M+1)的决策树分类模型，得到决策树规则集Rule； (6)、从互联网网站下载、提取舆情信息，并以文本格式保存，作为待分类舆情信息文本，其个数为F； (7)、采用汉字分词系统对每个待分类舆情信息文本进行分词，按步骤(2)得到G个特征词在每个待分类舆情信息文本中出现的词频，向量化每一个待分类舆情信息文本，得到F个G维的向量xi＝(xi，1，xi，2，...，xi，G)，1≤i≤F，构成待分类舆情信息文本的向量矩阵(T)F×G；将待分类舆情信息文本的向量矩阵(T)F×G乘以步骤(3)得到的主成分分析变换特征矩阵A的转置矩阵(AT)G×r，得到经主成分分析变换后的向量矩阵(T_PCA)F×r；将主成分分析变换后的向量矩阵(T_PCA)F×r中的F个r维向量作为步骤(4)获取BP神经网络模型的F个输入向量，计算出F个输入向量对应的F个M维的神经网络输出向量；根据步骤(5)获得的熵值数组S对F个M维神经网络输出向量的每一维进行离散化；将离散化后的每一个M维神经网络输出向量与步骤(5)中得到的决策树规则集Rule中的决策树规则进行匹配，若有，则待分类舆情信息文本属于匹配决策树规则所标记的舆情信息分类。【当前权利人】电子科技大学【当前专利权人地址】四川省成都市高新西区西源大道2006号【专利权人类型】公立【统一社会信用代码】121000004507193117 【家族被引证次数】57

装饰配件(020)
【摘要】省略其他视图。【专利类型】外观设计【申请人】段晋蓉【申请人类型】个人【申请人地址】610000四川省成都市高新区神仙树南路8号45栋1单元6号【申请人地区】中国【申请人城市】成都市【申请人区县】武侯区【申请号】CN200830343
管束式对星形架全行程连续导向组件
【摘要】本发明属于压水型核反应堆堆内构件，具体公开了一种管束式对星形架全行程连续导向组件。导向组件为连接板式长方形筒体，内部安装“C”形导向管、“C”形引导管和双孔引导管，上下采用定位件定位，整个结构简单、可靠、稳定；采用加防变形应力槽然后
胆维他与贝特类药物的联合用药物
【摘要】本发明涉及胆维他与贝特类药物的联合用药物。本发明是将胆维他与贝特类药物或药学上可接受的载体形成的组合物在治疗脂肪肝疾病中的应用。该组合物用于脂肪肝的治疗时，不但能达到协同增效，同时还能减低两类药物单独使用时的毒性。通过药效学试验证明
一种提高SAS域运行稳定性的方法、装置及系统
【摘要】本发明实施例公开了一种提高SAS域运行稳定性的方法、装置及系统。该方法包括监测并记录预定时间内SAS域中SAS物理通道的状态变化次数，对所述状态变化次数满足预置的隔离条件的SAS物理通道进行隔离。通过本发明实施例所述方法，能够提高S
一种土压平衡式盾构模拟试验设备
【摘要】一种土压平衡式盾构模拟试验设备，上部开口的长方形的土体腔内放置模型盾构机，并充填模拟土体，模型盾构机的中轴线与土体腔的中轴线重叠；模拟土体的上面覆盖一层混凝土垫层，混凝土垫层的上表面通过两个以上的土压千斤顶与水平加载梁相连，水平加载
钢筋混凝土柱护边角钢安装方法
【摘要】本发明涉及钢筋混凝土柱施工，尤其涉及钢筋混凝土柱护边角钢。一种钢筋混凝土柱护边角钢安装方法，它包括下列步骤：楼板地坪上弹混凝土柱外皮墨线步骤；操作脚手架搭设步骤；混凝土柱钢筋绑扎步骤；利用线锤将底部墨线投至脚手架横杆上步骤；护

产品分类

最新文章

一种互联网舆情信息的分类处理方法专利