【摘要】 本发明公开了一种互联网舆情信息的分类处理方法,选取已分类的舆情信息文本作为训练文本并分词,选取名词和动词并进行筛选,提取得到特征词将训练文本向量化,然后得到PCA变换特征矩阵、BP神经网络模型、决策树规则。利用PCA变换特征矩阵将待分类舆情信息文本的向量矩阵的向量降维,然后根据BP神经网络模型对其进行变换,得到与分类数量相同维数的输出向量,再用决策树规则进行匹配,若有,则待分类舆情信息文本属于该规则所标记的舆情信息分类。由于PCA变换将高维相关的特征词空间转化为低维正交的特征空间,解决了分类不准确的缺点;同时利用决策树规分类无需比较数据之间的相似性,能够在相对短的时间内处理大量数据源。 【专利类型】发明授权 【申请人】电子科技大学 【申请人类型】学校 【申请人地址】611731 四川省成都市高新西区西源大道2006号 【申请人地区】中国 【申请人城市】成都市 【申请人区县】郫都区 【申请号】CN200810147719.2 【申请日】2008-11-28 【申请年份】2008 【公开公告号】CN101414300B 【公开公告日】2010-06-16 【公开公告年份】2010 【授权公告号】CN101414300B 【授权公告日】2010-06-16 【授权公告年份】2010.0 【IPC分类号】G06F17/30; G06N3/06 【发明人】高辉; 傅彦; 陈旭 【主权项内容】1.一种互联网舆情信息的分类处理方法,其特征在于,包括以下步骤: (1)、将互联网舆情信息分为M类,从互联网网站下载、提取舆情信息,人工将其分为M类舆情信息中的一种,并以文本文件的格式保存在相应的文件目录中,每类选取f个的舆情信息文本作为训练文本; (2)、采用汉字分词系统对每个训练文本进行分词,根据词性,从分出词语中选取名词和动词作为候选特征词进行筛选,对每一类舆情信息提取代表该类舆情信息的g个特征词,从而得到所有训练文本的G个特征词,其中G=M×g; (3)、获取主成分分析变换矩阵 按步骤(2)得到G个特征词在每个训练文本中出现的词频,向量化每一个训练文本,得到N个G维的向量xi=(xi,1,xi,2,...,xi,G),1≤i≤N,构成训练文本的向量矩阵(TM)N×G,其中,N=M×f; 计算N个训练文本在每一个维度上的均值: 其中 为N个训练文本向量在第j维上的均值,xi,j表示第i个向量xi在第j维上的值,1≤j≤G。 计算G个特征词之间的协方差矩阵C: 其中xi,k,xj,l分别为向量xi和xj在第k与l维上的值, 分别为样本在第k维和第l维上的均值,1≤i,j≤N,1≤k,l≤G,协方差矩阵C为对称矩阵,即有C(i,j)=C(j,i); 计算协方差矩阵C特征值λi及其对应的特征向量ui(i=1,2,...,G),并按特征值的大小降序排列,即λ1>λ2>...>λG;选取前r个特征值λi对应的主成分特征向量u1,u2,...,ur,得到主成分分析变换特征矩阵A=(u1,u2,...,ur)T,其中 (4)、获取BP神经网络模型的网络权值矩阵w与偏移值b 将训练文本的向量矩阵(TM)N×G乘以主成分分析变换特征矩阵A的转置矩阵(AT)G×r,得到经主成分分析变换后的向量矩阵(TM_PCA)N×r,将其中的N个r维行向量作为BP神经网络模型的N个输入向量,将每一个训练文本对应一个表示该训练文本所属舆情信息分类的M维输出向量,训练BP神经网络,当BP神经网络渐趋稳定时,保存训练好的神经网络模型参数,即网络权值矩阵w与偏移值b,获取BP神经网络模型; (5)、获取决策树规则集 利用步骤(4)得到的神经网络模型,将训练文本的向量矩阵(TM)N×G经主成分分析变换后得到的向量矩阵(TM_PCA)N×r作为神经网络模型N个输入向量,计算得到对应的N个M维的神经网络模型输出向量,构成BP神经网络输出矩阵(TM_PCA_BP)N×M; 在矩阵(TM_PCA_BP)N×M中每一行都对应一个M维的神经网络输出向量,根据每一行对应训练文本所属的舆情信息分类,将每一个M维神经网络输出向量增加一维表示该训练文 本所属的舆情信息分类,这N个M+1维向量构成了决策树样本矩阵(Sample)N×(M+1); 矩阵(Sample)N×(M+1)中N个向量在第i(1≤i≤M)维上有k个不同的数x1,x2,...,xk,对于其中的每个数xj(1≤j≤k),将N个向量在第i维上的值分为两类,小于xj的为一类,不超过xj的为另一类,第一类和第二类中分别有n1和n2个值,按如下公式求出N个行向量在第i维上基于xj(1≤j≤k)的熵值: 将k个熵值中最大熵值对应的数xj,记为maxSi,计算N个向量在前M维上的最大熵值对应的数,得到一个熵值数组S={max S1,max S2,...,maxSM};根据熵值数组S对矩阵(Sample)N×(M+1)中N个行向量在前M维上的值进行离散化,如果在第i维上的值大于等于maxSi,则离散化为1,否则离散化为0; 然后利用C4.5决策树算法建立基于离散化后矩阵(Sample)N×(M+1)的决策树分类模型,得到决策树规则集Rule; (6)、从互联网网站下载、提取舆情信息,并以文本格式保存,作为待分类舆情信息文本,其个数为F; (7)、采用汉字分词系统对每个待分类舆情信息文本进行分词,按步骤(2)得到G个特征词在每个待分类舆情信息文本中出现的词频,向量化每一个待分类舆情信息文本,得到F个G维的向量xi=(xi,1,xi,2,...,xi,G),1≤i≤F,构成待分类舆情信息文本的向量矩阵(T)F×G; 将待分类舆情信息文本的向量矩阵(T)F×G乘以步骤(3)得到的主成分分析变换特征矩阵A的转置矩阵(AT)G×r,得到经主成分分析变换后的向量矩阵(T_PCA)F×r; 将主成分分析变换后的向量矩阵(T_PCA)F×r中的F个r维向量作为步骤(4)获取BP神经网络模型的F个输入向量,计算出F个输入向量对应的F个M维的神经网络输出向量; 根据步骤(5)获得的熵值数组S对F个M维神经网络输出向量的每一维进行离散化;将离散化后的每一个M维神经网络输出向量与步骤(5)中得到的决策树规则集Rule中的决策树规则进行匹配,若有,则待分类舆情信息文本属于匹配决策树规则所标记的舆情信息分类。 【当前权利人】电子科技大学 【当前专利权人地址】四川省成都市高新西区西源大道2006号 【专利权人类型】公立 【统一社会信用代码】121000004507193117 【家族被引证次数】57