【摘要】 本发明公开了一种基于内容的问题自动分类方法及其系统,该系统包括:问题关键字获取模块,用于根据模板中的关键字标签和/或可填充内容标签获取新问题的问题关键字,为问题关键字设置权值,并得到新问题的问题向量;特征空间构造模块,用于根据已有所有类别的问题及所述权值获取每一类别的特征向量,构造特征空间;及语义映射模块,连接特征空间构造模块、问题关键字获取模块,用于将新问题的问题向量映射到特征空间,根据新问题映射后的问题向量、每一类别的特征向量计算新问题与每一类别之间的相似度,并根据相似度返回最相关的类别。本发明实现了对用户所提出的新问题自动分类,并把最可能的结果返回给用户供其选择。 【专利类型】发明授权 【申请人】北京百问百答网络技术有限公司 【申请人类型】企业 【申请人地址】100872 北京市海淀区中关村大街59号文化大厦1207F室 【申请人地区】中国 【申请人城市】北京市 【申请人区县】海淀区 【申请号】CN200810102710.X 【申请日】2008-03-25 【申请年份】2008 【公开公告号】CN101251862B 【公开公告日】2010-06-09 【公开公告年份】2010 【授权公告号】CN101251862B 【授权公告日】2010-06-09 【授权公告年份】2010.0 【IPC分类号】G06F17/30; G06F17/27 【发明人】刘文印 【主权项内容】1.一种基于内容的问题自动分类方法,其特征在于,包括: 问题关键字获取步骤,用于根据模板中的关键字标签和/或可填充内容标签获取新问题的问题关键字,为所述问题关键字设置权值,并根据所述权值得到所述新问题的问题向量; 特征空间构造步骤,用于根据已有所有类别的问题及所述权值获取每一类别的特征向量,并构造特征空间; 语义映射步骤,用于将所述新问题的问题向量映射到所述特征空间,根据所述新问题映射后的问题向量、每一类别的特征向量计算所述新问题与每一类别之间的相似度,并根据所述相似度返回最相关的类别; 所述问题关键字获取步骤中,进一步包括: 根据词频为所述新问题中的每个单词设置初始权值,并在获取所述问题关键字后,将所述问题关键字的权值设置为该初始权值乘以λ的步骤; 当λ为1时,所述新问题中的所有单词的重要性相同,当λ大于1时,对所述问题关键字已被设置为较高的权值; 所述获取每一类别的特征向量的步骤进一步包括: 由每一类别中的所有单词表示该类别初始的特征向量; 根据单词的权值对每一类别中的所有单词按降序排序,第j个单词在第i个类别中的的权值由tfij和idfj的乘积来计算; 根据所有类别中单词的集合WS、所有类别的集合C以如下公式获取满足下面条件的前ki个词作为第i个类别ci的特征向量: |WS|:WS中单词的总数; tfij:第j个单词在第i个类别中的词频; idfj:第j个单词的逆向类别频率,是所有类别的数目与包含第j个单词的类别的数目的比值或该比值的函数; δ:权值覆盖参数,在0和1之间。 【当前权利人】广东东华发思特软件有限公司 【当前专利权人地址】广东省珠海市横琴新区环岛东路创意谷1889号20栋B座512室 【引证次数】7.0 【被引证次数】7 【自引次数】1.0 【他引次数】6.0 【被自引次数】1.0 【被他引次数】6.0 【家族引证次数】7.0 【家族被引证次数】37