【摘要】 一种基于WEB挖掘的非规范语言处理方法,本发明涉及计算机数据挖掘领域,特别涉及到网络情感挖掘方案的技术。本专利公开一种对网络非规范语言进行处理的方法,属于计算机数据挖掘领域。该方法提出运用最小化监督学习的方法来处理非规范语言。将正常的非规范语言的种类由六类简化为两种不相交的类别:典型非规范语言和歧义非规范语言。对于典型非规范语言,提出一种基于序列覆盖的模式匹配算法。而对于歧义非规范语言,提出一种基于特征抽取的分类算法将其处理。最终能够得到完全正规的书面词语,从而方便了主观意见型的挖掘工作,能够更好的抽取情感,意见,建议等信息。 【专利类型】发明申请 【申请人】张霄凯; 杨帆; 史天艺 【申请人类型】个人 【申请人地址】200240 上海市闵行区东川路800号D31-105室 【申请人地区】中国 【申请人城市】上海市 【申请人区县】闵行区 【申请号】CN200810207672.4 【申请日】2008-12-24 【申请年份】2008 【公开公告号】CN101763352A 【公开公告日】2010-06-30 【公开公告年份】2010 【IPC分类号】G06F17/30; G06F17/27 【发明人】张霄凯; 杨帆; 史天艺; 尹航 【主权项内容】一种网络非规范语言的处理方法,其目的在于应用最小化的训练数据就可以得到很好的处理结果。将网络上经常使用的非规范语言分为两大类:典型非规范语言和歧义非规范语言。针对不同类型采用不同的处理方法。其目的是使用尽量少的训练数据得到最大化的正规化处理结果。 【当前权利人】张霄凯; 杨帆; 史天艺 【当前专利权人地址】上海市闵行区东川路800号D31-105室; ; 【被引证次数】5 【被他引次数】5.0 【家族被引证次数】5