【摘要】 一种计算机应用技术领域的文本集合可视化系统,包括:文本采集模块、中 文分词模块、词语权重计算模块、XML文件组织模块、可视化图形界面模块,先 通过文本采集模块、中文分词模块、特征词权重计算模块和XML文件组织模块构 成本地数据库,然后通过可视化图形界面模块与本地数据库的接口交互,对用户 的检索关键词图形化地显示结果。显示结果的呈现应用本发明提供的文档与多个 关键词关联程度的可视化方式,并且向用户提供可在图形界面上拖曳关键词的交 互操作来拓展定义关键词之间的语义关系,得到更好的效果。 【专利类型】发明授权 【申请人】上海交通大学 【申请人类型】学校 【申请人地址】200240上海市闵行区东川路800号 【申请人地区】中国 【申请人城市】上海市 【申请人区县】闵行区 【申请号】CN200810040145.9 【申请日】2008-07-03 【申请年份】2008 【公开公告号】CN100595762C 【公开公告日】2010-03-24 【公开公告年份】2010 【授权公告号】CN100595762C 【授权公告日】2010-03-24 【授权公告年份】2010.0 【IPC分类号】G06F17/30; G06F17/27 【发明人】马颖华; 苏贵洋; 李建华; 冯薇; 李文婷 【主权项内容】1、一种文本集合可视化系统,其特征在于,包括:文本采集模块、中文分 词模块、词语权重计算模块、XML文件组织模块、可视化图形界面模块,其中: 文本采集模块在互联网上搜集网页文本,将采集到的文本作为原始数据源传 入中文分词模块; 中文分词模块,对文本采集模块中得到的文本内容进行分词处理,获得以词 为单位的语料,并统计词频,保存在本地文本,供后续的词语权重计算模块读取 词频信息计算权重; 词语权重计算模块,用于对分词后的结果进行特征抽取即特征词权重的计 算,将计算结果连同对应的特征词,以及所在文本的标题交给XML文件组织模块; XML文件组织模块负责将词语权重计算模块传入的数据以设定的数据结构 组织成XML文件保留在本地计算机,并为可视化图形界面模块提供读取文本数据 结构化处理后的结果; 可视化图形界面模块以上述XML文件组织模块保留在本地的结果数据为基 本语料库,通过与用户的交互取得用户命令,并显示出结果; 所述的文本采集模块,包括:下载子模块和存储子模块,其中:下载子模块 首先从设定的根网址开始,根据根网址上提供的网页链接,进行设定层数的网页 源文件抓取,同时剔除html标记和脚本代码,得到最初的文本内容,然后该模 块调用存储子模块,将文本保存在设定的本地目录下,在每个文本保存前,首先 判断在同一目录下是否存在与该文本相同的文本,若存在,则对该文本不进 行保存;当采集工作结束后,调用所述的中文分词模块对上面保存的最初文本内 容进行分词工作; 所述的中文分词模块对采集到的大量中文文本进行分词,并去掉停止词,使 之成为独立的特征词,并得到每个词语在每篇文章中的出现的频率,交给词语权 重计算模块,所述停止词是指:介词或语气助词。。 【当前权利人】上海交通大学 【当前专利权人地址】上海市闵行区东川路800号 【统一社会信用代码】1210000042500615X0 【引证次数】5.0 【他引次数】5.0 【家族引证次数】5.0 【家族被引证次数】27