欢迎来到天天文库
浏览记录
ID:23849376
大小:56.50 KB
页数:8页
时间:2018-11-11
《基于主题图的中文自动分类原型系统设计与实现》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、基于主题图的中文自动分类原型系统设计与实现吕世国(湖北财税职业学院湖北武汉430064)摘要:针对目前基于主题图的中文自动分类的空缺,文章在总结Ontopia对英文和挪威文自动分类的技术基础上,结合中文特殊性,构建了一个基于主题图的中文分类原型系统。该系统通过借助POI、PDF、SAX作为文档文本解析器提取文本,采用盘古分词对文本进行分析,以Java为系统实现主要语言,达到了基于主题图的中文自动分类的目的。..关键词:主题图;中文分类;盘古分词;Ontopia中图分类号:TP274.3文献标识码:Adoi:10.3969/j.issn.1665-2272.2015.06.03
2、9主题图被誉为信息时代的GPS,它是多种技术进行融合而出现的一种新兴技术,其作为一种复杂的元数据、一种数字化的知识组织方式、一种智能化的知识索引方式、一种模型化的知识表示和导航技术、一种灵活的分布式资源链接技术,引起了国内外学者越来越多的关注和思考。近年来出现了主题图在图书情报机构、医疗机构、企业单位、网络教育、电子商务、政府部门等领域的研究和应用。主题图将资源之间的关系透过TAO,即主题(Topics)、资源出处(Occurrences)和关联(Associations)描述出来,它们就如同三维空间中的“点、线、面”,将一定领域的知识结构和他们之间的语义关联具体化。而在实际
3、应用中,一般使用和存储XML语法形式的XTM(XMLTopicMaps)描述。目前常用的主题图引擎有TM4J、tinyTIM、XTM4XMLDB和OKS等,然而仅有挪威Ontopia公司的OKS(OntopiaKnowledgeSuite)获得了成功。Ontopia知识开发组件(OntopiaKnowledgeSuite,OKS)是由Ontopia公司开发的一个由本体驱动,基于Web的TopicMaps构建和管理工具,主要用于创建、维护、配置主题图应用程序,是目前较完整的商业开发工具。在OKS(OntopiaKnowledgeSuite)组件中,提供了基于主题图的自动分类功能
4、,但是仅局限于英语和挪威语,缺乏对中文的支持。图书馆作为文献信息的服务机构,藏有大量历史文献,是众多历史研究者及历史爱好者查找资料、研究学习的场所。面对如此巨大的文献馆藏,若完全由人工来进行分类是不现实的。于是,在Ontopia的基础上实现了基于主题图的中文自动分类系统的原型系统。1系统功能模块设计为实现基于主题图的中文自动分类,基于主题图的中文自动分类系统的目标如下:提供文档内容提交接口;提供文档上传接口;支持中文、英文、以及中英文混合文档;支持多种文档格式;自动提供分类推荐。2系统设计思路(见图1)图1为系统功能模块,系统包括:分别是获取文本、中文分词、词频记录、词频统计
5、、分类推荐。具体是:获取文本模块—其主要功能是通过提供用户接口,由用户提交文档内容或文档,获取文本;中文分词模块—其主要功能是分析文本,采用中文分词工具实现中文分词;词频记录模块—其主要功能是对分词结果进行词频计算;词频统计模块—其主要功能是根据词频记录进行统计排序;分类推荐模块—其主要功能是在词频统计的基础上返回分类推荐结果。3系统实现3.1获取文本获取文本模块,其主要功能是与用户交互,从而获取需要分类的文本。系统提供了两种用户交互的人机界面:一种是直接提交文档内容,一种是直接上传文档。(1)第一种界面(直接提交文档内容)提供了用户输入文档内容的文本框。通过这个文本框,用户
6、输入文本内容,提交到系统中。采用这种方式,用户的操作比较复杂,需要打开文档,然后再复制文档内容,再粘贴到文本输入框提交文档。虽然使用这种方式比较繁杂,但是在处理一些极少使用到的文档格式的文档时很方便。(2)第二种界面(直接上传文档)提供用户选择文档的界面,用户可以选择多种文档格式文档,上传文档由系统处理。系统根据不同的文档格式,调用不同的解析工具来解析文档,提取文档文本。POI解析器用于提取以".doc",".docx",".dot",".ppt",".pptx",".pot"和".pps"为文档后缀的文档;Pdfbox解析器用于提取以".pdf"为文档后缀的文档;Sax解析
7、器用于提取以“.htm”,“.html”,“.xhtml”,“.shtml”和“.xml”为文档后缀的文档。3.2中文分词中文分词模块对获取的文本进行文本分析,进行中文文本分词。汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的基础和关键。为了提高中文分词的精确度,在文本分词时,采用该主题图的专业词库。这样在文本中出现一些特别专业的词语时,系统能够识别,而不至于被系统忽略掉。此外,还需要对词语进行词性标注,在经过词性标注后,可以过滤掉一些对分类无效的词语,比如虚词
此文档下载收益归作者所有