基于主题图的中文自动分类原型系统设计与实现

ID：23849376

大小：56.50 KB

页数：8页

时间：2018-11-11

资源描述：

《基于主题图的中文自动分类原型系统设计与实现》由会员上传分享，免费在线阅读，更多相关内容在工程资料-天天文库。

1、基于主题图的中文自动分类原型系统设计与实现吕世国（湖北财税职业学院湖北武汉４３００６４）摘要：针对目前基于主题图的中文自动分类的空缺，文章在总结Ｏｎｔｏｐｉａ对英文和挪威文自动分类的技术基础上，结合中文特殊性，构建了一个基于主题图的中文分类原型系统。该系统通过借助ＰＯＩ、ＰＤＦ、ＳＡＸ作为文档文本解析器提取文本，采用盘古分词对文本进行分析，以Ｊａｖａ为系统实现主要语言，达到了基于主题图的中文自动分类的目的。..关键词：主题图；中文分类；盘古分词；Ｏｎｔｏｐｉａ中图分类号：TP274.3文献标识码：Ａｄｏｉ：１０．３９６９／ｊ．ｉｓｓｎ．１６６５－２２７２．２０１5．06．０3

2、9主题图被誉为信息时代的ＧＰＳ，它是多种技术进行融合而出现的一种新兴技术，其作为一种复杂的元数据、一种数字化的知识组织方式、一种智能化的知识索引方式、一种模型化的知识表示和导航技术、一种灵活的分布式资源链接技术，引起了国内外学者越来越多的关注和思考。近年来出现了主题图在图书情报机构、医疗机构、企业单位、网络教育、电子商务、政府部门等领域的研究和应用。主题图将资源之间的关系透过ＴＡＯ，即主题（Ｔｏｐｉｃｓ）、资源出处（Ｏｃｃｕｒｒｅｎｃｅｓ）和关联（Ａｓｓｏｃｉａｔｉｏｎｓ）描述出来，它们就如同三维空间中的“点、线、面”，将一定领域的知识结构和他们之间的语义关联具体化。而在实际

3、应用中，一般使用和存储ＸＭＬ语法形式的ＸＴＭ（ＸＭＬＴｏｐｉｃＭａｐｓ）描述。目前常用的主题图引擎有ＴＭ４Ｊ、ｔｉｎｙＴＩＭ、ＸＴＭ４ＸＭＬＤＢ和ＯＫＳ等，然而仅有挪威Ｏｎｔｏｐｉａ公司的ＯＫＳ（ＯｎｔｏｐｉａＫｎｏｗｌｅｄｇｅＳｕｉｔｅ）获得了成功。Ｏｎｔｏｐｉａ知识开发组件（ＯｎｔｏｐｉａＫｎｏｗｌｅｄｇｅＳｕｉｔｅ，ＯＫＳ）是由Ｏｎｔｏｐｉａ公司开发的一个由本体驱动，基于Ｗｅｂ的ＴｏｐｉｃＭａｐｓ构建和管理工具，主要用于创建、维护、配置主题图应用程序，是目前较完整的商业开发工具。在ＯＫＳ（ＯｎｔｏｐｉａＫｎｏｗｌｅｄｇｅＳｕｉｔｅ）组件中，提供了基于主题图的自动分类功能

4、，但是仅局限于英语和挪威语，缺乏对中文的支持。图书馆作为文献信息的服务机构，藏有大量历史文献，是众多历史研究者及历史爱好者查找资料、研究学习的场所。面对如此巨大的文献馆藏，若完全由人工来进行分类是不现实的。于是，在Ｏｎｔｏｐｉａ的基础上实现了基于主题图的中文自动分类系统的原型系统。1系统功能模块设计为实现基于主题图的中文自动分类，基于主题图的中文自动分类系统的目标如下：提供文档内容提交接口；提供文档上传接口；支持中文、英文、以及中英文混合文档；支持多种文档格式；自动提供分类推荐。2系统设计思路（见图１）图１为系统功能模块，系统包括：分别是获取文本、中文分词、词频记录、词频统计

5、、分类推荐。具体是：获取文本模块—其主要功能是通过提供用户接口，由用户提交文档内容或文档，获取文本；中文分词模块—其主要功能是分析文本，采用中文分词工具实现中文分词；词频记录模块—其主要功能是对分词结果进行词频计算；词频统计模块—其主要功能是根据词频记录进行统计排序；分类推荐模块—其主要功能是在词频统计的基础上返回分类推荐结果。3系统实现3．１获取文本获取文本模块，其主要功能是与用户交互，从而获取需要分类的文本。系统提供了两种用户交互的人机界面：一种是直接提交文档内容，一种是直接上传文档。（１）第一种界面（直接提交文档内容）提供了用户输入文档内容的文本框。通过这个文本框，用户

6、输入文本内容，提交到系统中。采用这种方式，用户的操作比较复杂，需要打开文档，然后再复制文档内容，再粘贴到文本输入框提交文档。虽然使用这种方式比较繁杂，但是在处理一些极少使用到的文档格式的文档时很方便。（２）第二种界面（直接上传文档）提供用户选择文档的界面，用户可以选择多种文档格式文档，上传文档由系统处理。系统根据不同的文档格式，调用不同的解析工具来解析文档，提取文档文本。ＰＯＩ解析器用于提取以＂．ｄｏｃ＂，＂．ｄｏｃｘ＂，＂．ｄｏｔ＂，＂．ｐｐｔ＂，＂．ｐｐｔｘ＂，＂．ｐｏｔ＂和＂．ｐｐｓ＂为文档后缀的文档；Ｐｄｆｂｏｘ解析器用于提取以＂．ｐｄｆ＂为文档后缀的文档；Ｓａｘ解析

7、器用于提取以“．ｈｔｍ”，“．ｈｔｍｌ”，“．ｘｈｔｍｌ”，“．ｓｈｔｍｌ”和“．ｘｍｌ”为文档后缀的文档。3．２中文分词中文分词模块对获取的文本进行文本分析，进行中文文本分词。汉语是以字为基本的书写单位，词语之间没有明显的区分标记，因此，中文词语分析是中文信息处理的基础和关键。为了提高中文分词的精确度，在文本分词时，采用该主题图的专业词库。这样在文本中出现一些特别专业的词语时，系统能够识别，而不至于被系统忽略掉。此外，还需要对词语进行词性标注，在经过词性标注后，可以过滤掉一些对分类无效的词语，比如虚词

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 8



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

基于主题图的中文自动分类原型系统设计与实现

基于主题图的中文自动分类原型系统设计与实现

相关文章

相关标签