基于模糊关联规则的中文文本分类

基于模糊关联规则的中文文本分类

ID:39402560

大小:1.20 MB

页数:54页

时间:2019-07-02

基于模糊关联规则的中文文本分类_第1页
基于模糊关联规则的中文文本分类_第2页
基于模糊关联规则的中文文本分类_第3页
基于模糊关联规则的中文文本分类_第4页
基于模糊关联规则的中文文本分类_第5页
资源描述:

《基于模糊关联规则的中文文本分类》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、河北大学硕士学位论文基于模糊关联规则的中文文本分类姓名:郭玉琴申请学位级别:硕士专业:计算机应用技术指导教师:袁方20070601摘要摘要随着Intemet的迅猛发展和同益普及,电子文本的数量急剧增加,如何有效地组织和管理海量电子文本,并快速、准确、全面地从中找到用户所需要的信息是当前信息科学与技术领域面临的一大挑战。文本分类作为处理和组织大量文本数据的关键技术,可以在较大程度上解决信息杂乱的问题,方便用户准确地定位所需要的信息。同时,作为信息过滤、信息检索、搜索引擎、文本数据库、数字化图书馆等领域的技术基础,文本分类有着广泛的应用前景。本文给出一种基于模糊关联规则的自动文本分类

2、方法。该方法汲取了传统的关联规则分类算法的优点,并引入了模糊集理论。与一般分类规则相比,模糊关联规则中不仅包含词条,而且包含了词条在文本中出现的频率。通过词频末区别词条对文本分类的不同作用,可以更为精确地限定与文本相匹配的规则的范围。实验结果表明该方法是可行的,与传统分类方法相比,分类的准确率有了明显提高。由于模糊关联规则比一般规则复杂,致使构建模糊文本分类器和应用其分类新文本的效率都有所降低,同时也增加了存储开销,为此我们又从以下几个方面对模糊文本分类器进行了深入研究和优化。首先,在挖掘模糊关联规则时,对于不同类别的文本集,不再采用统一的最小支持度阈值,而是根据文本集的特性,将

3、给定的支持度阈值通过模糊函数转化为适合该文本集的阂值,使用转化后的阈值对规则的生成过程加以限制,在一定程度上解决了阈值设置不当所带来的问题。其次,给出一种快速挖掘模糊关联规则的算法。该算法对频繁2.项集和频繁k.项集(k>2)的生成采用了不同的处理方法,规则的生成过程中只需要遍历数据库两次,大大提高了挖掘效率,且不需要保存候选项集,节省了存储开销。最后,针对通过遍历分类器分类新文本的方法效率低的问题,给出一种基于模糊分类规则树的文本分类方法。分类器中的规则以树的形式存储,由于树型结构可以共享相同结点,节省了存储空间;在分类新文本时,由于不需要遍历没在新文本中出现的词条所引导的子树

4、,大大减少了需要匹配的规则的数量,提高了分类效率。实验表明,优化后的基于模糊关联规则的文本分类方法的整体性能得到了明显改善。关键词文本分类:关联规则;模糊集理论;FAMFAR:FCR.treeAbstractof2-item—setsandk—item-sets(k>2).Thewholeprocedureonlyscansdatabasetwice,SOtherulesminingisspeededup.Moreover,sincethatcandidateitem—setsarenotrequiredtostore,thestoragespaceisreduced.Third

5、ly,theconventionalfuzzyclass-associationmethodappliesrepetitivescansoftheclassifiertoclassifynewtexts,whichhaslowefficiency.Todealwiththisproblem,weproposeanewapproachbasedonFCR—tree(FuzzyClassificationRulestree)fortextcategorization.ThecompactnessofFCR—treebringssignificantgaininstoringalarg

6、esetofruleswheremanywordsintherulescanbeshared.Inaddition,whenanewtextisclassified,itisnotnecessarytosearchthepathleadedbythewordnotappearinginthistextinFCR・tree,thenthenumberoftravelingrulesisdecreased,whichmeanstheclassifyingprocessisexpedited.Theexperimentalresultsshowthatthewholeperforman

7、ceoftheimprovedfuzzyclass—associationmethodisobviouslyimproved.KeywordsTextcategorization;Associationrule;Fuzzyset;FAMFAR;FCR・tree河北大学学位论文独创性声明本人郑重声明:所呈交的学位论文,是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写的研究成果,也不包含为获得河北大学或其

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。