web文本分类关键技术的研究

web文本分类关键技术的研究

ID:32301979

大小:4.58 MB

页数:135页

时间:2019-02-03

web文本分类关键技术的研究_第1页
web文本分类关键技术的研究_第2页
web文本分类关键技术的研究_第3页
web文本分类关键技术的研究_第4页
web文本分类关键技术的研究_第5页
资源描述:

《web文本分类关键技术的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、曲南大学博十学位论文了结合粗糙集、模糊集和内在认知机理的Web文本分类的混合的改进算法。本文主要研究内容和创新点具体包括以下几个方面:(1)构建web文本分类系统模型。给出了文本预处理模块、分类模块、分类质量评价模块的功能和内容以及整体模型框架,对w曲文本分类系统模型中的关键技术:文本采集、分词处理、文本的特征表示、特征降维、权重计算和分类技术进行了研究,同时描述了影响分类性能评价的五个因素和几种常用的分类质量评价方法。(2)给出一种web文本采集算法和采集系统。针对web文本采集技术、文本采集

2、系统中的数据库设计方法、采集系统功能设计内容、采集算法进行了研究,描述了从Intemet上采集web文本形成web的TⅪr文件集的具体采集过程。(3)提出一种基于双库协同机制与粗糙集的web文本分类关联规则挖掘算法。采用互信息计算公式进行特征的初步选择和用粗糙集理论进行进一步属性约简相结合,实现了文本特征的更有效降维处理,大大缩减了文本高维特征空间。文本分类规则挖掘结合基于内在认知的双库协同机制进行关联分析方法和有效的迸一步规则优化提取,启用中断型协调器,经过这样的处理后,规则中的条件属性数目、

3、规则冲突被尽可能减少,规则的适应性更强。再将两结合的特征降维方法和多结合的分类规则挖掘方法混合使用,更十分有效实现了文本的分类。对混合挖掘算法进行了实验,并结合常用的关联规则分类法和svM方类法对该改进混合算法进行比较,验证该算法的可行性。(4)提出一种基于模糊综合加权推理的w曲文本模糊分类改进算法。模糊推理方法是运用知识规则进行推理,使机器具有思维能力,自动求解问题,它的工作方式与人类的认知过程极为相似。通过模糊推理来对文本模糊分类,建立起了样本对于类别的不确定性的描述,使归类结果比精确分类更

4、有效地反映W曲文本的真实信息。针对基于最大——最小合成法模糊推理归类这种方法在模糊运算的过程中只能保持主要信息,忽略很多次要因素,虽然能减少运算工作量,但其分类结果适应性、可信度不很理想的情况,提出一种改进模糊综合加权评判算法。使用了本文给出的一种“综合加权型”算子④(·,o),基于有界和——代数积进行推理运算,根据权重系数综合考虑每个因素的影响建立的模糊分类系统的模糊推理机制,能确保推理结果的准确性及可信度。对该算法进行了实验,同时结合基于最大一最小合成模糊推理方法对该改进算法进行比较,验证该

5、算法的可行性。(5)提出一种基于内在认知机理的带反馈的质心w曲文本分类改进算法。结合认知科学,针对只有训练与分类两阶段的分类方法,不具备不断学习的能力和分类能力在将来的分类过程中是固定不变的情况,在文本训练及分类阶段的基础上增加了自动反馈阶段,实现模拟人类学习方式的渐增、递进式知识发现方式,实现分类器自【I摘要识调节和修正来提高文本分类智能化程度和分类有效性。并对该改进算法进行了实验。与传统的质心文本分类作比较,验证该算法的可行性。关键词:wcb文本挖掘wcb文本分类内在认知机理粗糙集模糊推理l

6、Il西南大学博十学位论文ResearchonWebTextClassificationKeyTechnoIOgyMajor:GeneralPsychologyReseachDirectiOn:AnificialIntel“genceSuperVisor:P-ofY.uhuiQiuPh.D.Candidate:ShiqunYjnAbStractSinceme1990s,Intemethasdevel叩edwiththesurprisingrapidi何W曲,asthcmainplatf0册ofth

7、einfornlationmaIluf融uring,issuing,processing甜ldt啪sactiflg,has锄e唱edmassiveisomemusdyn釉ics鲫j—s虮jc咖lornon—stnIctlIraJin"x图目录图2—1Web挖掘分类图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..19图2—2web文本挖掘过程示意图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯25图2—3KDD丰系统总体结构图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯30图3—1web文本分类系统模型框架.⋯⋯⋯⋯⋯.⋯⋯⋯⋯⋯⋯

8、⋯⋯..37图4—1web文本采集数据库结构图....⋯⋯⋯⋯⋯⋯⋯⋯.⋯⋯⋯⋯.。57图4—2web文本采集功能模块图.⋯...⋯⋯⋯⋯.....⋯⋯⋯⋯⋯⋯⋯58图5—1基于双库协同机制与粗糙集的关联规则提取文本分类过程图⋯⋯⋯⋯..66图5—2n元组选取示意图⋯....⋯⋯⋯⋯⋯...⋯⋯⋯⋯⋯⋯⋯⋯..67图5—3分类器的基本结构图..⋯⋯⋯⋯⋯..⋯⋯⋯⋯⋯⋯⋯⋯⋯..78图5—4SVM算法原理示意图...⋯⋯⋯⋯..⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..80图5—5实验分析准确率比较图⋯⋯⋯...

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。