基于web文本挖掘技术的研究与应用

基于web文本挖掘技术的研究与应用

ID:32181243

大小:5.08 MB

页数:74页

时间:2019-02-01

基于web文本挖掘技术的研究与应用_第1页
基于web文本挖掘技术的研究与应用_第2页
基于web文本挖掘技术的研究与应用_第3页
基于web文本挖掘技术的研究与应用_第4页
基于web文本挖掘技术的研究与应用_第5页
资源描述:

《基于web文本挖掘技术的研究与应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、江苏大学硕士学位论文基于web文本挖掘技术的研究与应用姓名:郭健美申请学位级别:硕士专业:计算机应用技术指导教师:宋顺林20080605江苏大学硕士学位论文摘要Internet的快速发展使得信息资源急剧增长,越来越多的信息通过互联网被传送到世界各地。互联网中也积聚了越来越多的信息,网络成了人们获取信息的主要来源。但是由于它数据的半结构化和无索引特点,使我们充分利用这些丰富的信息变得越来越困难。以人工智能为基础的数据挖掘技术迅速发展,为解决这一问题带来了希望,’reb文本挖掘的概念应运而生。本文主要研

2、究web文本挖掘技术。本文首先介绍了web文本挖掘技术的研究背景、研究目的、研究意义以及国内外研究现状,接着介绍了1reb文本挖掘的一般过程,进一步介绍了1reb文本挖掘过程中的几个关键技术。针对web文本分类中的中文分词算法问题,设计了一个三层存储格式的词典并采用对字符串正向先取两字,随后逐一增一字的方法进行分词。针对经典挖掘频繁项集算法一Apriori算法所存在的问题,采用修剪频繁集策略,减少了候选项目的数量;采用优化连接策略,减少了执行次数,提高了Apriori算法的运行效率;采用库优化策略,

3、减少了数据库中事务的个数,并且避免了事务的大量重复扫描,实验证明这一策略可以提高算法的效率。本文最后设计并实现了一个中文web文本分类系统。把每个文本文档看作是一个具体的事务,把该文本文档中的频繁出现的词语看作是项,通过文档的词条集推出文档所属的类别。采用向量空间模型来表示文本,采用词和类别的互信息量作为特征项抽取的判断标准,采用CBA算法来构造分类器。经过分词实验,测试表明采用三层存储格式的词典及改进的分词算法改善了分词的速度和分词的精度。经过文本分类实验,表明应用改进的Apriori算法进行分类

4、测试,能有效提高数据的分类查准率和查全率。关键词:w曲文本挖掘;向量空间模型;.中文分词:关联规则;频繁项集;文本分类江苏大学硕士学位论文ABSTRACT‘‰恤翰piddevelopm吼tofIn:tem吒也ein内唧衄以onIes吼lrceshavebeenmuch硎ched.ThrougllInt锄etmore锄dmo托illfoma矗onaredeliv痂gt0everyWhe∞oftllewodd,缸dmore觚dmoreiIlf0珊ationa陀co咿gatedinInt咄t.Att11e

5、、,i印Vpo硫ofdeVelopmemal咖也network、衍llbethemaill∞urce丘.omwhichpIeoplegetin:f.0衄ation.Butthei疵mationinIntemetisinShortofo珞蛆i盈tion,枷fIlll0famaSsofpages.Thetc蛳queofda:taminill岛、)l『!llichiIlcludeS嬲sociationnlles锄alyzin岛cluSte血g,cl弱sific撕伽b硒ed0nanificialintell

6、ig∞ce(AI),b血gs900dappro∞hest0solVe跚chproblemS.SotllattlleconceptionofwebmiIlingappeared.Ⅲst11esisailnst0discussthewebtemmiIlingtecbIli啦s诵tllthebaCk刚dofdata●mlI】【1]ng·FirSt't:11ispapIerin仃0d1Jcessome也eo巧:kno、vledgeofⅡ圮webtextI血J1ingtecllllology'鲫ch鹄back

7、groundofmc托searckthepllfpo∞oftlle咖dy,Ⅱ圮si嘶fic锄ceofr贸earch觚dtllestan塔m10athome锄da.bma也andtlleniIl协础ucesⅡlegenemlprocessoftllewebte)【tmiIliIlg,锄d缸曲er矾№esscveralkeytec_11110lo西懿intlleprocessof、ⅣebteXtmiIling.Astotllealgoritllmofaline∞wordse鲫entationinmeWr

8、ebteXtcl弱Sificati呱itdesignsanlree砸er咖mgefo咖atoftlledi函oI珊叮锄1dusetllemetllodoftal【i119twowordspositiVelyatfirst,锄dt11en、Ⅳ0rdby、加rdt0∞gmentation.Ast0t11epfobl锄sexistjhgiIltheclaSsicala190ritllmofMiIliI培f托quent诹班母如-Apri商al昏戚也m,it1lSespIuni

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。