基于多粒度树模型的Web 站点描述及挖掘算法

基于多粒度树模型的Web 站点描述及挖掘算法

ID:37593714

大小:707.57 KB

页数:12页

时间:2019-05-25

基于多粒度树模型的Web 站点描述及挖掘算法_第1页
基于多粒度树模型的Web 站点描述及挖掘算法_第2页
基于多粒度树模型的Web 站点描述及挖掘算法_第3页
基于多粒度树模型的Web 站点描述及挖掘算法_第4页
基于多粒度树模型的Web 站点描述及挖掘算法_第5页
资源描述:

《基于多粒度树模型的Web 站点描述及挖掘算法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、1000-9825/2004/15(09)1393©2004JournalofSoftware软件学报Vol.15,No.9∗基于多粒度树模型的Web站点描述及挖掘算法1+1,21,2,3田永鸿,黄铁军,高文1(中国科学院计算技术研究所,北京100080)2(中国科学院研究生院,北京100039)3(哈尔滨工业大学计算机科学与工程系,黑龙江哈尔滨150001)AWebSiteRepresentationandMiningAlgorithmUsingtheMultiscaleTreeModel1+1,21,2,3TIANYong-Hong,HUANGTie-Jun,GAOWen1(Institu

2、teofComputingTechnology,TheChineseAcademyofSciences,Beijing100080,China)2(GraduateSchool,TheChineseAcademyofSciences,Beijing100039,China)3(DepartmentofComputerScience,HarbinInstituteofTechnology,Harbin150001,China)+Correspondingauthor:Phn:+86-10-82649529,Fax:+86-10-82649298,E-mail:yhtian@jdl.ac.cn,h

3、ttp://www.jdl.ac.cnReceived2003-06-02;Accepted2003-07-08TianYH,HuangTJ,GaoW.AWebsiterepresentationandminingalgorithmusingthemultiscaletreemodel.JournalofSoftware,2004,15(9):1393~1404.http://www.jos.org.cn/1000-9825/15/1393.htmAbstract:Withtheexponentialgrowthofboththeamountandthediversityofthewebinf

4、ormation,websiteminingishighlydesirableforautomaticallydiscoveringandclassifyingtopic-specificwebresourcesfromtheWorldWideWeb.Nevertheless,existingwebsiteminingmethodshavenotyethandledadequatelyhowtomakeuseofallthecorrelativecontextualsemanticcluesandhowtodenoisethecontentofwebsiteseffectuallysoasto

5、obtainabetterclassificationaccuracy.Thispapercircumstantiatesthreeissuestobesolvedfordesigninganeffectiveandefficientwebsiteminingalgorithm,i.e.,thesamplingsize,theanalysisgranularity,andtherepresentationstructureofwebsites.Onthebasis,thispaperproposesanovelmultiscaletreerepresentationmodelofwebsite

6、s,andpresentsamultiscalewebsiteminingapproachthatcontainsanHMT-basedtwo-phaseclassificationalgorithm,acontext-basedinterscalefusionalgorithm,atwo-stagetext-baseddenoisingprocedure,andanentropy-basepruningstrategy.Theproposedmodelandalgorithmsmaybeusedasastarting-pointforfurtherinvestigatingsomerelat

7、edissuesofwebsites,suchasqueryoptimizationofmultiplesitesandwebusagemining.Experimentsalsoshowthattheapproachachievesinaverage16%improvementinclassificationaccuracyand34.5%reductioninprocessingtimeove

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。