欢迎来到天天文库
浏览记录
ID:33191002
大小:786.88 KB
页数:64页
时间:2019-02-21
《uima架构下web访问信息的研究和应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、上海交通大学硕士学位论文UIMA架构下Web访问信息的研究和应用姓名:卢群申请学位级别:硕士专业:计算机应用指导教师:张忠能20070201上海交通大学硕士学位论文UIMA架构下WEB访问信息的研究和应用UIMA架构下WEB访问信息的研究和应用摘要Web和数据挖掘都是目前国际上信息领域的热门研究方向。而Web数据挖掘是两者的结合,是一个新兴且富有挑战性的科研领域。作为Web数据挖掘的一个分支,Web访问信息挖掘的任务是从Web用户的访问信息中抽取隐藏的知识。本文首先介绍了Web数据挖掘的提出原因、定义及分类、研究Web数据
2、挖掘的重要意义和难点,指出Web数据挖掘是Web技术与数据挖掘技术的结合。Web访问信息是Web数据挖掘的一个分类,通常分数据提取和数据挖掘两个过程,给出了Web访问信息挖掘的过程模型图,讨论了Web访问信息挖掘的各个步骤。UIMA(UnstructuredInformationManagementArchitecture)是一个非结构化信息管理的架构,集成了文字处理和信息检索等强大功能。Web访问信息处理的数据源是大量的非结构化信息,我们将介绍UIMA的架构原理,用它来负责数据提取。在Web访问信息提取方面,讨论了数据预
3、处理的简要过程,给出了删除Web日志文件中用户非显式请求记录的算法和Web框架页面过滤算法,给出了用户会话识别方法,提出了用户会话识别方法精确性判定的绝对方法与渐进方法。在进行了路径补充后,给出了数据预处理阶段各过程的结果及格式。在Web访问信息挖掘方面,提出了Web模糊聚类的概念,详细得地阐述了Web模糊聚类的过程模型,论述了Web模糊聚类在Web用户聚类和Web页面聚类方面的应用。针对群体用户的访问兴趣和访问序列的关系,讨论了当前基于兴趣度的路径聚类算法的优缺点,定义了新的聚内中心并给出了算法实现。文末总结了Web访问
4、信息的研究,还指出了Web访问信息挖掘需要进一步解决的问题和发展的趋势。关键词:Web数据挖掘;Web访问信息挖掘;UIMA;Web模糊聚类;Web路径聚类4上海交通大学硕士学位论文UIMA架构下WEB访问信息的研究和应用AbstractWebDataMining(WDM)isaveryhotresearchtopicwhichcombinestwoactivatedresearchareas:DataMiningandWorldWideWeb.WDMcanextractinteresting,potential,usef
5、ul,novelandhiddenpatternsfromwebdocumentsandtheusers’activitiesonweb.AsabranchofWDM,WebUsageMining(WUM)hasbeengainingalotofattentionbecauseofitspotentialcommercialbenefits.Theknowledge,obtainedthroughtheWUMcannotonlydirectthewebusers’navigationsbutalsoassistthedes
6、ignofthewebsite.Atfirstweintroducedthereason,definitionandclassificationofWebDataMining,andthenintroducedthesignificanceanddifficultiesofWebDataMining.WebDataMiningisthecombinationofWebtechnologyanddatamining.WebUsageMiningusuallyconsistoftwoprocess:dataextractand
7、datamining.Wegavetheprocessmodelandelaboratedeverystepsofwebusageminingthoroughly.UIMA(UnstructuredInformationManagementArchitecture)isaarchitectureofunstructuredinformation,whichintegratemanypowerfulfunctionsuchaswordsdealandinformationsearch.Thedatasourceofwebus
8、ageinformationishugeunstructuredinformation,soweuseUIMAresponsiblefordataextractandpresentitsarchitectureprinciple.Indataextract,theprocessmodelofWUMisb
此文档下载收益归作者所有