uima架构下web访问信息的研究和应用

uima架构下web访问信息的研究和应用

ID:33191002

大小:786.88 KB

页数:64页

时间:2019-02-21

uima架构下web访问信息的研究和应用_第1页
uima架构下web访问信息的研究和应用_第2页
uima架构下web访问信息的研究和应用_第3页
uima架构下web访问信息的研究和应用_第4页
uima架构下web访问信息的研究和应用_第5页
资源描述:

《uima架构下web访问信息的研究和应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、上海交通大学硕士学位论文UIMA架构下Web访问信息的研究和应用姓名:卢群申请学位级别:硕士专业:计算机应用指导教师:张忠能20070201上海交通大学硕士学位论文UIMA架构下WEB访问信息的研究和应用UIMA架构下WEB访问信息的研究和应用摘要Web和数据挖掘都是目前国际上信息领域的热门研究方向。而Web数据挖掘是两者的结合,是一个新兴且富有挑战性的科研领域。作为Web数据挖掘的一个分支,Web访问信息挖掘的任务是从Web用户的访问信息中抽取隐藏的知识。本文首先介绍了Web数据挖掘的提出原因、定义及分类、研究Web数据

2、挖掘的重要意义和难点,指出Web数据挖掘是Web技术与数据挖掘技术的结合。Web访问信息是Web数据挖掘的一个分类,通常分数据提取和数据挖掘两个过程,给出了Web访问信息挖掘的过程模型图,讨论了Web访问信息挖掘的各个步骤。UIMA(UnstructuredInformationManagementArchitecture)是一个非结构化信息管理的架构,集成了文字处理和信息检索等强大功能。Web访问信息处理的数据源是大量的非结构化信息,我们将介绍UIMA的架构原理,用它来负责数据提取。在Web访问信息提取方面,讨论了数据预

3、处理的简要过程,给出了删除Web日志文件中用户非显式请求记录的算法和Web框架页面过滤算法,给出了用户会话识别方法,提出了用户会话识别方法精确性判定的绝对方法与渐进方法。在进行了路径补充后,给出了数据预处理阶段各过程的结果及格式。在Web访问信息挖掘方面,提出了Web模糊聚类的概念,详细得地阐述了Web模糊聚类的过程模型,论述了Web模糊聚类在Web用户聚类和Web页面聚类方面的应用。针对群体用户的访问兴趣和访问序列的关系,讨论了当前基于兴趣度的路径聚类算法的优缺点,定义了新的聚内中心并给出了算法实现。文末总结了Web访问

4、信息的研究,还指出了Web访问信息挖掘需要进一步解决的问题和发展的趋势。关键词:Web数据挖掘;Web访问信息挖掘;UIMA;Web模糊聚类;Web路径聚类4上海交通大学硕士学位论文UIMA架构下WEB访问信息的研究和应用AbstractWebDataMining(WDM)isaveryhotresearchtopicwhichcombinestwoactivatedresearchareas:DataMiningandWorldWideWeb.WDMcanextractinteresting,potential,usef

5、ul,novelandhiddenpatternsfromwebdocumentsandtheusers’activitiesonweb.AsabranchofWDM,WebUsageMining(WUM)hasbeengainingalotofattentionbecauseofitspotentialcommercialbenefits.Theknowledge,obtainedthroughtheWUMcannotonlydirectthewebusers’navigationsbutalsoassistthedes

6、ignofthewebsite.Atfirstweintroducedthereason,definitionandclassificationofWebDataMining,andthenintroducedthesignificanceanddifficultiesofWebDataMining.WebDataMiningisthecombinationofWebtechnologyanddatamining.WebUsageMiningusuallyconsistoftwoprocess:dataextractand

7、datamining.Wegavetheprocessmodelandelaboratedeverystepsofwebusageminingthoroughly.UIMA(UnstructuredInformationManagementArchitecture)isaarchitectureofunstructuredinformation,whichintegratemanypowerfulfunctionsuchaswordsdealandinformationsearch.Thedatasourceofwebus

8、ageinformationishugeunstructuredinformation,soweuseUIMAresponsiblefordataextractandpresentitsarchitectureprinciple.Indataextract,theprocessmodelofWUMisb

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。