基于xml的web内容挖掘研究

ID：33087458

大小：2.37 MB

页数：71页

时间：2019-02-20

资源描述：

《基于xml的web内容挖掘研究》由会员上传分享，免费在线阅读，更多相关内容在学术论文-天天文库。

1、重庆大学硕士学位论文基于XML的Web内容挖掘研究姓名：周翔申请学位级别：硕士专业：计算机应用技术指导教师：黄仁20070420重庆大学硕士学位论文中文摘要摘要随着互联网的发展，www上信息的快速增长，www为人们提供了大量的信息，但也使得我们陷入一个矛盾，那就是一方面人们迫切地需要从Web上快速、有效地获取知识，另一方面是Web上信息的数量庞太大并且信息内容结构复杂，处理这些信息具有很多困难。为了解决这个矛盾，Web挖掘技术提供了一种途径，目前Web挖掘的研究正处在不断发展的阶段，需要在理论、实现方法与技术上进行大量的研究。w曲挖掘技术是传统数据挖掘技术在Web环境下的应用

2、，从大量的Wed文档集合和用户浏览Web的数据信息中发现蕴涵的、未知的、有潜在应用价值的、非平凡的模式。根据Web挖掘研究的对象，Web挖掘分为三类：Web内容挖掘，Web结构挖掘和Web使用记录挖掘，w曲内容挖掘是论文研究的主要内容。由于现有的搜索引擎仅用于Web上的信息检索，无法发现Web上潜在的知识，多数用户在用搜索引擎给出的搜索结果时都很难从中发现自己感兴趣的内容，为了解决这个现状，论文展开了对Web内容挖掘技术的研究。论文分析了现有的数据挖掘、Web挖掘和XML技术的一些基本概念、方法和技术，通过对半结构化数据的处理及所涉及的关键技术，如抽取方法、转换算法等方面的研

3、究，提出了一种基于栈结构的数据格式转换方案，将半结构化的HTML数据转换为xM嘴式的结构化数据，得到有效的)叫嘴式的待挖掘数据。提出了利用XML数据建立供挖掘使用的多层Web数据库的方法。通过对现有数据挖掘的决策树算法和聚类分类算法的研究，根据实际应用的需要对这两个算法进行了修改，使之适用于当前w曲挖掘任务。论文的构想通过构建一个基于XML的Web挖掘系统一-Webs肋得到实现。该原型系统根据用户输入的查询信息对搜索到的Web页面内容进行挖掘，系统由w曲页面数据采集器、预处理器、数据转换／抽取器、挖掘综合器、和用户界面以及多层数据库6大部分组成，为人们提供了一个对在Web上得

4、到的搜索结果进行分析挖掘的Web挖掘工具，可帮助人们更快捷、有效地从搜索结果中获取感兴趣的内容。关键词：HTML，XML，数据挖掘，Web内容挖掘重庆大学硕士学位论文英文摘要AbstractWithIntemetdevelopment,theinformationOilWWWincreasesfast．WWWpro“dcsmassiveinformationforpeople,butalsocausesustofallintoaeontradietionwhichisOiltheolaehand,peopleneedt0acquireinformationfromWWwfas

5、tandeffectively,ontheotherhand,theinformationonⅥr、717ⅥrisSOhuge．strucUlreoftheinformationiscomplicate．andtherealemanydifficultiesfordealingwiththeinformation．Inordertoresolvethiscontradiction,theWebminingtechnologyprovid豁away,atpresenttheresearchofWebminingisindevelopingstage，andneedsmuchre

6、searchintheory,implementationmethodandtechnology．TheWebminingtechnologyisanapplicationoftraditiondataminingtechnologyundertheWebenvironment,whichisdiscoveringpatternofimplication,unknown,havinglatentapplicationvalue,uncxylnlnonfrommassiveWebdocumentsetandWebinformationofuse碍browsinbAccordin

7、gtoresearchobjectsofWebmining,Webminingdivid嚣intothreekinds：Webcontentmining,Webstructuremining,andWebuselogmining．Webeontentminingtechnologyismainlyresearchedinthepaper,thepllrposeofresearchisforsolvingtheproblemthatnowsearchenginesonlyareusedininformat

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 71



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

基于xml的web内容挖掘研究

基于xml的web内容挖掘研究

相关文章

相关标签