Web数据挖掘论文.doc

Web数据挖掘论文.doc

ID:61787353

大小:27.50 KB

页数:4页

时间:2021-03-20

Web数据挖掘论文.doc_第1页
Web数据挖掘论文.doc_第2页
Web数据挖掘论文.doc_第3页
Web数据挖掘论文.doc_第4页
资源描述:

《Web数据挖掘论文.doc》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、Web数据挖掘论文1Web数据挖掘面临的问题目前面向Web的数据挖掘面临的问题,主要有两个方面:1.1数据库环境的异构型Web上的每个站点就是一个数据源,数据源之间是异构的,外加上各个站点的信息和组织的不同,Web网站就构成了一个巨大的异构数据库环境。要对这些数据进行挖掘,首先,要解决各个站点之间的异构数据集成,提供用户统一界面,从复杂的数据源中取得所需的有用的信息知识。其次,有关Web上的数据查询。1.2数据结构的半结构化Web上的数据比较复杂,各个站点的数据都独立设计,具有动态可变性。虽然Web

2、上的数据形成半结构化数据。这些问题是进行Web数据挖掘所面临的最大困难。2XML技术在Web数据挖掘中的优势Web数据的异构使Web数据挖掘变得十分困难,通过XML可以解决这个问题。因为XML文档具有很好的自我描述性,他的元素、子元素、属性结构树可以表达极为丰富的语义信息,能够很好的描述半结构化的数据,因此在网络数据集成、发送、处理和显示的方面。开发人员能够用XML的格式标记和交换数据。XML在三层架构上为数据的处理提供了有用的途径。利用XML,Web设计人员能够构建文档类型定义的多层次互相关联的系

3、统、元数据、数据树、样式表和超链接结构。基于XML的Web数据挖掘技术,能够使不同来源的结构化的数据很容易地结合在一起,解决Web数据挖掘的难题。2.1XML技术在Web数据挖掘中具体作用利用XML技术我们在Web数据挖掘中可以完成以下几点:2.1.1集成异构数据源4学海无涯XML是一种半结构化的数据模型,可以完成和关系数据库中的属性一一对应,从而实施精确地查询与模型抽取。XML可以搜索多个不同数据库的问题,以实现集成。2.1.2和异构数据进行交换在Web数据挖掘程中,用户需要和异构数据源进行数据交

4、换,XML通过自定义性及可扩展性来标识各种数据,从而描述从各站点搜集到的Web页中的数据。XML的出现解决了数据查询的统一接口。2.1.3过滤信息并显示XML描述数据本身,可以使得定义的数据以不同的方式显示,对获取的信息进行裁减和编辑以适应不同用户的需求。以不同的浏览形式提供给不同的用户。3基于XML的Web数据挖掘模型我们通过对XML及Web数据挖掘的分析,设计了一个基于XML的Web数据挖掘模型通过提供一个Web数据挖掘的集成环境,提高数据挖掘系统的整体性能。工作流程如下:系统根据用户要求搜集W

5、eb资源,经数据转换器处理成相应的XML数据存储,提供给挖掘器使用;挖掘器则根据要求从选取相应的算法挖掘,输出挖掘结果;用户根据自己的满意度,获得需要的挖掘结果,调整挖掘要求进入新一轮数据挖掘。通过系统的维护我们可以加入新的挖掘算法,实现升级。3.1各模块具体功能3.1.1数据收集从Web站点上采集数据并存储,获得挖掘内容。针对异构数据源,可以多种方式提出相关需求,挖掘的重点是Web内容和Web使用的数据。把用户访问网站留下原始日志数据进行清洗、过滤和转换处理,转变成统一处理的数据结构,构建日志数据

6、库。3.1.2转换器对检索得到的数据用XML技术进行预处理,建立半结构化数据模型,抽取其特征的元数据,用结构化的形式保存,为挖掘模块提供所需的数据。3.1.3挖掘器4学海无涯不同的挖掘算法有不同适用情况,挖掘综合器根据具体的需求和挖掘方法的不同选择策略到挖掘算法库中去选择挖掘算法或种组合算法执行挖掘任务。随着应用的深入,知识库中的算法和规则不断的丰富。挖掘算法库是挖掘分析方法的综合库,以插拔的形式组织存放各种挖掘算法。314结果生成与评估以直观的方式提交挖掘结果,便于用户的评估。通过模式分析和兴趣度

7、度量,若结果使得用户满意,数据挖掘结束,输出用户感兴趣的内容;否则可以在此重新提出挖掘要求,重新挖掘。3.2系统各模块实现方法3.2.1数据收集数据的收集也涉及数据挖掘的技术,其过程是:通过人工输入办法,给出查询主题,找到相关的Web页,然后,通过相应的数据挖掘的算法对训练数据集提炼,利用提炼出的数据模式,进行更大范围的搜索,以获取更多的数据源。最终形成较新和有效XML文档。3.2.2数据的转换处理数据抽取转换是模型实现一个重要环节,其主要方法是把现有的Web页面转换成XML格式,并使用相关工具处理

8、XML结构数据检要把HTML中含有的与主题无关的标记过滤掉,然后转化到XML的格式存储。目前Web页面到XML文档的转换,有两部分数据构成:一是XML数据,二是非XML数据。XML数据,可以直接将它们提交给下一个模块。对于非XML数据,本文的实现方法是用到Tidy以改正HTML文档中的常见错误并生成格式编排良好的等价文档,还可以使用Tidy生成XHTML(XML的子集)格式的文档。通过构造相应的Java类完成将数据从HTML到XML的转换。3.2.3挖掘方法(1)文本

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。