欢迎来到天天文库
浏览记录
ID:9150829
大小:70.00 KB
页数:6页
时间:2018-04-19
《网站结构优化系统研究》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、网站结构优化系统研究网站结构优化是数据挖掘领域的研究热点之一,己经引起国内外学者广泛研究。本文旨在帮助人们深入分析网站结构优化技术,详细论述了网站结构优化模型及特点,并提出未来的工作方向,并这对今后的研究工作具有指导意义。匕关键词数据挖掘;网站结构;优化;模式发现;模式分析TP393A1674-6708(2011)57-0215-020引言随着互联网和电子商务的发展,对网站技术的幵发提出了更高的要求,建设一个更合理、注重个性化和相关性的网站成为研究的热点,很多的学者从不同角度、不同方向提出了网站结构优化技术[1-4],也开发Y相应的系统或模型,但是尚未从整体上去把
2、握网站结构优化技术。本文设计了一个较为常用的网站结构优化系统,并仔细分析每一阶段的特点。我们认为网站结构优化是指Web结构挖掘内容,其对象是网站本身的超连接,即对Web文档的结构进行挖掘。我们利用相应的算法,发现Web文档之间链接情况的有用信息,巾于文档之间的超链接反映了文档之间的包含、引用或者从属关系,因此引用文档对被引用文档的说明往往更客观、更概括、更准确。1网站结构优化系统本文设计的网站结构优化系统,包括4个主要阶段:分别是数据采集、数据预处理、模式发现和模式分析等。1.1数据采集网站数据采集是网站结构优化的前期步骤,也是后续工作的基础。简单的说就是获取网站
3、的原始数据和相关信息。此阶段主要分为四种形式,Web服务器端数据采集、客户端的数据采集、应用服务器数据采集以及代理服务器端数据采集等。Web服务器段数据采集是指从Web服务器获取原始的日志文件,这些円志文件中记录很了多的网站信息。客户端的数据采集主要是根据客户对网站服务器的点击行为,产生的IP地址、点击时间、次数以及点击的序列,可以从中获取用户对网站不同页面的关注度的数据,从而得到相应用户的兴趣度。针对网站数据采集设计的方法和系统很多,但是最为常见的还是Web服务器端和客户端的数据采集,如文献[5]阐述了通用网上商店自动数据采集引擎的设计流程,提出丫应用XML和关
4、系型数据库的解决方案,为利用已存的大量廉价以至免费的数据信息。文献[6]提出基于用户浏览行为的客户端数据采集的方式,有效解决Web使用记录挖掘中数据采集问题。1.2数据预处理从网站中获取的信息比较复杂,包含各种各样的错误和无效信息。这些数据需要提前预处理,转化成为适合数据挖掘的数据格式。数据预处理阶段包括H志预处理、数据清理、识别用户和路径修补4个模块:日志预处理模块包括将日志文件导人到数据库中,期间的字段根据日志格式中的字段进行选择定义;数据清理从Web日志文件中过滤无关的页面请求(如图形等)以及不成功的页面请求,在某些文献中被定义成为数据净化,就是指删除一些与
5、Web日志挖掘无关的数据;识别用户是指从Web円志记录中找出访问网站的用户,可以采用IP+Agent机制实现;路径修补(或者称为路径完善)将由于缓冲而造成曰志文件中丢失的重要用户访问链接记录根据站点结构补充完整,以便后续结构优化模块提供更为准确的用户访问记录。很多的学者对Web数据的预处理做了相应的研究,如文献[7]设计了用户识别、访问操作识别和路径完善三个步骤的关键算法。1.3模式发现模式发现阶段包括序列模式挖掘、关联规则挖掘技术和聚类分类分析三部分,这三部分都是数据挖掘领域的研究热点。序列模式挖掘是指挖掘相对于时间或其他模式出现频率高的模式。该技术被广泛地应用
6、于各种序列数据集中,如以单词作为文档序列,研究在不同文档中单词序列的出现概率;网站点击流数据,用于挖掘用户的频繁点击模式等。在网站结构优化中,关联规则主要用于发现用户之间、页面之间以及用户浏览页面和网上行为之间存在的潜在关系,即挖掘出用户在一个访问期间(Session)从服务器上访问的页面或文件之间的联系。聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性,而分类也能起到相似的作用。1.4模式分析模式分析是从一批数据中寻找普遍关系的过程。它逐渐成为许多学科的核心,从神经网络到所谓句法模式识别,从统计模
7、式识别到机器学习和数据挖掘,模式分析的应用覆盖了从生物信息学到文捫检索的广泛领域。我们这里所指的模式分析阶段是指网站结构优化过程中的最后一个重要步骤包括序列模式分析和频繁访问模式分析两部分。最常见的模式分析形式是像SQL那样的知识查询机制,另一种方法是把Web使用数据装入数据仓库,以便执行0LAP操作[8]。2网站结构优化中主要算法研究梳理相关文献,不少学者和文献都从本系统中的某一阶段提出了相应的优化算法,有统计分析、人工神经算法、关联规则、决策规则、贝叶斯分类、最近邻分类、聚类分析、模糊集合、模糊逻辑、趋势分析,转折点检测等,这些算法不外乎在我们设计的系统里面,
8、覆盖了每一
此文档下载收益归作者所有