基于URL特征的网站结构信息挖掘刀疤鸭

基于URL特征的网站结构信息挖掘刀疤鸭

ID:37377751

大小:694.09 KB

页数:15页

时间:2019-05-22

基于URL特征的网站结构信息挖掘刀疤鸭_第1页
基于URL特征的网站结构信息挖掘刀疤鸭_第2页
基于URL特征的网站结构信息挖掘刀疤鸭_第3页
基于URL特征的网站结构信息挖掘刀疤鸭_第4页
基于URL特征的网站结构信息挖掘刀疤鸭_第5页
资源描述:

《基于URL特征的网站结构信息挖掘刀疤鸭》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于URL特征的网站结构信息挖掘1王晓飞1(北京邮电大学模式识别实验室)摘要:本章首先深入的研究了网站的结构和URL的特征,然后制定了三元组节点的URL层次树的构建规则,利用建立的URL层次树描述网站的层次结构,最后设计了根据URL层次树对URL进行网页分类方法。构建URL层次树,首先要根据网站的首页建立URL层次树的根节点,然后利用网络爬虫,将URL层次树添加枝叶,最后对形成的URL层次树,进行噪声无用信息剪枝,形成最终的网站核心URL层次树。利用URL层次树进行URL分类的过程,首先需要建立URL解析

2、器,用于规范和分解URL;其次,利用URL层次树和URL相似度公式,将待分类URL和已知节点URL相似度匹配,找到所属类别,实现分类。实验证明,该方法有效简单,分类效果准确。关键词:URL层次树;网站结构;URL相似度;链接结构;URL特征中图分类号:TM393文献标志码:A0引言随着互联网的快速发展、网络信息的急剧膨胀,互联网提供的信息越来越多变成大量、广泛、动态、分散、不易管理的信息。URL作为网络资源的唯一地址标识,具有很多有效的特征,例如:时序特征、正交特征、长度特征等。利用URL特征不仅可以重构

3、网站的层次结构关系,优化网站结构,合理组织网站信息关系,而且可以快速鉴别网页的类别,提高搜索引擎、推荐系统的运行效率,有效的更新各类别的网页。一个网站一般包含三种结构类型的网页:首页式、列表式和正文式。这三种结构的网页功能各自不同,处理的方法也不同,当我们需要对一个网站进行信息挖掘时,往往需要针对不同的类别进行分析。本文通过URL特征构建网站的层次结构树,不仅能够帮助用户分析网站的主题层次,而且能够自动识别URL网页在网站的所属类别。这种方法既能避免人工分类所带来的时间、人力耗费,又能弥补单纯基于向量空间

4、模型分类准确性过低的缺欠。1相关工作根据文献1所说:Web网站表现为一个图,它的页面是图的节点,节点和节点之间的弧,表现为页面之间的一种关联。要做的工作就是从这些关联中去抽取[1]出相应的层次结构,也就是从一个图的关系中抽取出一棵树的层次关系。通过对大量的文献阅读,发现目前网站的层次结构抽取方法都类似文献1总结的过程:对网站的拓扑结构进行分析,提取关键节点和关键链接,形成简约的层次结[2][3][4]构分类树。这样的方法通过逐个扫描具有源代码的Web网站每个页面,虽然最终能够获取到网站的层次结构树,但是最

5、后形成的层次结构树无法用于页面的区分,一些方法单纯的分析URL链接字符串,也无法获取网站的主题信息。本文采用三元组构建URL层次树,用于映射网站的层次结构。构建的URL层次树不仅能够自动构建网站的链接结构,描述网站的主题层次信息,而且能够用于URL页面的类别识别。2网站结构特征研究2.1网站的结构研究网站的结构指的是网站中页面之间存在的层次关系,按性质可以分为物理结构和链接结构,这两种结构具有既有区别又紧密联系。网站结构主要有以下几点关键的作用:(1)网站结构可以影响网站内部页面的重要性:网站结构在决定网

6、站内部页面的重要性方面,起到非常关键的作用,比如合理的内部链接策略就可以对重要页面进行突出、推荐等操作;(2)网站结构是衡量网站用户体验好坏的重要指标:清晰的网站结构可以帮助用户快速获取所需的信息;(3)合理的网站结构可以引导搜索引擎抓取更多有价值的页面;通过对网站结构的分析,可以获取到网站的层次体系,例如栏目的划分、内容的关系、主题层次的结构等,利用这些信息可以优化网站结构,改善用户体验,提高网站对搜索引擎的友好性。2.1.1网站的物理结构网站物理结构,又称为网站的目录结构,就是指网站的实际目录结构,网

7、站[5]文件服务器上的实际物理存储方式。网站物理结构,一般分为网站扁平结构和网站树形结构。扁平结构的网站,就是网站所有的网页都存放在网站的根目录这一级别,形[5]成一个扁平的物理结构。多用于建设一些中小型企业网站。优点:有利于搜索引擎抓取。缺点:内容杂乱,用户体验不好。树形结构,就是在根目录下分成多[6]个类别(目录),然后在每个类别下再存放上属于这个类别的网页文件。树形结构的网站一般适合类别多,内容量大的网站,像资讯站,电子商务网站等等。优点:分类详细,用户体验好。缺点:分类越深,不利于搜索引擎抓取内容

8、。2.1.2网站的链接结构网站的链接结构,也可以被称作网站的逻辑结构,指的是由网站内部各页面[7]之间相互链接所形成的链接网络图。一般网站的内部链接分为三种基本方式:(1)树状链接结构:这种结构一般是一对一的结构,首页链接->二级页面->三级页面。这样的结构优点是条理清晰,但是访问效率低;(2)星状链接结构:这种结构一般是一对多的结构,每个页面之间都可能存在链接。这样的结构的优点是访问方便快捷,缺点是链接态度奥,条理混乱;(3

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。