欢迎来到天天文库
浏览记录
ID:33608414
大小:2.90 MB
页数:44页
时间:2019-02-27
《基于文本内容的网页过滤技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、兰州大学硕士学位论文基于文本内容的网页过滤技术研究过滤和网页分类联系起来了,在本文中,通过分析网页文本内容,对网页分类并最终实现网页过滤任务。将这种网页过滤技术称为“基于文本内容的网页过滤"或者“网页文本内容过滤”。这种内容过滤技术提供了更为准确的网页过滤方法,可以自动获得网页的特征和变化。在具体的生产应用环境当中,分析网页文本内容的发生时刻有两种情况:1)在用户访问某网页时实时分析网页内容,这就会产生一个很严重的问题,这个问题主要体现在:对网页内容实时分析给用户浏览体验带来的延时是不可以接受的。对文字内容进行比较分析需要大量的计算资源,更不用说图
2、片信息。试想一下每一个用户每点击一个链接都要等待数十秒钟,这还是比较好的情况。一般的企业网络内每秒钟都会有数个到数十个HTrP连接建立,这对实时的内容分析来说是不可完成的任务。2)绝大部分网页文本内容过滤产品采取了一个折衷的办法。他们事先对访问量较大、名气较大的网站和网页的文本内容做分类的工作,然后把URL、m地址和内容分类对应起来,建立和维护一个互联网网页类别数据库,例如WWW.playboy.com属于成人网站,news.900—e.com属于新闻网站,WWW.goo酉e.∞m属于搜索引擎,spons.silla.com.cll属于体育网站。当
3、用户访问这些网站上的页面时,文本内容过滤产品就可以根据事先的类别进行过滤,达到按文本内容过滤的目的。无论何时分析网页内容,它们都受制于网站或网页内容分类的效率和准确性。网页有它们自己的底层结构,使用HTML语言。特别是它们含有大量的噪声内容,比如广告和导航栏。也包含了很多图片,链接等。利用网页特有的信息来提高内容分类的效率和准确性,这是需要大力钻研的难题。13网页过滤与网页分类、文本分类文本分类的任务是根据预先确定好的类别体系,将待分类文本分到相应的类别中去。目前的网页分类过程有两个步骤,第一步是,从网页中删除噪声数据,抽取出能够反映网页真实意图的
4、文本内容;第二步是,利用成熟的文本分类技术,对抽取得到的文本内容进行分类,从而最终得到网页类别。网页分类任务的实现依赖于文本分类。从文本分类角度来看,基于文本内容的网页过滤就是要求将网页中抽取出的文本分到某个类别中,然后根据用户的该网页类别的访问配置来决定是否要过滤该网页。.7.兰州大学硕士学位论文基于文本内容的网页过滤技术研究1.4内容安排第一章介绍了急速增长的互联网对人们的工作和生活产生的一些不利影响,为了让人们远离互联网的威胁,出现了几种不同的网页过滤手段,明确了本文的主要任务是,研究基于文本内容的网页过滤技术,即通过分析网页文本内容,对网页
5、分类,从而达到网页过滤的目的。第二章中,讨论了文献中的各种网页文本抽取方法,它们有基于文档结构的、基于链接的和基于摘要的等,最后总结了优缺点,提出了一种基于在同一网站中寻找相似网页的文本抽取方法。第三章介绍了一些常用的文本分类中采用的特征选择方法和文本分类方法,特征选择方法包括,文档频次、互信息、信息增益、统计量和相对熵,文本分类方法包括k近邻(k-NearestNeighbor)、贝叶斯分类器(Bayesianclassifiers)、支持向量机(SupportVectorMachine,SVM)等等。以及文本分类任务中的阈值策略和评测方法。第四
6、章以Surfcontrol公司WebFilter产品的两个分类结果集分别作为训练集和测试集,使用本文提出的网页内容抽取技术从网页中获取文本信息,以贝叶斯分类方法来对文本进行分类,在实验后分析了网页分类的结果。最后在第五章,为了让基于文本内容的网页过滤产品准确的跟踪互联网的变化,本文从如何更新网页类别库入手,剖析互联网的特征,在此基础之上,设计了新的从互联网中获取网页时采用的策略。.8.兰州大学硕士学位论文基于文本内容的网页过滤技术研究2网页文本内容抽取基于文本内容的网页过滤,在分析网页时,其目的就是从一个内容繁杂的网页中抽取有用的文本信息。网页有它
7、们自己的底层结构,使用的是HTML语言。特别是它们含有大量的噪声内容,比如广告和导航栏。也包含了很多图片,链接等。这为从网页中获取文本的任务变得异常复杂。文献中提出了各种网页文本抽取方式,相关的工作不约而同的将精力集中在如何从网页中抽取有效文本信息的方法上。2.1网页文本抽取方法2.1.1基于文档结构的文本抽取网页除了文本内容之外,还有图片,视频和其他的多媒体内容,以及文档的结构也提供了许多信息。一个人一眼就可以将网页分类,有时候根本不需要知道它的文本内容。他使用了这个网页的结构,包含的图片,链接,以及它们的位置关系。基于文档结构从网页中抽取重要的
8、文本来分类,可以1)根据网页布局,找出最能代表语义的部分;2)找出特定标签的文本,比如,heading,table,par
此文档下载收益归作者所有